上周A16z的future欄目(https://future.發表了一篇博客文章-' Data50:The World's Top Data Startups',列出了當今他們認為最好的數據領域的創業公司。讓我們看看這些公司都有哪些,以及A16z按照什么標準來進行評價的。在這個名單里,有不少公司我已經在我的公眾號介紹過,有些公司我正在計劃介紹。 01 A16Z為什么發布Data50? A16z發布Data50的背景就跟我們國家大力提倡數字化轉型升級一樣的原因,就是數據使用的需求越來越強烈。大到國家、政府、大型企業小到剛剛成立的創業公司甚至夫妻老婆店,都有使用數據來幫助自己的訴求。而使用數據的主體也從決策層、數據科學家、數據分析師等逐漸擴散到更多的個體。強烈的需求促進了數據基礎設施市場的大規模的發展。在2021年數據基礎設施的市場規模占企業基礎設施市場規模的五分之一,達到了700億美金。而這個高速增長的市場也促進了數據技術領域的創新,已經上市的Snowflake和Confluent大大地改變了企業應用數據的情況,現代數據技術棧正在形成郁郁蔥蔥的數據技術生態。2021年在現代數據技術領域有超過100億美金規模的投資,這也是為什么A16z決定發布2022年的數據技術創業公司Data50。這個名單的公司的總估值規模超過了1000億美金,融資規模超過145億美金。雖然2022年有很多不確定性,但是數據驅動是一個確定性的趨勢,因此相信2022年還會有更多在這個領域的投資,而且名單里很多公司會在2022年IPO。 02 Data50名單 下面咱們就來看一下這個Data50的名單都有哪些:
位列前10名的公司大部分是非常有名的公司了,有些公司已經在我的公眾號做過詳細的介紹。
在11到20名的公司里我比較熟悉的是DataRobot,Firebolt, Astronomer, Alation, Sigma Computing和Monte Carlo,其余的幾個則沒有那么了解。 11. DataRobot-這家公司屬于AI領域非常知名的公司,成立于2012年。最初是提供自動機器學習模型訓練的平臺,然后通過一系列的發展并購,目前定位于提供AI云平臺的企業。總體融資規模達到10億美金,估值也已經超過了60億美金。國內做AI平臺的第四范式則基于中國國情,走了另外一條服務、硬件、咨詢、平臺的路線。 12. Primer-這也是一家AI公司,提供利用AI能力幫助客戶進行文本內容挖掘的服務,可以直觀的理解為NLP As a Service。總融資規模為1.68億美金,估值大約為5億美金。 13. Snorkel-這是一家2019年才成立的AI平臺公司,也是做數據標注的。不過相對于傳統的手工標注,Snorkel提供的是程序自動化標注平臺,這樣訓練數據標注、模型訓練、模型部署、效果反饋然后再自動標注整個反饋loop就形成了,聽起來非常的美好。現在已經融資超過1.35億美金,估值更是超過10億美金。 14. Anyscale-又是一家AI平臺公司,也是2019年成立。這個是解決AI最后一公里問題的公司。仔細看他們家的技術,才發現是做Ray這個伯克利RiseLab開源的產品商業化的公司,難怪短短兩年時間就融資超過1.6億,估值超過10億美金。畢竟伯克利這個團隊孵化出來了Databricks以及Alluxio,在AI大規模運行方面賭Ray應該有比較大概率成功。 15. Firebolt-這個是由Sisence的CTO在以色列創立的一家大數據平臺公司,主打的是在大規模數據分析場景下的性能,魔改了國內非常知名的由俄羅斯的Yandex開源的clickhouse。2019年成立,到目前已經融資超過2.6億美金,估值達到14億美金。 16. Astronomer-這個是國外最知名的流程調度開源產品Airflow商業化的公司,主要提供云上基于Airflow的調度。成立于2015年,在上周剛剛融資2.13億美金,融資總規模達到了2.83億美金,估值也超過了10億美金。希望國產的開源DolphinScheduler能趕超它,郭大俠加油! 17. Alation-一個非常熟悉的名字,在2016年就調研過它。這是個成立于2012年的做數據治理的公司,發展到今天融資接近2億美金,估值12億美金。 18. Weights&Biases-這也是一家AI平臺公司,主要面向的是AI開發者,提供一個開發者優先的MLops平臺。可以幫助機器學習開發者管理數據集、模型效果以及自動模型訓練,并且支持協作、版本等等。公司在2018年成立,總融資規模兩億美金,估值超過10億美金。 19.Sigma Computing-這是一家在云上進行BI分析的公司,利用用戶比較熟悉的spreadsheet的UI表現形式,進行多維分析以及數據可視化。公司成立于2014年,總融資規模超過3.8億美金,估值超過10億美金。 20. Monte Carlo-這是一家數據可觀測性公司,2019年成立,融資規模超過一億美金,估值接近10億美金。關于數據可觀測性,可以參看公眾號文章數據可觀測性和相關的公司
22. Census-這是近幾年出現的的反向ETL的公司之一,2018年成立,融資總額超過了8000萬美金,估值也逼近10億美金。相關的介紹可以看公眾號文章反向ETL(Reverse ETL)以及相關的公司 23. Hex-這家公司是主打協同和知識分享的數據科學平臺,成立于2019年,剛剛完成自己的B輪融資5200萬美金的融資,總融資規模超過7000萬,估值估計在5億美金左右。 24. Hightough-這個公司跟Census一樣,也是做反向ETL的,同樣也是成立于2018年,兩個公司屬于完全的競爭對手。總融資規模達到了5200萬美金,估值差不多5億,在文章反向ETL(Reverse ETL)以及相關的公司也有介紹。 25. Amperity-一個成立于2016年的做CDP的公司,采用AI技術進行客戶數據的集成、挖掘和管理。總融資額達到了1.87億美金,估值超過10億美金。 26. BigID-我在2017年曾經調研過的一家公司,成立于2016年。做數據隱私和數據治理的公司,融資總額超過了1.6億美金,估值超過12億美金。 27. Privacera-這個公司也是做數據安全和數據治理的公司,成立于2016年。總融資額6800萬美金,估值在5億美金左右。 28. Immuta-也是做數據安全和數據治理的公司,側重在云上數據的訪問控制。成立于2015年,我在做數據安全產品的時候也調研過他們家。現在總融資額1.69億美金,估值在5億美金左右。 29. Bigeye-這個是做數據可觀測性的公司,與Monte Carlo做的事情一樣。更多信息參看數據可觀測性和相關的公司 30. Matillion-這是在歐洲成立的一家做數據集成的公司,跟Fivetran是競爭對手,也是一家獨角獸公司。2011年成立,總融資額達到了3.1億美金,估值超過15億美金。
31. Heap - Heap Analytics做的事情跟我曾經服務過的TalkingData的統計分析平臺類似,提供的是用戶分析相關的SaaS服務。最早的無埋點技術應該就是來自于他們家。Heap成立于2013年,總融資規模超過2億美金,估值在10億美金上下。 32. Tecton-這是一家做模型特征管理平臺的公司,主要服務于數據科學團隊進行特征的管理,應該是這個領域最為頭部的公司了。公司成立于2019年,總融資規模6000萬美金,估值大約在4億美金左右。我有個師弟正在這個方向進行創業。 33. Imply - 開源數倉引擎Druid的商業化公司,是華人創業的大數據公司。曾經有幸邀請過Imply創始人楊仿金參加過活動,那時候他剛剛成立Imply。Imply在2015年創立,目前融資總額1.15億美金,估值7億美金。 34. Sisu Data - Sisu Data是一家決策智能引擎公司,可以自動分析指標相關的數據特征,從而能夠幫助決策。公司成立于2018年,總融資額1.28億美金,估值大約在6億美金左右。 35. RudderStack - 一個面向工程師的開源CDP平臺,具體可以參看給工程師的CDP - 開源CDP廠商RudderStack。 36. ActionIQ - 也是一個CDP平臺公司,成立于2014年,總融資額超過1.4億美金,估值接近10億美金。 37. Clickhouse - 國內大數據圈已經非常有名的產品了,最早是俄羅斯搜索引擎公司開源的大數據分析平臺。2021年開始成立商業公司進行商業化,兩輪融資就拿到了3億美金,目前估值已經超過20億美金。 38. Airbyte - Fivetrans的開源競爭版本,具體可以閱讀公眾號文章不讓Fivetran獨美,Airbyte新晉獨角獸 39. Rockset - 一個在云上做大數據實時分析的公司,公司團隊核心成員參與過HDFS, Rocksdb等等的開發。公司成立于2016年,總融資規模6000多萬美金,估值在4億美金左右。 40. LabelBox - 與Snorkel類似,都是做數據標注相關的平臺。公司于2017年成立,總融資額達到1.89億美金,估值10億美金。
41. Explorium - 這是一個在AI領域的平臺,側重在數據增強,會根據數據科學家的需求從外部獲取并增強數據集中的數據。公司成立于2017年,融資總額超過1.25億美金,估值在7億美金左右。 42. Rasa - 是一個客戶體驗智能平臺,提供AI驅動的客戶服務助手,從而提高客戶的體驗。公司成立于2016年,融資總額為4000萬美金,估值在2億美金左右。 43. Prefect - 類似于Airflow,也是一個開源的數據流調度引擎。公司成立于2018年,總融資額7650萬美金。在云上進行數據流調度應該是個剛需,因此不會只有一家能夠生存。這個公司現在估值在3億美金左右。 44. Materialize - 這個公司也是做流式數據庫的,我專門有文章進行過介紹,參看流式數據上的SQL數據庫 - Materialize。 45. Coiled - 這個公司主要解決的是數據科學家在本地用python受到資源、穩定性等限制的問題,在云上提供python服務,可以理解為python cloud。公司2020年才成立,融資了2600萬美金,估值大約在1億美金左右。 46. Preset - 這個是把開源的數據可視化項目Superset進行商業化的公司,提供的是云上的BI,跟47名單Metabase做的事情一樣。Superset和Metabase我在19年都做過一些調研。Preset成立于2018年,總融資額為4840萬美金,估值在2億美金左右。 47. Metabase - 開源的數據可視化項目Metabase進行商業化的公司,成立于2014年,目前總融資額5100萬美金,估值應該也是2億美金左右。 48. Iterative - 解決AI工程化管理的平臺公司,采用的是open core方式,核心開源,然后通過云端服務來商業化。成立于2018年,總融資額2540萬美金,估值在1億美金左右 49. Robust Intelligence - 是一家做AI模型壓力測試的公司,從而能夠提高模型的健壯性。公司成立于2019年,總融資額4400萬美金,估值在2億美金左右。 50. Fiddler - 這是一家做AIops的公司,監測模型運行的狀態,從而發現模型運行的問題。公司成立于2018年,融資總規模達到4500萬美金,估值2億美金左右。 03 各個分類的表現 在Data50里邊, A16z把產品分為了7個大類,分別是Query&Processing, AI/ML, ELT&Orchestration, Data Goverance&Security, Customer Data Analytics, BI&Notebook, Data Observerbility。7個大類的公司分布如下: 按照公司數量進行統計,如下圖: AI/ML的公司數量最多,主要還是過去幾年AI持續火熱,另外AI也在從互聯網公司開始輻射到更多不同類型的企業,解決AI最后一公里的問題以及工程化的問題就成了必須。而數據越來越多,核心的數據基礎設施Query&Porcessing的公司也有不少,但是也在不同的細分。然后是ELT以及數據流程調度、數據治理和數據安全、客戶數據分析。這幾個分類都是在數據使用環節中,解決數據使用環節中的不同問題,都有足夠大的市場機會。數據可觀測性還處于早期,BI則因為現在企業用數據的場景在多元化,因此公司數量相對較少。 我們再來看看融資額度按照分類的占比: 數據查詢和處理占據了融資額度的半壁江山,主要原因是這個領域里幾位選手都已經是大型獨角獸了,Databricks自不用說,Dataiku、DataRobot、Clickhouse、Firebolt也都達到了幾十億美金的估值,這個領域里準上市公司是最多的公司。AI/ML領域則數量取勝占據第二位。Data Goverance&Security, ELT&Ochestration這兩個分類融資也比較接近,屬于市場還在成長期,預計未來還會有更多的公司和資金進入。 下面我們再看看國家地域的分布: 可以看到大部分的公司都集中在硅谷周邊,然后美國東部波士頓附近、歐洲也有一些公司。非常遺憾的是這里邊沒有一個中國和亞洲公司。中國本土在前年到去年因為Snowflake的原因,有很多資金投入到了Data Query和Processing領域,希望未來有公司能夠進入到世界的前列。也希望我們自己的產品在未來幾年能夠在歐美站穩腳步,并且進入到這個名單中。 接下來看看這些公司成立的時間: 我們可以看到大部分的公司都是成立于2024年之后,其中2019年成立的公司最多。AI的成熟促進了2019年大量AI/ML工程化相關的公司成立。遙想2019年我們幾個朋友私下聊天,還想AI工程化應該是個未來的機會,美國市場證明了我們的想法。而數據查詢和處理相關的公司則分布比較均勻,畢竟數據計算是核心的訴求,而公有云上做數據處理必然是一直存在的趨勢。ELT&Orchestration最近幾年也有不少公司成立,核心還是在云上數據建模、清洗和數據流調度正在成為剛需。 再看看按年的投資情況: 從這張圖可以看到,從2019年,數據領域的投資開始增加,然后2020年基本維持在2019年的水準,然后2021年投資額相對2020年基本上翻了3倍多,2022年剛剛一個季度,投資額就已經接近2020年的全年的水準了。這里雖然有美國放水資金充裕的原因,另外一個重要的原因是投資商都認可未來10年是真正的數據的10年,通過過去這些年的數據使用的探索,社會的方方面面未來都是數據驅動的,而支撐數據驅動的必然是這些科技公司的產品。 04 總結一下 看完了這個榜單,還是有些羨慕美國的生態的。由于自己也在從事數據工具方面的創業,最近半年多一直也在關注美國的現代數據技術棧。現在A16z做的這個總結很全面,從這些公司看,在數據技術領域,美國這些創業公司跟在垂直業務領域的SaaS公司走的路線很接近,都是找一個問題點,去解決過去解決不好的問題。由于周邊生態完備,大家都很容易跟周邊生態一起結合,然后去服務客戶。這些公司無論大小,只要能解決問題解決得好,就會有客戶買單。這樣,所有的公司都不需要把自己做成大而全的公司,很多公司現在的規模都不到100人,甚至不到50人,但是公司已經進入快速發展到快車道。從退出通道來講,海外正是因為有生態,這些公司退出通道也更多元,IPO,被收購等等。當然,最近接觸了一些同樣在創業的創業者,大家現在心態上也更務實了,越來越多的創業者都更重視產品,重視最終用戶。相信對用戶有價值的產品,最終能夠在市場上證明自己。 |
|