千億數據標注巨頭創始人訪談，揭秘標注產業內幕

liuaqbb 2025-09-02

展開全文

前不久，Scale AI的競爭對手、數據標注公司Surge AI啟動公司史上首輪融資，該公司尋求超過150億美元（約合人民幣1075億元）的估值，并募資 10 億美元引發了市場關注。

本文整理了近期Surge AI創始人 Edwin Chen 接受 No Priors、20VC 的訪談，精選了其中與高質量數據、數據標注、合成數據等相關內容，供大家參考。

來源：Founder Parker

Surge AI，華人創始人，2020 年創立，120 人左右的團隊，去年營收達到 10 億美元，至今0融資，Google、OpenAI 和 Anthropic 都是它的客戶

對比之下，Scale AI 去年的收入是 8.7 億美元，已經是 F 輪融資，累計融資 16 億美元。

在被 Meta 收購了近一大半股份、創始人 Alexandr Wang 加入 Meta 之后，Scale AI 被谷歌、OpenAI 等大客戶暫停合作，Surge AI 的優勢更加明顯，隱約要成為數據標注領域的領頭者。

Surge AI創始人兼 CEO Edwin Chen 是一個很獨特的創始人，曾在谷歌、Facebook 和 Twitter 擔任機器學習工程師的他，對于數據有非常多有價值的深入思考。Edwin Chen 最近接受了幾家播客的采訪，對于創業和模型的數據訓練，輸出了不少觀點。

比如在他看來，創業是為了解決問題，而不是為了融資。合成數據現階段被高估，高質量的數據仍舊是壁壘。

以及，大語言模型競技場（LMArena），某種意義上把模型訓練方向帶歪了。

在合成數據和榜單已經成為了「共識」的當下，Edwin Chen 的不少觀點，特別是關于合成數據、高質量數據、人類數據的未來，值得一聽，本文整理了其中相關部分供大家參考。

TLDR:

數據標注領域的其他公司本質上只是「人力外包公司」，交付的不是數據，而僅僅是人力。Surge 定位其產品是：直接用于訓練和評估 AI 模型的高質量數據，包括監督微調（SFT）數據、偏好數據等。
Edwin Chen 用「畫邊界框」和「寫詩」來類比兩類數據。前者數據質量天花板很低，而后者（如寫詩、編程、數學證明）質量天花板極高，充滿了主觀性、創造力和智慧。生成式 AI 時代所需要的數據是后者。
未來 AI 訓練需要的是多種數據的結合，包括強化學習環境、專家推理過程的軌跡記錄等，單一的獎勵信號已經不足以捕捉復雜任務的全貌。
業界高估了合成數據的作用。很多客戶發現，海量的合成數據中絕大部分是無用噪音，且在現實世界的用例中表現得很糟糕。
即使模型能力超越人類，人類反饋也永遠不會過時。深入、細致、有良好品味的人類評估，是所有前沿模型實驗室公認的「黃金標準」。
大語言模型競技場，以及各種學術基準測試是「人工智能的一大禍害」。用戶憑 5-10 秒的直覺選擇，導致模型被訓練得去優化排版、表情符號和回答長度等表面特征，犧牲了事實性和指令遵循能力，本質上是在訓練模型產出「點擊誘餌」。
。

一、創業初心：堅信數據在推動人工智能發展上的力量

主持人：Surge 一直很低調，介紹下目前公司的規模和創立初衷。

Edwin Chen：去年，我們的營收突破了 10 億美元，我們幾乎是這個領域最大的人類數據服務商。我們最初的創業理念是，堅信人類數據在推動人工智能發展方面的力量。從一開始，我們就將重心放在確保我們能提供最高質量的數據上。

主持人：創立五年就做到 10 億營收，怎么起步的？

Edwin Chen：我們創立于 2020 年，成立五年了。我之前在 Google、Facebook 和 Twitter 工作過。我們創辦 Surge 的根本原因，就是為了解決我在大公司工作時反復遇到的一個巨大障礙：幾乎無法獲取訓練模型所需要的數據。我們想做的事情還有很多，但即使是做一些最基礎的事情，在獲取數據上都困難重重。

與此同時，我們還想構建許多更具未來感的東西。比如我們想開發下一代人工智能系統，但在當時，如果我們連構建一個簡單的情感分析分類器所需的數據都難以獲得，那我們又如何能取得更大的進步呢？這確實是最大的問題。

二、Surge 的壁壘就是高質量數據

主持人：先具體講講你們 10 億美元的營收是怎么來的？你們的產品到底是什么？

Edwin Chen：歸根結底，我們的產品就是數據。我們實實在在地向客戶交付數據，他們用這些數據來訓練和評估他們的模型。

想象一下，假如你是一家前沿 AI 模型實驗室，想要提升模型的編程能力，我們就會去收集大量的編程數據。這些編程數據有多種形式，可能是 SFT（監督微調）數據，我們負責編寫代碼解決方案或單元測試，這些是優質代碼必須通過的測試。也可能是偏好數據，比如提供兩段代碼或兩種代碼解釋，然后判斷哪個更好。還可能是驗證器，比如：「我創建了一個網頁應用，我想確認屏幕右上角有一個登錄按鈕，并且點擊這個按鈕后會發生某個特定的事件。」

數據可以有多種形式，但最終，我們交付的就是數據。

這些數據能幫助模型提升相關能力。與此緊密相關的是評估模型的概念，因為你也想知道，這個編程模型好不好？它是否比另一個更好？這個模型在哪些錯誤上表現得更差？我們能從中獲得什么洞見？因此，除了數據本身，我們常常還向客戶提供洞見，比如交付損失模式、失敗模式。所以，可能還有很多與數據相關的東西，但我們交付的數據及其周邊形成了一個應用生態，這就是我們的產品。

主持人：這個領域的公司經常被歸為一類，你們的業務和他們到底有什么不同？

Edwin Chen：我們思考的方式是，我們始終將數據質量作為我們的首要原則。因此，我們需要建立技術來衡量和改進這一點。人們通常沒有意識到質量控制有多么困難。

他們普遍認為人類很聰明，所以只要找一群聰明人來解決問題，就能得到高質量的數據。我們發現這完全是錯誤的。

比如說，就算你從麻省理工學院招募到會編程的人，他們實際上也只會試圖欺騙你。他們可能會把自己的賬戶賣給其他人，或者嘗試使用大語言模型（LLM）為你生成數據。他們會想出各種瘋狂的方法來欺騙系統。

因此，檢測低質量是一個非常具有挑戰性且充滿對抗性的問題。

我們發現，當你想獲得最高質量的數據來訓練那些已經超級智能的 LLM 時，你實際上需要構建大量非常復雜的算法。

你不能只是隨便招個人，或者僅僅通過簡歷篩選就期望得到好的結果。我認識的那些嘗試這種方法的團隊，在沒有意識到的情況下，實際上比其他人慢了 10 倍。

所以，歸根結底，這完全取決于我們構建的技術，以提取盡可能高質量的數據。

主持人：那你們的核心競爭力是什么？或者說，你們有什么是競爭對手做不到的？

Edwin Chen：我們區別于他人的地方在于，這個領域的許多其他公司本質上只是「人力外包公司」。他們交付的不是數據，而僅僅是「人頭」，這意味著他們最終沒有任何技術。

而我們的一個基本信念是，質量是最終極、最重要的事情。這些是高質量的數據嗎？這是一個好的代碼解決方案嗎？這是一個好的單元測試嗎？這個數學問題解對了嗎？這是一首好詩嗎？基本上，這個領域的很多公司，由于歷史發展的原因，一直將質量和數據視為同質化的商品。

我們經常這樣思考：想象一下，讓你在一輛車周圍畫一個邊界框。像 Sarah、你和我，我們畫出的邊界框可能都一樣。你去問海明威，再去問一個二年級小學生，最后我們畫出的邊界框都會是同一個。我們在這件事上做不出太大差異。

這種任務的質量水平天花板非常低。但換成寫詩這樣的事情，我就不擅長了，海明威寫的詩肯定比我寫的好得多。或者想象一下，一份風險投資的融資演示文稿（pitch deck），你做的肯定比我的好得多。

在如今的生成式 AI 世界里，你能創造的質量類型幾乎是沒有上限的。因此，我們這樣看待自己的產品：我們擁有一個平臺，擁有真正的技術，用來衡量我們的工作人員或標注員所產出內容的質量。如果你沒有那樣的技術，你就沒有任何衡量質量的方法。

主持人：你們怎么衡量產出內容的質量？靠人還是靠模型？

Edwin Chen：我們經常打一個比方，就像 Google 搜索或 YouTube 一樣。你有數以百萬計的搜索結果、網頁和視頻，你如何評估它們的質量？

比如，這是一個高質量的網頁嗎？它信息量大嗎？你實現這一點的方式是，你需要收集大量的信號——頁面相關信號、用戶相關信號、活動相關信號等，最終將所有這些都輸入到一個龐大的機器學習程序中。

同樣地，我們也收集關于標注員的各種信號，包括他們正在執行的工作、他們在網站上的活動等，然后將這些信息輸入到許多不同的算法中。我們內部有一個機器學習團隊，專門負責構建這些算法來衡量這一切。

主持人：現在模型的基線越來越高，對標注質量的要求也遠超普通人水平。這對你們的業務有什么影響嗎？

Edwin Chen：這其實也是我們內部做了大量研究的一個課題。

在人工智能對齊領域，有一個叫做「可擴展監督」的研究方向，它探討的核心問題是：如何讓模型與人類攜手合作，產出比任何一方單獨完成時質量更高的數據？

舉個例子，比如從零開始寫一個故事。幾年前，我們可能需要完全由自己從頭寫起。但如今，這種方式效率很低。你可以從模型生成的故事草稿開始，然后進行編輯。你可能會做大幅修改，也許故事的核心非常平淡、普通，但其中有很多繁瑣的工作，由人來做效率很低，也無法真正發揮我們希望注入到回答中的人類創造力和智慧。

所以，你只需要在一個基本框架上進行疊加和完善。當然，關于可擴展監督還有更復雜的思考方式，但核心問題就是如何構建合適的交互界面。如何構建合適的工具？如何以正確的方式將人與人工智能結合起來，讓他們變得更高效？這正是我們投入大量技術去研發的方向。

主持人：你們的很多競爭對手融了大量資金，規模卻比你們小得多。是你們做得太好，還是他們做得太差？

Edwin Chen：我認為是兩者兼而有之。我認為我們這個領域的許多其他公司，歸根結底都不是科技公司。它們要么是「車身修理廠」（body shops），要么是偽裝成科技公司的「車身修理廠」。

主持人：你說的「車身修理廠」和「偽裝的科技公司」具體指什么？

Edwin Chen：這個領域的很多公司沒有任何技術。

當我談到技術時，指的是他們沒有任何方法來衡量或提高他們所生成數據的質量。從某種意義上說，它們是純粹的「車身修理廠」，有時甚至沒有任何技術平臺供工人使用。

他們所做的就是像招聘人員一樣，尋找人才，看到簡歷上有博士學位就立即雇用，然后將這些人送到 AI 公司或前沿實驗室。

他們沒有技術，沒有辦法衡量這些工人的具體工作表現，也不知道他們是否做得好。他們無法進行 A/B 測試，

比如「如果我改變這個算法來提高質量會怎樣？」或者「如果我調整工具來改變這些問題，會提高工人的效率和質量嗎，還是會變得更糟？」

他們無法做這些事情，因為到最后，他們交付給客戶的只是「湊人數」，是人，而不是數據。

三、大家高估了合成數據的作用

主持人：最近很多討論都轉向了強化學習（RL）環境，這塊業務的難點在哪？

Edwin Chen：我們投入了大量工作來構建強化學習環境。我認為人們嚴重低估了這件事的復雜性，它不是簡單地通過合成方式就能生成的。你需要大量的工具，因為客戶需要的是極其龐大的環境。

主持人：能舉個例子嗎？什么樣的環境算「龐大」？

Edwin Chen：想象你是一名銷售人員。作為銷售，你需要與 Salesforce 交互，通過 Gmail 獲取潛在客戶，在 Slack 上與客戶溝通，創建 Excel 表格來追蹤線索。你可能還要撰寫 Google Docs 文檔，制作 PowerPoint 演示文稿來向客戶展示。

所以，你需要的是一個極其豐富的環境，它能真實地模擬一個銷售人員的整個工作世界，就像模擬你的整個世界一樣。

包括你桌面上的所有東西，未來甚至還包括你桌面之外的一切。比如，你的日歷，你可能需要出差去見客戶，然后你想模擬一場車禍的發生，你收到了通知，所以你需要提早一點出發。這些都是我們希望在極其豐富的強化學習環境中建模的元素。

那么問題是，你如何生成所有注入到這個環境中的數據？比如，你需要生成數千條 Slack 消息、數百封電子郵件，并且要確保它們之間彼此邏輯一致。

回到我那個車禍的例子，你還要確保環境中的時間是流動的，并且某些外部事件會發生。你如何做到這一切？而且，還要以一種有趣、有創意、同時又真實且不互相矛盾的方式實現。要確保這些環境內容豐富、有創造性，能讓模型從中學習到有價值的東西，這背后需要大量的思考。所以，是的，創建這些環境需要大量的工具和相當高的復雜性。

主持人：預測一下未來 5-10 年，哪種數據需求增長會最快？

Edwin Chen：我認為會是以上所有。我不認為單靠強化學習環境就足夠了，因為這些環境中的軌跡通常非常豐富且漫長，所以很難想象一個單一的獎勵信號就能涵蓋所有情況。

事實上，即使在今天，我們也常常從多個獎勵信號的角度來思考，而不是單一獎勵。一個單一的信號可能不夠豐富，無法捕捉到模型為解決某個極其復雜的目標所付出的全部努力。所以我認為，未來可能會是所有這些的結合。

主持人：合成數據被很多人視為威脅，你怎么看它和人類數據的關系？

Edwin Chen：我認為人們高估了合成數據的作用。

現在有很多模型在合成數據上進行了大量訓練，但這意味著它們只擅長解決非常學術的、基準風格的問題，而在現實世界的用例中表現得很糟糕。

合成數據使得模型善于解決合成問題，而不是實際問題。

我們有很多客戶告訴我們，他們花了一年時間在合成數據上訓練模型，現在才意識到所有的問題，并花了幾個月的時間來清理這些數據。

對他們來說，我們生成的幾千條高質量人類數據，其價值超過了一千萬條合成數據。

本質上，模型會在合成數據創造的狹窄相似性范圍內崩潰，它無法為模型提供所需的多樣性和泛化能力。

此外，模型會犯一些人類永遠不會犯的獨特錯誤。比如，一個 2025 年的前沿模型，在回復中會隨機輸出俄語和印地語字符，這種錯誤對任何一個二年級學生來說都是顯而易見的，但模型卻不知道。

因此，你總是需要這種來自人類的外部價值體系作為一種保障措施，以確保模型正常運行。

主持人：如果未來模型的能力全面超越人類，人類數據還有價值嗎？會不會被合成數據取代？

Edwin Chen：我認為人類反饋永遠不會過時。

首先，即使在今天，人們也常常高估了合成數據的作用。我認為合成數據確實非常有用，我們自己就大量使用它來補充人類的工作，就像我之前說的，有很多瑣碎的工作不值得花費人力。

但我們經常發現，很多時候客戶會來找我們說：「過去六個月我們一直在試驗合成數據，生成了一兩千萬條。但我們最終發現，99%的數據都沒用。我們現在正試圖篩選出那有用的 5%，但我們實際上準備扔掉其中的 900 多萬條。」他們常常會發現，甚至僅僅一千條高質量的人類數據，其價值遠超那上千萬個合成數據點。

第二點是，有時候模型需要一個外部信號。模型的思維方式與人類截然不同，所以你必須時刻確保它們與你真正想要的目標保持一致。

我認為對人工智能的一大禍害是大語言模型的競技場（arena）模式。

我認為目前人們常常在錯誤的優化目標上訓練模型。你應該這樣理解大語言模型競技場：人們輸入提示詞，得到兩個回答，然后花 5 到 10 秒鐘看一下，就選那個看起來更好的。他們不評估模型是否出現幻覺，不評估事實準確性，也不評估是否遵循了指令，他們純粹是憑感覺選，覺得「這個看起來更好，因為它排版好，有很多表情符號，看起來更令人印象深刻」。

人們就這樣基于主觀感受來訓練模型，卻沒意識到其后果。模型本身并不知道它的真正目標是什么，所以你需要一個外部的質量信號來告訴它正確的優化目標應該是什么。如果沒有這個信號，模型就會走向各種瘋狂的方向。就像你可能看到過一些長文本模型的表現一樣，它們會走向各種瘋狂、毫無意義的方向，所以你需要這些外部的評估者。

主持人：給當前 AI 發展的瓶頸排個序：算力、算法、數據質量，哪個最緊急？

Edwin Chen：數據質量絕對排在第一位，其次是計算能力，然后才是算法。

我根本不相信你可以僅僅通過投入更多計算能力來解決問題，因為如果沒有高質量的數據來訓練，或者沒有正確的目標和評估指標，你就會陷入一種看到虛假進步的陷阱。

我們經常聽到一些團隊說，在使用我們的產品之前，他們花了六個月甚至一年時間訓練模型，指標不斷上升，但后來才意識到他們的訓練和評估數據都很糟糕。

他們看到的所有進步實際上完全是誤導性的，他們的模型甚至比開始時還要糟糕。我們在 LM Arena 上經常看到這種情況，它基本上就是一個點擊誘餌。

人們投票給看起來更好的回復，但根本不花時間去核實事實。一個回復可能完全是幻覺，但因為它有表情符號和加粗的單詞，人們就會覺得它更好。

我們發現，在這個領域提高排名的最簡單方法就是讓你的模型回復更長。很多公司都在不知不覺中這樣做，他們添加越來越多的表情符號和格式，看到模型在排行榜上攀升，以為取得了進步，而實際上他們只是在訓練模型制作更好的點擊誘餌。

他們可能在六個月或一年后才最終意識到這一點，就像你在行業里可能看到的一些情況一樣，但這基本上意味著他們在過去六個月里毫無進展。

我認為，除了大語言模型競技場，你還有各種學術基準測試，它們與現實世界完全脫節。很多團隊專注于提升這些 SAT 風格的分數，而不是在真實世界中取得進展。我舉個例子，如果你去看 IF EVAL 的基準測試，它用來檢查模型能力的一些指令是這樣的：「你能寫一篇關于亞伯拉罕·林肯的文章嗎？每次提到亞伯拉罕·林肯這個詞時，確保其中五個字母大寫，其他字母小寫。」這算什么？

注：IF EVAL，全稱為「指令遵循評估」（instruction following eval），用于評估大模型是否能準確遵循復雜或特殊指令的基準測試。

有時候，客戶會跟我們說：「我們需要提高在 IF EVAL 上的分數。」這意味著，你看到這些公司和研究人員，他們不專注于現實世界的進步，而是在為這些愚蠢的 SAT 式基準測試進行優化。

四、高質量數據的終極標準是主觀創造力

主持人：Meta 最近和 Scale AI 的合作，對你們有什么影響？

Edwin Chen：我們已經是這個領域的頭號玩家了。這對我們是有利的，因為確實還有一些傳統的團隊在使用 Scale AI，他們只是不知道我們，因為我們過去一直很低調。

我們一直相信的一件事是，當人們使用這些低質量的數據解決方案時，他們可能是因為在人類數據上'栽過跟頭’。他們有了負面體驗后，就不想再使用人類數據了。于是他們會去嘗試其他方法，而那些方法老實說要慢得多，而且優化目標也不正確。所以我認為這整體上損害了模型的進步。因此，我們越是能讓所有這些前沿模型實驗室使用高質量數據，對整個行業來說就越有益。所以我認為，總的來說，這是一件好事。

主持人：所有人都想要高質量數據。在你們看來，到底什么才算「高質量」？你們又是怎么生產的？

Edwin Chen：比方說，你想訓練模型寫一首關于月亮的八行詩。

大多數公司的做法是，從 Craigslist 或通過招聘機構雇一堆人，讓他們寫詩。然后他們衡量質量的方式是：這是一首詩嗎？有八行嗎？包含「月亮」這個詞嗎？如果都滿足，他們就覺得：「好的，這三個框都打勾了，所以這肯定是一首好詩，因為它遵循了所有指令。」

注：Craigslist 是美國一個著名的大型分類廣告網站，用戶可以在上面發布和查找招聘、租房、二手交易等各類信息。

但你仔細想想，現實是你得到的是一些糟糕透頂的詩。它們確實是八行，也提到了月亮，但感覺就像是高中生寫的。于是其他公司會想：「好吧，Craigslist 上的人沒有寫詩經驗，那我就雇一堆有英語文學博士學位的人。」但這同樣糟糕，因為很多博士其實并不是好的作家或詩人。

你想想海明威這些人，他們肯定沒有博士學位，我甚至覺得他們大學都沒讀完。我想說的一點是，我畢業于 MIT，我認識的很多 MIT 計算機科學專業的畢業生，他們的編程水平很糟糕。所以，我們思考質量的方式完全不同。

我們想要的不是那種滿足條條框框要求、用了一些復雜詞匯的詩歌。我們想要的是諾貝爾獎得主會寫的那種詩。你真正需要的是認識到，詩歌其實是非常主觀和豐富的。

可能一首是關于月光灑在水面上的俳句，另一首采用了抑揚格韻律，還有一首則專注于月亮在夜晚升起時的情感。你真正想要捕捉的是，寫一首關于月亮的詩有成千上萬種方式，沒有唯一的正確答案。每一種方式都能讓你對語言、意象和詩歌有不同的洞見。而且你想想，這不僅僅是詩歌，數學也是如此，證明一個定理可能有上千種方法。

所以我認為區別在于，當你以錯誤的方式思考質量時，你得到的是同質化的數據，它優化的目標是評估者之間的一致性，以及滿足清單上的條條框框。

但我們試圖教給所有客戶的一件事是，高質量數據真正擁抱的是人類的智慧和創造力。當你用這種更豐富的數據來訓練模型時，它們不僅是學會遵循指令，它們真正學到的是那些更深層次的模式，是那些讓語言和世界變得有意義的東西。很多公司只是用人海戰術來解決問題，并認為這樣就能得到好數據。

我認為真的需要從第一性原理出發，去思考質量的真正含義；需要大量的技術來識別出，哪些是絕妙的詩歌，哪些是有創意的數學解法，哪些是設計優美、玩起來有趣的網頁應用和游戲，而哪些又是體驗糟糕的。你真的需要構建大量技術，并以正確的方式思考質量。否則，你基本上只是在規模化地生產平庸。

主持人：所以你們對「高質量」的定義，是需要在每個專業領域和客戶一起共建的嗎？

Edwin Chen：是的，我們有整體性的質量原則，但不同領域通常會有差異，所以是兩者的結合。

主持人：既然流行的基準測試和競技場排名都容易被操縱，那用什么來真正評估模型的好壞？

Edwin Chen：我認為所有前沿模型實驗室都視為黃金標準的替代方案，就是人類評估。真正到位的人類評估，需要花時間仔細審閱回答，進行事實核查，看它是否遵循了所有指令。你需要有良好品味的人來判斷寫作質量。這種花大量時間去做評估的概念，而不是只憑五秒鐘的感覺，我認為真的非常重要。因為如果你不這樣做，你基本上就是在訓練你的模型去生成類似「點擊誘餌」的內容。

主持人：所以 Surge 會不會嘗試把這種深度的人類評估做成標準化的產品，讓更多人用上？

Edwin Chen ：在內部，我們目前確實做了大量工作，與所有前沿模型實驗室合作，幫助他們理解自己的模型。我們持續評估它們，不斷為他們找出需要改進的薄弱環節。目前，這些工作很多是內部的，但我們確實想做的一件事是，也開始進行外部的推廣，幫助大家了解，這些不同模型有不同的能力：這個模型在編程上更強，那個模型在遵循指令上更好，而某些模型實際上幻覺很多，所以你不能太相信它們。我們希望開始做更多外部工作，來幫助整個行業更好地理解這一點。