久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    1500篇關于提示工程的學術論文表明你所知道的一切都是錯誤的

     數據治理精英館 2025-08-22 發布于浙江
    那些年收入超過 5000 萬美元的公司正在做著與大家所教完全相反的事情經過六個月的深入研究,閱讀了1500多篇論文,并分析了真正推動業務成果的技術,我得出了一個令人不安的結論:網絡社區上流傳的大多數提示工程建議不僅無益,而且適得其反。
    那些收入 (ARR) 達到 5000 萬美元以上功能的公司并沒有遵循社交媒體討論中盛行的“最佳實踐”。他們系統性地采取了與傳統觀點相反的做法。聽起來不錯的東西和實際可行的東西之間存在著巨大的差距。
    這不僅僅是學術上的好奇心。了解在提示工程中真正有效的方法與在會議演講中聽起來不錯的方法,可能會決定哪些AI功能是用戶滿意的,哪些是耗費預算卻無法創造價值的。
    在分析了數百份研究論文和現實世界的實施之后,我發現了六個普遍存在的誤區,這些誤區正在誤導團隊,而成功的公司則采用了經過研究支持的現實方法。
    改變一切的研究
    在深入探討具體的誤區之前,重要的是要理解為什么傳統的提示工程智慧常常是錯誤的。大多數建議都來自于使用性能較差的模型進行的早期實驗、小規模測試的軼事證據,或未考慮生產環境復雜性的理論框架。
    相比之下,學術研究則涉及使用大型數據集進行受控實驗、對不同模型架構進行系統性比較,以及對哪些方法真正提升了性能而非僅僅出于直覺而進行嚴格的統計分析。一位在快速優化領域發表過大量論文的研究人員告訴我:“在人工智能領域,看似聰明的做法和實際可行的做法之間存在巨大差距。人們的決策是基于直覺,而不是證據?!?/span>
    我發現的六個誤區代表了流行建議和經驗證據之間最大的差距。
    誤區一:提示越長、越詳細,結果就越好
    在提示工程中最普遍的誤區是,提示越詳細、越長,結果就越好。這種直覺是有道理的——如果你向人類尋求幫助,提供更多背景信息和具體說明通常會帶來更好的結果。
    但人工智能模型的運作方式與人類不同。研究一致表明,結構良好的簡短提示通常比冗長的提示效果更好,同時還能顯著降低成本。
    最近的一項研究比較了不同任務類型提示的長度,發現結構化的短提示在保持相同輸出質量的同時,將 API 成本降低了 76%。關鍵在于結構,而不是長度。
    過長的提示實際上會降低性能,因為它會引入噪音、產生相互沖突的指令,或將重要的上下文擠到模型的注意力范圍之外。最有效的提示是精準且簡潔的語言。
    現實:結構比長度更重要。一個條理清晰的50字題目通常比一個冗長的500字題目效果更好,而且執行成本也低得多。
    誤區二:更多的例子總是有幫助的(少量提示法)
    少量樣本提示法(提供所需輸入-輸出對的示例)在大型語言模型的早期發展中變得流行,因為當時的演示顯著提升了模型的性能。這導致了一種假設:示例越多,結果就越好。
    最近的研究表明,這種假設不僅是錯誤的,而且可能對 GPT-4 和 Claude 等先進模型造成危害。
    現代模型足夠復雜,無需大量示例即可理解指令,而提供不必要的示例實際上可能會混淆模型或使其偏向不能很好地推廣到新輸入的模式。
    現實:像 OpenAI 的 o1 這樣的高級模型在輸入示例時實際上表現更差。它們足夠復雜,能夠理解直接指令,而示例可能會引入不必要的偏差或噪聲。
    誤區三:完美的措辭最重要
    提示工程中最耗時的環節之一是措辭——精心構思完美的措辭、調整語氣、優化用詞。許多團隊花費數小時討論是否應該使用“請”或特定的術語。
    研究表明,這種努力在很大程度上是錯誤的。提示的格式和結構遠比使用的具體詞語更重要。
    具體來說,對于 Claude 模型而言,無論具體內容如何,XML 格式與自然語言格式相比,性能始終提升 15%。這種格式優勢往往比精心的詞匯優化更有價值。
    現實:格式勝過內容。XML 標簽、清晰的分隔符和結構化的格式比完美的措辭更能帶來持續的改進。
    誤區四:思路鏈適用于一切
    思路鏈提示法(要求模型“逐步思考”)在研究顯示數學推理任務顯著提升后變得極為流行。這一成功促使其在各類問題中得到廣泛應用。
    但思路提示并非萬能的解決方案。它對數學和邏輯推理任務很有效,但對許多其他應用卻收效甚微,實際上還會損害某些任務的性能。
    具體來說,對于數據分析任務,研究表明,表格鏈方法(圍繞表格數據構建推理)比傳統的思路鏈方法提高了 8.69%。
    現實:思路鏈是針對特定任務的。它擅長數學和邏輯,但像表格鏈這樣的專業方法更適合數據分析任務。
    誤區五:人類專家寫出最好的提示
    認為人類專家是最好的提示工程師,這種假設在直覺上是有道理的。人類能夠理解上下文、細微差別以及特定領域的需求,而這些方式似乎無法被自動化所理解。
    最近關于自動提示優化的研究表明,這種假設是錯誤的。人工智能系統能夠比人類專家更有效地優化提示,而且速度顯著加快。
    比較人類提示工程師和自動優化系統的研究發現,AI 系統能夠持續生成性能更佳的提示,而且只需 10 分鐘,而人類則需要 20 小時。
    現實:人工智能在極短的時間內就能比人類更好地優化提示。人類的專業知識更應該用于定義目標和評估結果,而不是精心設計提示。
    誤區六:設定好之后就忘掉它
    或許最危險的誤區是,提示工程只是一次性的優化任務。團隊投入精力創建提示,將其部署到生產環境中,并假設它們會一直保持最佳狀態。
    實際數據顯示,隨著模型變化、數據分布變化和用戶行為演變,提示性能會隨著時間的推移而下降。那些憑借人工智能功能取得持續成功的公司將提示優化視為一個持續的過程,而非一次性任務。
    持續提示優化研究表明,與靜態提示相比,系統改進流程可以在 12 個月內將性能提高 156%。
    現實:持續優化至關重要。隨著系統性的改進流程,績效會隨著時間的推移顯著提升。
    5000萬美元以上ARR公司實際上在做什么
    那些開發可擴展、帶來巨額收入的人工智能功能的公司并沒有遵循社交媒體的建議。他們遵循著完全不同的策略:
    • 他們優化的是業務指標,而不是模型指標。他們關注的不是技術性能指標,而是用戶滿意度、任務完成率和收入影響。
    • 它們實現了提示優化的自動化。它們不再需要人工手動迭代提示,而是采用系統化的方法不斷測試和改進提示的性能。
    • 它們構建了一切。格式、組織和清晰的分隔符比巧妙的措辭或冗長的例子更重要。
    • 他們根據任務類型制定專門的技術。他們不會將思路鏈應用到所有問題上,而是根據具體問題類型匹配優化技術。
    • 他們把提示視為產品。與任何產品功能一樣,提示需要基于真實用戶數據持續維護、改進和優化。
    方法論差距
    這些謬論之所以持續存在,是因為學術研究與行業實踐之間存在根本的方法論差距。學術研究人員在多個模型架構上進行了有適當基線、統計顯著性檢驗和系統評估的受控實驗。
    行業從業者通常依賴直覺、小規模的 A/B 測試或特定用例的軼事證據。這形成了一個反饋循環,無效的技術會因為感覺正確而不是持續有效而得到強化。
    “應用人工智能的最大問題是,人們只關注有意義的東西,而不是真正有效的方法,”一家大型科技公司的機器學習工程師向我解釋道。“研究提供了直覺常常忽略的基本事實?!?/span>
    實際意義
    理解這些研究結果對于構建人工智能功能的任何人來說都具有直接的實際意義:
    • 從結構入手,而非內容。在措辭之前,先花時間整理格式和組織結構。
    • 盡早實現自動化優化。構建系統來系統地測試和改進提示,而不是依賴手動迭代。
    • 將技巧與任務相匹配。數學推理使用思路鏈,數據分析使用表格鏈,其他大多數應用則使用直接指令。
    • 衡量業務影響。跟蹤對您的用戶和業務至關重要的指標,而不是抽象的模型性能分數。
    • 制定持續改進計劃。將快速優化融入到持續的開發流程中,而不是將其視為一次性任務。
    競爭優勢
    那些以研究而非傳統觀念為基礎進行提示工程設計的公司將獲得顯著的競爭優勢:
    他們以更低的成本實現了更高的績效。他們構建了更穩健、更持續改進的系統。他們避免了那些遵循流行但無效建議的團隊陷入死胡同。
    最重要的是,他們可以將人類的專業知識集中在高價值活動上,例如定義目標和評估結果,而不是手動提示制作。
    每個團隊都應該問的問題
    • 不要問“我們如何才能寫出更好的提示?”,而要問“我們如何才能根據經驗證據系統地優化我們的人工智能交互?”
    • 這種視角的轉變讓你從追隨趨勢轉向追隨數據。它讓你的團隊能夠構建真正可擴展的AI功能,而不是那些在演示中聽起來很棒但無法提供可持續價值的功能。
    • 您的團隊對提示工程的假設有哪些是基于傳統觀念而非研究成果?如何挑戰這些假設才能提高績效并降低成本?
    那些在人工智能領域取得成功的公司,并非那些追隨社交媒體上最響亮聲音的公司。他們將會是那些遵循證據的公司,即使這些證據與大眾觀點相悖。研究結果很明確。問題在于你是否準備好忽略那些迷思,遵循真正有效的方法。

      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 亚洲国产精品尤物YW在线观看| 野花社区视频在线观看| 久久精品国产久精国产| 欧美大bbbb流白水| 国产午精品午夜福利757视频播放 国产午夜亚洲精品国产成人 | 亚洲a∨国产av综合av| 加勒比无码人妻东京热| 在厨房被C到高潮A毛片奶水| 国产精品亚洲二区在线播放| 国产无套粉嫩白浆在线观看| 亚洲欧洲日韩国内精品| 久久99国内精品自在现线| 国产性一交一乱一伦一色一情| 亚洲高清最新AV网站| 狠狠色噜噜狠狠狠狠777米奇| 久久大蕉香蕉免费| 午夜大片免费男女爽爽影院| 少妇被躁爽到高潮无码人狍大战| 一卡二卡三卡四卡视频区| 天天日天天谢天天视2019天干| 怡红院一区二区三区在线| 撕开奶罩揉吮奶头高潮AV| 少妇私密推油呻吟在线播放| 果冻传媒亚洲区二期| 激情五月开心综合亚洲| 中文字幕av无码不卡| 欧乱色国产精品兔费视频| 久久99热只有频精品8| 最新国产精品久久精品| 人妻在线无码一区二区三区| 国产美女被遭强高潮免费一视频| 一本色道久久综合亚洲精品| 日产精品一卡2卡三卡四乱码| 人妻系列中文字幕精品| 亚洲精品国产精品乱码视色| 波多野结系列18部无码观看AV| 亚洲欧美日韩国产精品专区| 中文字幕无码中文字幕有码A| 久热综合在线亚洲精品| 肉大捧一进一出免费视频| 影音先锋人妻啪啪AV资源网站|