• <tfoot id="ukgsw"><input id="ukgsw"></input></tfoot>
    
    • 久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
      分享

      【AI大模型應用開發】【RAG評估】0. 綜述:一文了解RAG評估方法、工具與指標

       小張學AI 2024-03-16 發布于山東
      公眾號內文章一覽



      前面我們學習了RAG的基本框架并進行了實踐,我們也知道使用它的目的是為了改善大模型在一些方面的不足:如訓練數據不全、無垂直領域數據、容易出現幻覺等。那么如何評估RAG的效果呢?本文我們來了解一下。

      推薦前置閱讀

      0. RAG效果評估的必要性

      • 評估出RAG對大模型能力改善的程度

      • RAG優化過程,通過評估可以知道改善的方向和參數調整的程度

      1. RAG評估方法

      1.1 人工評估

      最Low的方式是進行人工評估:邀請專家或人工評估員對RAG生成的結果進行評估。他們可以根據預先定義的標準對生成的答案進行質量評估,如準確性、連貫性、相關性等。這種評估方法可以提供高質量的反饋,但可能會消耗大量的時間和人力資源。

      1.2 自動化評估

      自動化評估肯定是RAG評估的主流和發展方向。

      1.2.1.1 LangSmith

      在我的這篇文章中 【AI大模型應用開發】【LangSmith: 生產級AI應用維護平臺】0. 一文全覽Tracing功能,讓程序運行過程一目了然 介紹了如何使用LangSmith平臺進行效果評估。

      • 需要準備測試數據集

      • 不僅可以評估RAG效果,對于LangChain中的Prompt模板等步驟都可進行測試評估。

      1.2.1.2 Langfuse

      Langfuse作為LangSmith的平替,也具有自動化評估的功能。在我的這篇文章中 【AI大模型應用開發】【LangFuse: LangSmith平替】0. 快速上手 - 基本功能全面介紹與實踐(附代碼) 介紹了如何使用Langfuse平臺進行效果評估。

      • 需要準備測試數據集

      • 不僅可以評估RAG效果,對于LangChain中的Prompt模板等步驟都可進行測試評估。


      以上兩個平臺對RAG的評估,都可以自定義自己的評估函數。當然其也支持一些內置的評估函數。

      1.2.1.3 Trulens

      TruLens是一款旨在評估和改進 LLM 應用的軟件工具,它相對獨立,可以集成 LangChain 或 LlamaIndex 等 LLM 開發框架。它使用反饋功能來客觀地衡量 LLM 應用的質量和效果。這包括分析相關性、適用性和有害性等方面。TruLens 提供程序化反饋,支持 LLM 應用的快速迭代,這比人工反饋更快速、更可擴展。

      • 開源鏈接:https://github.com/truera/trulens

      • 使用手冊:https://www./trulens_eval/install/


      使用的步驟:
      (1)創建LLM應用
      (2)將LLM應用與TruLens連接,記錄日志并上傳
      (3)添加 feedback functions到日志中,并評估LLM應用的質量
      (4)在TruLens的看板中可視化查看日志、評估結果等
      (5)迭代和優化LLM應用,選擇最優的版本

      其對于RAG的評估主要有三個指標:

      • 上下文相關性(context relevance):衡量用戶提問與查詢到的參考上下文之間的相關性

      • 忠實性(groundedness ):衡量大模型生成的回復有多少是來自于參考上下文中的內容

      • 答案相關性(answer relevance):衡量用戶提問與大模型回復之間的相關性

      其對RAG的評估不需要有提前收集的測試數據集和相應的答案。

      1.2.4 RAGAS

      考慮標準的RAG設置,即給定一個問題q,系統首先檢索一些上下文c(q),然后使用檢索到的上下文生成答案as(q)。在構建RAG系統時,通常無法訪問人工標注的數據集或參考答案,因此該工作將重點放在完全獨立且無參考的度量指標上

      四個指標,與Trulens的評估指標有些類似:

      • 評估檢索質量:

      • context_relevancy(上下文相關性,也叫 context_precision)

      • context_recall(召回性,越高表示檢索出來的內容與正確答案越相關)

      • 評估生成質量:

      • faithfulness(忠實性,越高表示答案的生成使用了越多的參考文檔(檢索出來的內容))

      • answer_relevancy(答案的相關性)

      2. 常用評估指標

      在上文評估方法中已經介紹了幾種常用的評估指標:

      2.1 Trulens 的RAG三元組指標

      • 上下文相關性(context relevance):衡量用戶提問與查詢到的參考上下文之間的相關性

      • 忠實性(groundedness ):衡量大模型生成的回復有多少是來自于參考上下文中的內容

      • 答案相關性(answer relevance):衡量用戶提問與大模型回復之間的相關性

      2.2 RAGAS的四個指標

      四個指標,與Trulens的評估指標有些類似:

      • 評估檢索質量:

      • context_relevancy(上下文相關性,也叫 context_precision)

      • context_recall(召回性,越高表示檢索出來的內容與正確答案越相關)

      • 評估生成質量:

      • faithfulness(忠實性,越高表示答案的生成使用了越多的參考文檔(檢索出來的內容))

      • answer_relevancy(答案的相關性)

      2.3 其它指標

      參考論文:https:///pdf/2309.01431.pdf

      (1)噪聲魯棒性(Noise Robustness)

      衡量從噪聲文檔中提取有用的信息能力。在現實世界中,存在大量的噪聲信息,例如假新聞,這給語言模型帶來了挑戰。

      (2)否定拒絕(Negative Rejection)

      當檢索到的文檔不足以支撐回答用戶的問題時,模型應拒絕回答問題,發出"信息不足"或其他拒絕信號。

      (3)信息整合(information integration)

      評估模型能否回答需要整合多個文檔信息的復雜問題,即,當一個問題需要查找多個文檔,綜合信息之后才能回答時,模型的表現。

      (4)反事實魯棒性(CounterfactualRobustness)

      模型能否識別檢索文檔中已知事實錯誤的能力,即當索引的文檔信息原本就是與事實相背時,大模型能否識別出不對。

      3. 總結

      本文主要總結了當前比較流行的評估方法和指標。當前AI技術的快速發展,RAG和RAG評估是當前比較有前景的發展方向,不斷有新的評估工具和理論被提出,讓我們持續跟進,了解這些工具和理論,從而在使用時知道如何選擇。

      參考

      • https://mp.weixin.qq.com/s/Si8rb0L1uqMiwoQ1BWS0Sw

      • https://mp.weixin.qq.com/s/z18J2l_b-VsKDhOd6-nIsg

      • https://mp.weixin.qq.com/s/YFji1s2yT8MTrO3z9_aI_w

      • https://mp.weixin.qq.com/s/TrXWXkQIYTVsS1o4IZjs9w

      • https:///article/detail?fid=1816656853&efid=TVdhzg972NYV9Q1MyFBqqg

      如果覺得本文對你有幫助,麻煩點個贊和關注唄 ~~~


      • 大家好,我是同學小張,日常分享AI知識和實戰案例

      • 歡迎 點贊 + 關注 ??,持續學習持續干貨輸出

      公眾號內文章一覽

        轉藏 分享 獻花(0

        0條評論

        發表

        請遵守用戶 評論公約

        類似文章 更多

        主站蜘蛛池模板: 亚洲欧美日韩成人综合一区| 无遮挡拍拍拍免费观看| 久久久久99精品国产片| 久久伊人色AV天堂九九小黄鸭 | 国产真实乱子伦精品视频| 大学生被内谢粉嫩无套| 国产乱妇无码大片在线观看| 肥臀浪妇太爽了快点再快点| 老少配老妇老熟女中文普通话| 国产精品无码不卡一区二区三区| 亚洲精品无码成人A片九色播放| 欧美性XXXX极品HD欧美风情| 日韩精品中文字幕人妻| 亚洲 日本 欧洲 欧美 视频| 无码国产精品久久一区免费| 性欧美VIDEOFREE高清大喷水| 少妇肉麻粗话对白视频| 亚欧乱色熟女一区二区三区 | 人妻在卧室被老板疯狂进入| 97午夜理论电影影院| 国产AV无码专区亚洲AV潘金链| 久久久久久综合网天天| 亚洲欧洲精品日韩av| 高清自拍亚洲精品二区| 中文人妻AV大区中文不卡| 久天啪天天久久99久孕妇| 精品一区二区三区无码视频| 亚洲AV无码成人精品区蜜桃| 奇米777四色成人影视| 少妇人妻偷人精品视蜜桃| 人妻AV中文字幕一区二区三区| 国产美女被遭强高潮免费一视频 | 亚洲国产一线二线三线| 亚洲岛国成人免费av| 国产毛1卡2卡3卡4卡免费观看| 久久99国产精品尤物| 东京热人妻丝袜无码AV一二三区观| 国产精品毛片无码| 国产亚洲精品AA片在线爽| 国产曰批视频免费观看完 | 国产亚洲精品国产福APP|