<del id="cqywy"></del>
  • <ul id="cqywy"></ul>
  • <ul id="cqywy"></ul>
  • <del id="cqywy"></del>
  • <strike id="cqywy"><rt id="cqywy"></rt></strike>
    <ul id="cqywy"></ul><cite id="cqywy"><input id="cqywy"></input></cite>
    <tfoot id="cqywy"></tfoot>
    <ul id="cqywy"></ul>
    • <ul id="cqywy"></ul>
    • 久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
      分享

      企業級語義搜索完整實現相關問題答疑討論

       銘毅天下 2025-08-06 發布于廣東

      unsetunset1、問題1:關于評分?unsetunset

      針對之前兩篇文章的讀者留言問題:

      從關鍵詞匹配到語義理解——電商搜索引擎的智能化改造實戰

      不依賴外部API!基于 Ollama 的企業級語義搜索完整實現

      問題描述:1.混合搜索中,向量評分區間在0-2之間,而關鍵詞評分理論上在0-無窮,如何保障向量、關鍵詞評分緯度一致,報文中 boost 才有意義?

      向量評分區間確實通常在 0-1 之間(取決于相似度算法)。

      關鍵詞評分理論上確實可以到很大值(TF-IDF、BM25等算法無上界)。

      讀者的核心問題:不同評分體系的量綱不統一,直接加權沒有意義。

      而 RRF(未開源,2023年7月25日 Elasticsearch 8.9 版本新上的付費功能) 的出現,通過"排名民主投票"機制,優雅地解決了混合搜索中評分標準化這一技術難題。

      參見官網:

      https://www./docs/reference/elasticsearch/rest-apis/reciprocal-rank-fusion

      1.1 RRF 的本質價值

      官方文檔:"RRF requires no tuning, and the different relevance indicators do not have to be related to each other to achieve high-quality results."

      這句話揭示了RRF解決混合搜索核心痛點的精髓。

      1.2 傳統混合搜索的困境

      需要復雜調優,舉例:關鍵詞搜索(BM25)評分可能是15.6,向量搜索評分是0.85。

      評分量綱不統一,需要人工設置 boost 權重,如keyword_boost=1.5, vector_boost=1.0。

      權重難以確定,不同業務場景最優權重不同,需要大量A/B測試。

      1.3 RRF的革命性突破

      相比傳統加權融合,RRF通過"排名民主投票"機制帶來顯著優勢:

      首先是更穩定的結果,因為基于排名而非原始評分,無需針對不同查詢類型或業務場景反復調整boost參數;

      其次是更好的相關性表現,RRF能夠充分利用 BM25、向量檢索、ELSER 等多種檢索算法的互補優勢,通過倒數衰減公式自然平衡各算法貢獻度,通常在相關性評估中優于單一檢索方法;

      最后是更簡單的工程實現,RRF開箱即用,完全避開了評分標準化、權重調優等復雜工程問題,開發者無需深入理解各檢索算法的評分機制即可獲得高質量的混合搜索效果。

      論文地址:

      https://plg./%7Egvcormac/cormacksigir09-rrf.pdf

      unsetunset2、問題2:關于召回數據量?unsetunset

      問題描述:2、向量搜索的返回的 total 是全量數據,如何限制向量搜索返回的數量或者僅返回評分前10的索引?

      回復:

      • 查詢設置了 "size": 10,期望只返回前10條結果。
      • 但在 semantic 查詢中設置了 "candidates": 50。

      這會導致向量搜索階段檢索 50 個候選文檔,然后與傳統搜索結果合并,可能返回超過 10 條的結果。

      candidates vs size: candidates 控制向量搜索階段的候選數量,size 控制最終返回結果數量。

      將 candidates 設置為接近 size 的值可以提高查詢效率。

      如果需要更高質量的結果,可以適當增加 candidates 但保持 size 不變。

      unsetunset3、問題3:關于 LSH 算法unsetunset

      向您咨詢下,LSH算法的 L 和 k 參數設置生產環境最佳實踐,或者有具體的參考資料或鏈接嗎?

      官方文檔說明如下:

      • L:哈希表的數量。一般來說,增加此值會增加召回率。
      • k:用于形成單個哈希值的哈希函數的數量。一般來說,增加此值會增加精度。
         https://docs./easysearch/main/docs/references/search/knn_api/

      參數權衡關系,精度 vs 召回率權衡:

      • 增加k: 提高精度,但降低召回率,增加計算成本。
      • 增加L: 提高召回率,但增加存儲成本和查詢時間。

      unsetunset4、問題4:關于如何進行分塊向量化?unsetunset

      文中的向量化源字段內容比較短,針對源字段內容長的,如何進行分塊向量化、分塊向量化結果存儲及搜索?

      回復:在 AI 搜索中處理大型文本文檔時,通常需要將其分割成較小的段落,因為大多數嵌入模型都有令牌長度限制。這個過程稱為文本分塊,通過確保每個嵌入表示適合模型約束的重點內容片段,有助于保持向量搜索結果的質量和相關性。

      傳統向量化面臨的兩個核心問題:

      • 1.準確性問題:大文檔整體向量化會導致準確性下降。

      • 2.模型限制:推理模型對輸入大小有限制。

      解決方案:通過分塊(chunking)技術將大文檔分解為更小、更易管理的子部分,對每個塊單獨進行推理操作。

      圖片來自:Elastic 官方劉曉國老師博客

      兩種分塊策略詳解,供參考,可以自己代碼層面實現

      4.1. 基于詞匯的分塊策略(Word-based Chunking)

      配置參數:

      • max_chunk_size:塊中的最大詞數(必需)
      • overlap:塊間重疊詞數(必需,不能超過max_chunk_size的一半)

      工作機制:

      • 總是將塊填充到最大尺寸后再構建下一個塊
      • 每個塊(除第一個)都會與前一個塊有指定數量的詞匯重疊
      • 重疊的目的是防止有用的推理上下文被分割

      4.2. 基于句子的分塊策略(Sentence-based Chunking)

      配置參數:

      • max_chunk_size:塊中的最大詞數(必需)
      • sentence_overlap:塊間重疊句子數(必需,只能是0或1)

      工作機制:

      • 分割輸入數據為包含完整句子的塊
      • 塊只包含完整句子(除非單個句子超過max_chunk_size)
      • 優先保持句子完整性而非最大化填充每個塊

      默認配置變化

      8.16版本后的默認設置:

      • 策略:句子分塊
      • max_chunk_size:250
      • sentence_overlap:1

      8.16 版本前的默認設置:

      • 策略:詞匯分塊
      • max_chunk_size:250
      • overlap:1

      參考:

      1. https://www./search-labs/blog/elasticsearch-chunking-inference-api-endpoints

      2. https:///@sarthakjoshi_9398/understanding-locality-sensitive-hashing-lsh-a-powerful-technique-for-similarity-search-a95b090bdc4a

      3. https://discuss./t/what-s-new-in-elastic-8-16/370418

      unsetunset5、問題5:dims 必須與 embedding 一致嗎?unsetunset

      nomic-embed-text-v1 和 nomic-embed-text-v1.5:默認嵌入維度為 768

      通過 Matryoshka Representation Learning,這些模型支持靈活調整維度(從 64 到 768),例如可以指定為 256 或 512 以減少存儲和計算成本,同時性能損失較小。

      參考: 

      1. https:///nomic-ai/nomic-embed-text-v1.5

      2. https:///nomic-ai/nomic-embed-text-v2-moe

        轉藏 分享 獻花(0

        0條評論

        發表

        請遵守用戶 評論公約

        類似文章 更多

        主站蜘蛛池模板: 亚洲国产成人无码AV在线影院L| 成在线人永久免费视频播放| 久久综合狠狠综合久久| 少妇肉麻粗话对白视频| 亚洲日韩欧洲无码AV夜夜摸| 久青草国产在视频在线观看| 人妻大战黑人白浆狂泄| 国产精品久久露脸蜜臀| 香蕉久久久久久久AV网站| 国产成人人综合亚洲欧美丁香花| 成人无码潮喷在线观看| 久久97精品久久久久久久不卡| 麻豆亚洲精品一区二区| 成人欧美一区二区三区的电影| 中文文字幕文字幕亚洲色| 国产XXXX色视频在线观看| 精品九九人人做人人爱| 日本高清无卡码一区二区| 丰满爆乳一区二区三区| 好吊妞国产欧美日韩免费观看| 国产性一交一乱一伦一色一情| 中文字幕有码无码AV| 麻豆一区二区中文字幕| 欧美成人精品高清在线观看| 亚洲精品无码久久一线| 性做久久久久久久| 成人午夜看黄在线尤物成人| 成人午夜在线观看日韩| 精品久久久久久无码中文野结衣| 亚洲欧美人成网站在线观看看| 久久人人玩人妻潮喷内射人人| 久久99精品久久水蜜桃| 国内少妇人妻偷人精品| 亚洲国产成人精品女人久久久| A三级三级成人网站在线视频| 国产成人精品中文字幕| 亚洲日韩一区精品射精| 亚洲色精品VR一区二区三区| A毛片终身免费观看网站| 色屁屁WWW免费看欧美激情| 久久综合久久美利坚合众国|