久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

     文明世界拼圖 2024-01-25 發布于重慶

    01

    前言

    阿里小蜜家族(阿里小蜜、店小蜜、萬象),從2015年發展至今,已經成為了覆蓋淘天P-C(平臺-消費者)、B-C(商家-消費者)、P-B(平臺-商家)全咨詢體系的智能對話機器人,日均接待量級在百萬(阿里小蜜)到千萬(店小蜜)范圍。

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    作為淘天集團乃至行業內最大體量的對話機器人應用之一,阿里小蜜在對話算法能力上持續探索,在2022年chatgpt爆炸性的誕生之后,我們也加快了擁抱LLM技術的步伐。技術飛速發展,小蜜算法團隊全力投入LLM在客服域的落地應用中,以端到端直出的方式,覆蓋了售后小蜜場景的問題定位、SOP方案播放和溝通追問等環節,以及售前小蜜(自營店/店小蜜商家)的商品問答能力。

    02

    當前落地方案-基于大模型的進化

    2.1 從Pipeline到大模型直出,將NLU/DM/NLG通過大模型端到端替換

    對于大模型在對話機器人中的業務&技術價值,我們也有過反復的思考和討論,但我們對LLM在小蜜中應用的終極目標一直保持不變,也就是用LLM端到端的實現對話生成,這是基于以下的判斷:

    1. 從技術角度,原有多模型pipeline式的對話鏈路隨著多年的迭代和打補丁已經過于復雜,而大模型可以大幅簡化鏈路,并且一定程度緩解誤差傳播。
    2. 從業務角度,技術升級最重要的還是需要LLM在對話能力上帶來體感上的明顯變化,才有可能進一步影響業務指標。
    3. 對于備受關注的風險問題,大模型出現的生成幻覺問題會不會影響業務效果?這個問題要分情況看,一方面我們從技術角度減少幻覺的產生,一種是從業務角度減少幻覺產生的影響,這需要結合場景的進行設計。

    2.2 阿里小蜜:分階段、分場景的業務覆蓋

    我們從業務視角將一通消費者的客服咨詢對話拆分為三個階段:問題溝通、SOP操作和方案溝通。

    在業務分割的基礎上,我們分階段的實現了不同的大模型對話能力(如下圖)。同時針對營銷活動/購買指南等以FAQ/文檔為主的業務場景,我們沒有采用多階段方案,而是直接使用了端到端檢索增強的算法來實現對話。

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    ? 2.2.1 多輪問題定位

    業務背景

    作為客服機器人,阿里小蜜需要承接用戶表達的問題并進行理解,進而定位到對應的知識或解決方案流程。過去小蜜問題溝通的模式始終沒有跳脫出一問一答的形式,長遠來源,這樣會導致兩大類問題:

    1. 對用戶表達精確度提出了較高的要求,因為更自然的表達方式往往不一定能定位到準確的解決方案。
    2. 為了適配小蜜的單輪問題溝通效果,整體的知識體系中的知識也朝著越來越全、越來越大的模式演進,以保證用戶的問題或訴求理解不會偏移。

    業務挑戰&難點

    誠然單輪交互存在著各種問題,但多輪化的改造、尤其是基于大模型的多輪化改造也需要解決以下幾個難點:

    1. 多輪狀態下知識定位的準確性,多輪交互下如何保證能精準理解用戶多階段表達的內容并精確定位到知識
    2. 大模型生成內容風險控制,在立項之初,淘天集團內尚未有直接將大模型生成內容用于C端輸出的應用可供參考,因此如何在提升對話多樣性的情況下控制生成風險是需要解決的問題。

    方案設計

    • 線上鏈路設計

    我們在風控上做了較多的把控,對準入和準出都進行了嚴格的限制,在接入風控模型的基礎上,我們還載入了違禁詞庫對輸入文本進行準入控制。

    另外,通過判斷模型輸出不同的標記來區分多輪對話階段,如“[定位問題]xxxxx”,表示模型判斷可以進行知識庫檢索,我們將模型生成結果進行檢索,并定位到對應解決方案,結束問題溝通。而拒識或澄清,我們將會輸出話術并與用戶進行進一步確認。COT主要發揮的核心作用是,讓模型學習到作為一名淘寶售后客服,回答用戶問題的主要思路和模版。

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
    • 對齊人工端溝通能力

    為了建設小蜜問題溝通階段的多輪能力,最直接的學習目標就是對齊人工端小二溝通習慣。因此我們對人人語聊進行了細致的處理,使得模型盡可能模仿小二進行問題溝通。

    • 增強模型泛化性

    訓練初期,我們發現模型比較容易過擬合,容易生成高頻且帶有幻覺的結果,泛化性很差;其次,全部使用人工咨詢的SFT指令進行訓練,模型的通用指令能力似乎喪失了,也難以對通用知識進行拒識,因此我們混合了更多通用數據,對模型進行重新SFT訓練,增加模型的泛化能力,避免定位到錯誤的解決方案誤導用戶。

    業務應用

    基于大模型的多輪問題定位能力AB期間對于自主對話的部分帶來了了轉人工率的下降和滿意度的明顯上升,9月份完成在淘寶小蜜的全量上線。

    訴求澄清+信息收集

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    信息不足反問

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    ? 2.2.2 case服務軌跡理解及應用

    業務背景

    以上我們討論了用戶進線后問題溝通的能力優化,然而小蜜的問題預測或溝通能力始終和人工有差距,其中一個重要的因素就是進線時小蜜沒有任何上下文,而人工小二則可以查閱豐富完整的服務軌跡信息。

    業務難點&挑戰

    在大模型時代之前,算法側對于case服務軌跡的理解也進行了探索并在首頁猜問等場景落地,但受任務定義、模型框架等方面影響,理解內容存在一定的局限性,特別是對于需要進行靈活理解的場景較難適配,導致小蜜對服務軌跡包含的信息利用不夠充分。

    從用戶視角而言,進線后缺乏直接的“被理解”的體感,且在對話中需要重復描述,說明小蜜的“智能”能力存在提升的空間,從平臺運營視角而言,對于case服務軌跡理解的不充分,導致較難實現解決方案和轉人工策略(如重復進線場景)的差異化運營。

    整體case服務軌跡能力的架構設計如下,我們先基于BC語聊在未問先答應用場景進行了試點。

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    BC語聊在未問先答場景應用

    “未問先答”是小蜜推出的新能力,在用戶剛剛進線時,根據用戶當前狀態,立即推送用戶可能需要的解決方案,更快地幫助用戶路由到問題,減少咨詢成本。

    業務應用

    考慮到信息的抽取結果將會應用到下游豐富的大模型對話場景,而抽取枚舉值將會損失豐富的細節信息,因此我們考慮讓模型既可以輸出自然語言摘要結果,也可以輸出對應的枚舉值,流程如圖所示:

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐


    ? 2.2.3 生成式快捷短語

    業務背景

    為了讓小蜜可以更好的定位到用戶的問題,在小蜜整體的交互中,增加了一些以推薦為導向的方法,快捷短語便是其中的一環。快捷短語的目的是生成單個或多個用戶可能想了解/輸入的內容,讓用戶通過點擊基于知識/問題的快捷短語來與小蜜進行交互,在減少用戶輸入成本的同時幫助用戶快速獲取解決方案。

    結合小蜜中逐漸落地的大模型能力,配合小蜜的新的表達形式,快捷短語也誕生了新的交互形式變化,即生成式快捷短語。

    業務難點&挑戰

    生成式快捷短語的目的是生成用戶可能想要輸入的內容,而后用戶可以通過點擊的方式輸入文本,與小蜜進行交互的同時,配合小蜜中的大模型多輪定位等功能, 幫助用戶快速定位到需要的解決方案。這就要求快捷短語生成的內容具有如下特點:

    • 完整性:可以完整表達用戶遇到的問題與訴求,幫助用戶快速定位問題;
    • 業務相關性:生成的內容有實際的業務相關性,如問題或訴求等相關業務屬性的完整描述。

    但是在現實中,用戶并不會經常做到“一次性輸入完整內容”,而是會有如下特點:

    • 多次/多輪輸入:用戶一般要通過多次內容輸入才能把自己的問題與訴求表達清楚;
    • 同種語義,多種表達:用戶對于一些詞匯的理解不同,表達上也不統一;
    • 表達內容無利于定位:用戶的情緒化表達,以及其他一些敘述,無法幫助用戶推進解決問題。

    生成內容的要求與實際生活中用戶的輸入有較大的差距,這也給我們帶來了挑戰。

    方案設計

    生成式快捷短語的目的是生成用戶可能想要輸入的內容,配合小蜜中的大模型多輪定位等功能,推進用戶對話進展的同時獲取解決方案。與之前的綁定知識不同,生成式快捷短語不綁定固定知識,而是讓用戶以對話的形式走大模型多輪定位獲取解決方案。

    考慮到大模型的性能問題,實際線上部署的時候,先以前置判別模型進行判別,用以減少大模型調用量。

    基于不同場景下需要展示的內容的不同,結合之前已經存在的基于知識/問題的快捷短語,設計了以下鏈路:

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    業務應用

    從線上AB效果來看,特定場景下生成式快捷短語相比基于固定候選池的推進式短語點擊率提升明顯,顯著降低了用戶輸入的成本,幫助用戶快速獲取解決方案。

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    ? 2.2.4 多輪追問生成

    業務背景

    傳統的對話機器人設計分為2種類型,1)每輪咨詢重新定位方案,導致對話隔離感非常強,幾乎沒有多輪對話的體感;2)依賴于多輪劇本,通過運營維護多輪劇本,將一個問題完整的解決掉,但是運營成本和維護成本都非常高。

    業務挑戰&難點

    消費者在小蜜機器人咨詢問題繁多,包含了閑聊、單訴求和多訴求。而每輪訴求之后,消費者通常會針對小蜜當前所給出的解決方案進行一步咨詢,咨詢內容大概包含以下3種情況:1)對當前訴求的進一步描述或者對當前答案的進一步詢問;2)表達情緒上的不滿、催促或者感謝;3)當前訴求完結,跨訴求咨詢其他新問題。因此如何精準判別消費者的同訴求追問并給出擬人化的合理性回復是算法面臨的挑戰。

    方案設計

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    業務應用

    我們在淘寶/天貓平臺小蜜機器人中,上線應用了多輪追問大模型生成能力,針對消費者單個訴求完成了更好的多輪對話,降低了對話割裂感,最終降低了轉人工率、并提升了滿意度,讓用戶能夠在小蜜獲得更好的對話服務體驗。

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    ? 2.2.5 基于檢索增強的文檔問答大模型應用

    業務背景

    淘寶促銷活動期間,用戶咨詢機器人有關活動問題的量就會暴漲,為了更好的支撐平臺的活動,給到消費者更好的購物體驗,業務運營耗費了大量的成本消化活動、維護活動FAQ。

    業務挑戰&難點

    活動期間基本處于封網狀態(特別是活動量最大的雙十一),算法很難基于現有樣本重新訓練,因此要求算法模型具備較強的ZERO-SHOT能力。

    雙十一活動的特點是多樣性高、時效性強,且規則較為復雜,如何結合淘寶的規則更好的理解消費者的問題,并且給出淺顯易懂的回復答案是算法面臨的挑戰。

    方案設計

    • 工程鏈路設計

    我們對文檔按段落進行拆分,得到文檔的段落內容以及對應的各級標題。然后對段落內容以及各級標題分別進行向量化,并保存到向量數據庫中。檢索時,我們將用戶的query也進行向量化,然后與向量數據庫中的向量進行匹配,搜索最相似的n條文檔段落,最后將這些段落交由大模型進行最終的答案生成。整體流程如下:

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    文檔索引構建可以將文檔轉為文檔索引塊(Chunk),主要分為解析(Parsing)和切分(Chunking)兩步:

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
    • 算法方案
      • Doc向量化
      • SimCSE模型架構】基于SimCSE模型結構,最后一層將embedding向量投影到256維。
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
      • 【效果評估】我們在小蜜數據集上對我們的模型進行測試,并與其他開放的模型進行對比。
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
      • Doc重排

    在進行重排優化策略時,我們針對數據層、訓練層和模型層均進行了針對性實驗及優化。

      • 【效果評估】
    • 我們在小蜜自己的重排benchmark數據集上評估了模型效果

    • 為了驗證模型的泛化性,我們在開源的數據集上也進行了評估,我們的large版本已經可以達到當前的SOTA水平。
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
      • SFT
    • 【數據層】
    1. 1. 少量高質量的業務域問答數據+大量的高質量通用域問答數據;2. Role Prompt采用[Human, Assistant]的方式。

    【模型層】

    1. 1. 基座選擇Qwen7b,文檔問答的prompt都非常長,采用較小的基座來兼容效果并能實際在業務落地;2. 更長的context并不會帶來效果上的提升,我們嘗試過8k版本或者自己訓練的4k版本,發現評測效果相比2k沒有帶來明顯的提升。

    【訓練層】

    1. 1. 訓練采用全參訓練,經過我們的多次實驗,7b模型的全參相比lora能取得更好的效果;2. 對于訓練的超參,我們發現對于訓練的超參進行業務域的微調帶來的提升并不明顯且成本高。
    • 實際線上流程


    業務應用

    我們在淘寶/天貓平臺小蜜中,分別上線應用基于FAQ檢索增強的大模型生成和基于文檔檢索增強的大模型生成,通過AB實驗對比,對滿意度和轉人工都帶來了正向提升

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    2.3 店小蜜&自營小蜜

    業務背景

    店小蜜是一款服務于消費者、人工客服、訓練師和商家運營的全鏈路客服機器人,日承接對話3000萬輪次。

    店小蜜零售大模型旨在提高大模型在零售場景的服務問答場景(包括但不限于商品問答能力、營銷導購能力、商品文案以及圖片生成能力、服務診斷能力等)以及店鋪運營水平。

    以下是用戶在店小蜜的服務流程

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    售前商品問答

    商品問答是基于商品知識庫、商品詳情頁等數據源,來回答消費者提出的商品屬性相關的問題,這類問題通常可以交給智能機器人處理,節省售前咨詢人工成本。

    • 整體鏈路
    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    如圖所示,商品問答大模型整合了多種知識源側信息,包括商品知識庫、IC庫等,將各個源的信息進行整合形成商品知識文檔作為模型輸入。考慮到線上RT限制,在將商品知識文檔傳給大模型之前先進行多源商品知識召回,將各個源頭與消費者咨詢最相關的知識給到大模型,在保證回復內容準確的同時兼顧回復的響應時間。

    商品問答大模型效果

    模型能力對比

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    可以看出,大模型的精準率、覆蓋率基于小模型分別提升17pt/2pt。從實際消費者問答參評滿意度看,消費者對大模型返回答案的認可度更高,大模型也帶來了商品咨詢轉化率的提升

    業務應用

    在商品問答場景,大模型的優勢主要有:更強的檢索能力、更豐富的外部知識、更強的理解推理能力。詳細可以見下表的case梳理。

    智能對話新紀元:百萬日活對話機器人的LLM落地實踐

    03

    總結

    小蜜對話能力全面擁抱大模型,我們也初步看到了LLM在服務對話領域巨大的應用潛力。與此同時,LLM也帶來了算法方法論的完全變革,也涌現了一系列的問題值得我們進一步的探索:

    1. 影響LLM業務效果的因素比小模型更復雜:基座模型、Prompt工程、SFT數據、訓練的Trick,優化哪個是最有效的?
    2. 在垂直領域,單純依靠無Finetune Prompting無法滿足業務效果,我們需要進行一定程度SFT的前提下,我們發現SFT在LLM上極容易過擬合。那么此時基座的能力和SFT任務的關系是什么?我們是應該選擇“能力更好的基座”還是“更容易被SFT的基座”?
    3. 我們大量的算法工作還是停留在'更換基座->更換SFT數據'的循環中,本質是一種“基于LLM的監督學習”,如何更有機的結合Prompt工程、SFT、甚至Continue Training打出一套領域落地的組合拳,還沒有清晰的成功路徑。
    4. Agent是否是實現AGI的最近靠譜路徑?我們能否基于Agent架構更進一步逼近擬人、更強泛化和業務推理能力的客服AI?
    5. ....

    上面的每一個問題,在LLM時代目前都還是Open Problem,它帶來的既是興奮,也有挑戰,小蜜也將持續走在LLM業務應用的最前沿。

    作者:智能小蜜團隊

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 四虎亚洲精品高清在线观看| 国产成人精品亚洲日本在线观看| 美女被强奷到抽搐的动态图| 曰韩亚洲AV人人夜夜澡人人爽| 亚洲中文字幕无线无码毛片| 国产小受被做到哭咬床单GV| 国产色视频网站免费| 女上男下激烈啪啪无遮挡 | 精选国产av精选一区二区三区| 99国精品午夜福利视频不卡99 | 亚洲AV无码成人精品区蜜桃| 色九月亚洲综合网| 久久久久无码精品国产| 国产线播放免费人成视频播放| 丰满少妇被猛男猛烈进入久久| 18禁无遮挡啪啪无码网站破解版| 亚洲处破女AV日韩精品| 无码免费大香伊蕉在人线国产| 免费在线黄色电影| 日本喷奶水中文字幕视频| 日韩人妻无码一区二区三区| 欧美亚洲人成网站在线观看| 玩弄放荡人妻少妇系列| 又爽又黄又无遮挡的视频| 亚洲色大成网站WWW永久麻豆 | 成人久久免费网站| 夜色福利站WWW国产在线视频| 国产精品一区中文字幕| 日韩电影免费在线观看网站| 蜜桃视频一区二区在线观看| 亚洲国产中文字幕精品| 天天躁日日躁狠狠躁欧美老妇| 成人免费A级毛片无码片2022 | 麻豆果冻传媒2021精品传媒一区| 一区二区福利在线视频| 奇米影视7777狠狠狠狠色 | 久久久久久久波多野结衣高潮| 精品免费看国产一区二区| 国产免费一区二区视频| 欧美亚洲另类 丝袜综合网| 国产毛1卡2卡3卡4卡免费观看|