分享嘉賓|毛軍 阿里云智能集團(tuán) 產(chǎn)品總監(jiān) 內(nèi)容已做精簡,如需獲取專家完整版視頻實錄和課件,請掃碼領(lǐng)取。 01 ![]() ![]() ![]() 從今年年初智能應(yīng)用發(fā)布上線后一直到現(xiàn)在,我們又打造了一些新的各種各樣的應(yīng)用,這些應(yīng)用都源自于我們事先做好的產(chǎn)品知識內(nèi)容。我們的智能問答包括幾個應(yīng)用場景。首先,最基本的是可以基于產(chǎn)品詢問相關(guān)信息,例如產(chǎn)品的各種屬性,如功能、優(yōu)勢、特性、原理、場景等。但一般來說,客戶可能不會這么問,他們可能會基于一個具體的業(yè)務(wù)問題,詢問可以用什么產(chǎn)品或產(chǎn)品組合來滿足這個業(yè)務(wù)需求。所以,我們也提供了這部分能力,即基于場景或功能查找產(chǎn)品。 我們打造了這樣一個智能問答應(yīng)用,其定位是專門面向阿里云的產(chǎn)品知識,回答產(chǎn)品知識各個方面的問題。主要瞄準(zhǔn)的用戶群體是阿里云內(nèi)部員工,尤其是前線銷售隊伍。 除了這兩個最主要的問答能力之外,還有一些相關(guān)的周邊能力也被整合到這個產(chǎn)品中。例如,可以基于它查找產(chǎn)品相關(guān)的產(chǎn)品經(jīng)理、案例、解決方案、產(chǎn)品參數(shù)以及產(chǎn)品競對對比等。經(jīng)過幾個月的打磨和幾輪優(yōu)化后,該產(chǎn)品在今年2月份推出。從今年一整年的運(yùn)營情況來看,得到了前線核心用戶群體的積極反饋,目前可以說是整個公司內(nèi)使用量最大的智能應(yīng)用。 我們在這個過程中發(fā)現(xiàn),流量并非僅靠運(yùn)營就能取得,一定是有較好的實際問答效果才會進(jìn)行發(fā)布。這個效果主要取決于兩個方面,一是模型的能力,二是內(nèi)容的質(zhì)量。 ![]() 模型的能力可以分為兩個層次來說。第一個層次是基模,基模的能力以及參數(shù)規(guī)模對整個效果有著全局性和根本性的影響,這種影響非常明顯。第二個層次是基于基模之上的百煉。對于ToB業(yè)務(wù)來說,我們必然要經(jīng)過百煉來調(diào)用使用基模的能力。百煉為我們提供了像Prompt、SFT、RAG等能力,我們直接使用這些能力就可以撬動基模的智慧。我們今天講的這個智能問答應(yīng)用就是基于百煉的RAG能力,同時也內(nèi)置了系統(tǒng)級Prompt。所以,這是模型能力對效果的一個比較重要的影響。 第二個層面是內(nèi)容的質(zhì)量。很多時候,我們接觸到的很多客戶在初次結(jié)合大模型去做智能應(yīng)用時,往往會遇到一個難點,就是不知道該如何處理內(nèi)容,因為效果可能未必能達(dá)到預(yù)期。當(dāng)模型確定后,能做的工作就是在內(nèi)容上下功夫。今天也會為大家介紹一下我們在內(nèi)容方面的一些實踐。 我們智能應(yīng)用主要用到三個方面的知識內(nèi)容,這是我們?nèi)藶榈膭澐帧5覀冇X得,對于企業(yè)來說,雖然任何一家企業(yè)的知識未必像阿里云的產(chǎn)技知識那樣,但無論什么樣的知識,其實也可以類似這樣劃分。至于原因,我們先來看一下結(jié)構(gòu)化數(shù)據(jù)內(nèi)容。 第一部分內(nèi)容,它代表了一類非常準(zhǔn)確客觀的數(shù)據(jù)。這些數(shù)據(jù)往往直接存在數(shù)據(jù)庫里,是最客觀、可信的。這部分?jǐn)?shù)據(jù)幾乎不需要做任何治理,可以直接使用。尤其是在直接問到相關(guān)數(shù)據(jù)內(nèi)容時,甚至可以不經(jīng)過內(nèi)容生成,直接給出答案。但這部分內(nèi)容覆蓋的面通常沒有那么大。 當(dāng)下可能普遍會存在一個誤區(qū),即手上有什么內(nèi)容就用什么內(nèi)容。這樣做效果通常不會很好,因為手上的內(nèi)容往往沒有經(jīng)過規(guī)劃,是過去歷史沉淀下來的。如果直接使用,當(dāng)問題問到知識盲區(qū)時,會發(fā)現(xiàn)缺乏知識內(nèi)容,回答效果肯定不太好。所以不能有什么內(nèi)容就用什么內(nèi)容。那應(yīng)該怎么做呢?應(yīng)該進(jìn)行內(nèi)容的規(guī)劃和策劃。這就好比在寫代碼之前要先做軟件架構(gòu)設(shè)計,同樣,我們今天也要先做內(nèi)容的架構(gòu)設(shè)計。我們要圍繞打造的智能應(yīng)用的定位,分析面向的人群和需要提供的問答范圍。根據(jù)這個范圍,確定我們需要哪些知識模塊和知識點,這些知識模塊和知識點就構(gòu)成了我們的知識地圖,這是我們做內(nèi)容策劃架構(gòu)的成果物。 ![]() 有了這個知識地圖作為指引,我們自然就知道對比手上已有的內(nèi)容后缺什么,缺什么就補(bǔ)什么。如果內(nèi)容欠缺,效果肯定會受到影響。 第二個誤區(qū),覺得內(nèi)容越多越好。現(xiàn)在企業(yè)里的知識內(nèi)容往往非常龐大,比如企業(yè)經(jīng)過十多年時間沉淀了海量的知識內(nèi)容。但這些知識內(nèi)容往往不一定都是最新的,很多知識有生命周期,有的已經(jīng)很陳舊卻沒有被更新。所以,看似是一個海量的知識庫,但內(nèi)容質(zhì)量參差不齊。一旦把所有知識內(nèi)容都盡可能用上,反而會發(fā)現(xiàn)效果不好,因為內(nèi)容之間會互相影響。尤其是我們之前講的用RAG的方式,在生成之前先進(jìn)行檢索。那么檢索的時候,每一次詢問問題,比如問一個問題問10遍,有可能檢索召回的內(nèi)容片段各不相同。因為重復(fù)的內(nèi)容知識點太多,如果重復(fù)的知識點內(nèi)容質(zhì)量參差不齊,那么每次召回時,可能召回高質(zhì)量或低質(zhì)量的內(nèi)容,這樣問答效果就會大打折扣。所以并不是內(nèi)容量越多越好。 一般以我們自己的實踐角度來看,盡量不要讓冗余內(nèi)容太多。如果一定要有冗余,也盡量保證這些冗余知識都是高質(zhì)量的,這樣無論檢索到哪個片段都沒有問題。理論上講,當(dāng)描述一個知識點時,只需要一篇非常好、非常全面的文檔就夠了,不需要導(dǎo)入10 篇、100篇圍繞這個知識點的文檔。 第三個誤區(qū)是因為內(nèi)容量太大,很多用戶或企業(yè)用戶可能會覺得內(nèi)容治理的工作量太大。一旦發(fā)現(xiàn)效果沒有達(dá)到預(yù)期,在最初始的時候就不知道怎么往下開展,看到海量內(nèi)容不知道該如何治理。實際上,內(nèi)容治理并不需要把所有內(nèi)容都進(jìn)行治理,這樣工作量肯定吃不消,基本上不可行。應(yīng)該怎么做呢?就像企業(yè)招人,不會到市場上招很多小學(xué)生過來,使勁培養(yǎng)成大學(xué)生再用人,而是培養(yǎng)大學(xué)生后,做一個非常可控的小規(guī)模上崗培訓(xùn)。同樣,在做內(nèi)容治理之前,要先做內(nèi)容篩選,不要一股腦把內(nèi)容全搞進(jìn)去,先選出高質(zhì)量的內(nèi)容,在此基礎(chǔ)上進(jìn)行可控工作量的治理,這樣就非常可控了。所以我們一定要有一個內(nèi)容篩選的機(jī)制。 做了內(nèi)容的規(guī)劃和設(shè)計之后,對整個內(nèi)容進(jìn)行各種打標(biāo)、分類,了解其質(zhì)量和來源。這時會面臨兩種情況。第一種是發(fā)現(xiàn)缺某種知識內(nèi)容,那就需要去生產(chǎn)、準(zhǔn)備。第二種是已經(jīng)有知識內(nèi)容,但效果不好,說明這個知識內(nèi)容需要治理。 我們從兩個方面分別來說一下。 ![]() 第一個是新內(nèi)容需要生產(chǎn)開發(fā),最好的方式是建立一個標(biāo)準(zhǔn)化的生產(chǎn)模式。如今我們發(fā)現(xiàn)大模型正好很需要這樣一種方式。具體做法而言,我們要使生產(chǎn)的過程流程化,生產(chǎn)的內(nèi)容結(jié)構(gòu)化。當(dāng)我們需要一個內(nèi)容時,不是直接把這個內(nèi)容作為任務(wù)交給內(nèi)容生產(chǎn)者讓其交付內(nèi)容,而是首先對內(nèi)容進(jìn)行梳理,將其中的知識點結(jié)構(gòu)化,甚至定義出內(nèi)容的規(guī)范標(biāo)準(zhǔn)。在此基礎(chǔ)上,我們可以拉通其他各個團(tuán)隊,進(jìn)行跨團(tuán)隊的大規(guī)模知識生產(chǎn)。同時,通過流程化、規(guī)范化來保障生產(chǎn)過程。 所以,通過這種方式生產(chǎn)出來的內(nèi)容質(zhì)量相對較高,今天我們幾乎可以直接將其與大模型相結(jié)合,導(dǎo)入后效果不錯。如果很多內(nèi)容材料不是以這種方式生產(chǎn),而是比較隨機(jī)、隨意的方式生產(chǎn),那么其質(zhì)量未必能夠得到保證。 前面我們看到了一環(huán)、二環(huán)、三環(huán)幾種不同的生產(chǎn)方式,在這里也呼應(yīng)一下,在選擇內(nèi)容時,我們盡量多用一環(huán)的內(nèi)容,對二環(huán)的內(nèi)容要仔細(xì)考察,三環(huán)的內(nèi)容幾乎不用。我們采用這種方式是為了保證內(nèi)容質(zhì)量高,希望直接選出來的就是可以上崗的大學(xué)生,而不是需要做大量工作將小學(xué)生培養(yǎng)成大學(xué)生。 第二個是內(nèi)容已經(jīng)有了,那么如何進(jìn)行治理以提高效果呢?治理有幾個方面,第一個是進(jìn)行ROI比較高的增補(bǔ)。比如,發(fā)現(xiàn)有些英文縮寫在問答時效果不一定好,那么我們可能會針對一些英文的概念術(shù)語進(jìn)行定向增補(bǔ)。還有一些重點場景或大家關(guān)注的熱點問題,我們也會進(jìn)行定向增補(bǔ)。另外,有些知識問題可能比較復(fù)雜,為了回答這個知識,即使一個人也需要跨多個文檔去消化、理解才能給出回答。這個時候我們知道對于RAG來講,檢索召回的片段永遠(yuǎn)是有上限的,比如5 個、10個。那么跨多文檔顯然會帶來一些問題,比如找不全。這種情況我們可以人工定義一些high level的知識內(nèi)容框架,通過這個框架可以更好地將這些跨多文檔整合起來,這樣更有利于檢索召回。 同時,對于復(fù)雜表格中的知識內(nèi)容,可以根據(jù)需要進(jìn)行總結(jié)或簡化加工,以便更好地解析表格,使知識內(nèi)容得到更好的呈現(xiàn)。知識內(nèi)容經(jīng)過生產(chǎn)和治理后導(dǎo)入到百煉中。這個過程是迭代進(jìn)行的,但不建議在沒有產(chǎn)生較好效果之前就直接推送給用戶,因為一旦效果不好,會影響用戶的心智。如果此時再拿回來重新調(diào)優(yōu)后推向用戶,效果通常不會很好,因為用戶的心智已經(jīng)受到了影響。所以一般來說,在進(jìn)行內(nèi)容治理時,在發(fā)布之前一定要進(jìn)行多個迭代,直到達(dá)到預(yù)期效果后再發(fā)布。這個過程涉及到對知識內(nèi)容迭代和優(yōu)化的管理。 左手是企業(yè)的知識庫,右手是百煉和通義千問,那么如何將知識庫內(nèi)容與基模百煉進(jìn)行整合呢?我們通過工程化的能力構(gòu)建了一個邏輯性的數(shù)據(jù)管理平臺。這個平臺可以帶來一些便利,比如企業(yè)知識庫中有很多大量的PPT文件,如果直接解析,效果可能會受損,不一定那么好。我們可以進(jìn)行格式轉(zhuǎn)換,比如轉(zhuǎn)換成PDF格式,當(dāng)然可以自動轉(zhuǎn)換,不可能靠人工去做這樣的工作。 同時,我們還可以關(guān)聯(lián)更多的內(nèi)容源和知識庫,通過這種關(guān)聯(lián)可以對接原件,知道知識內(nèi)容的來源,即來源于原知識庫的哪個地址。另外,當(dāng)原件的知識內(nèi)容進(jìn)行更新時,它可以自動進(jìn)行更新。這里很重要的一點是,不建議將知識內(nèi)容從支持元件上復(fù)制粘貼出來再進(jìn)行治理,因為一旦原件發(fā)生變更,我們可能不知道,這樣知識就全部進(jìn)行了分叉,以后就很難進(jìn)行管理。所以盡量在原件上進(jìn)行內(nèi)容治理和提升。 有了知識內(nèi)容導(dǎo)入并與百煉結(jié)合之后,在查看效果之前需要進(jìn)行基準(zhǔn)評測,要有一個基準(zhǔn)評測集。那么這個評測集如何構(gòu)建呢?一般來說,最好能夠有一些非常準(zhǔn)確、高質(zhì)量、客觀的數(shù)據(jù)。比如對于阿里云來講,內(nèi)部有一套經(jīng)過上萬人驗證的試題集,這是一種情況。 ![]() 第二種情況是盡量收集來自更真實用戶的提問,比如到核心用戶群那里收集客戶詢問產(chǎn)品知識問題的實際情況,把這些最真實的問題變成評測集的一部分,這樣能更準(zhǔn)確地判斷效果是否可行。這是對于基準(zhǔn)評測集的構(gòu)建方法。 再往后就是迭代打造效果的過程。在這個過程中,要針對Badcase做好分析,因為所有改善效果背后的問題其實都包含在Badcase中。比如有1000個用例問題,跑完后假設(shè)發(fā)現(xiàn)有100個Badcase,不一定要一個一個去解決,這樣通常效果不好也比較花時間。可以先進(jìn)行分類,至少分出TOP3,分類后的TOP3一定代表了問題的主要部分,解決一個問題就相當(dāng)于解決了一類問題。 另外,現(xiàn)在在產(chǎn)品博士的界面上已經(jīng)給出了與用戶互動的方式,用戶可以在界面上直接點贊或者點踩。當(dāng)用戶發(fā)現(xiàn)有一個問答效果不好時,可以通過點踩的方式傳到后臺,每天會有人針對這樣的數(shù)據(jù)進(jìn)行分析,從而提升效果。 另外,我們還會針對用戶進(jìn)行分析。比如有些用戶在發(fā)布后一直沒有使用過,我們稱之為缺席用戶,會對他們進(jìn)行訪談?wù){(diào)查。還有一些用戶更重要的是使用了一個月后就不再使用了,這類我們稱為離席用戶,對于這些離席用戶也會進(jìn)行訪談和調(diào)研。通過種種這些行動共同提升我們的內(nèi)容質(zhì)量。 ![]() ![]() ![]() ? |
|