7月23日,夸克健康大模型成功通過中國12門核心學(xué)科的主任醫(yī)師筆試評(píng)測(cè),成為國內(nèi)首個(gè)完成這一挑戰(zhàn)的大模型。這是繼5月通過副主任醫(yī)師職稱考試后,夸克健康大模型的又一次能力躍升。目前,“主任級(jí)AI醫(yī)生”能力已經(jīng)全面集成在夸克的AI搜索里,查詢健康問題的時(shí)候,選擇深度搜索就可以調(diào)用。 之所以是垂類大模型,原因很簡(jiǎn)單。一方面,垂類大模型相比通用大模型有更強(qiáng)的單一場(chǎng)景專業(yè)性,根據(jù)夸克公布的數(shù)據(jù),在醫(yī)療場(chǎng)景下的性能比較,夸克健康大模型的答題正確率,全面超越了通用大模型DeepSeek。這并不是說通用大模型性能不行,只是“術(shù)業(yè)有專攻”,針對(duì)單一場(chǎng)景的垂類大模型,明顯會(huì)更適合。 另一方面,對(duì)于專業(yè)領(lǐng)域,AI大模型要面對(duì)的是各種各樣的問題,這意味著單一的數(shù)據(jù)庫回答并不可靠,尤其是醫(yī)學(xué)領(lǐng)域。舉個(gè)例子,每一位病人都是感冒,但不同的人會(huì)有不同的癥狀表現(xiàn),癥狀的輕重也各有不同,甚至還有一定的并發(fā)癥和過敏等因素伴隨,醫(yī)生就需要根據(jù)病人的癥狀描述“對(duì)癥下藥”。 因此,垂類大模型不僅要“知識(shí)豐富”,更要“會(huì)思考”,夸克健康大模型以通義千問為基礎(chǔ),走出了一條面向垂直場(chǎng)景的工程化路線。夸克算法負(fù)責(zé)人表示:“我們不是在訓(xùn)練AI回答醫(yī)學(xué)問題,而是在訓(xùn)練它學(xué)會(huì)醫(yī)學(xué)思維。”換句話說,醫(yī)學(xué)垂類大模型不能是AI“閉門造車”,更多的還是和真實(shí)醫(yī)生一同共創(chuàng)。 (圖片來自夸克) 而夸克健康大模型的核心突破之一,就是“慢思考”能力。這項(xiàng)能力融合了鏈?zhǔn)酵评砗投嚯A段臨床演繹路徑建模,驅(qū)動(dòng)模型在面對(duì)復(fù)雜醫(yī)療問題時(shí),能夠分階段、層層深入地推導(dǎo)出最終回答。 所謂的“醫(yī)學(xué)思維”并非單方面的知識(shí)庫或者推理能力,夸克健康大模型的思考,是基于高質(zhì)量訓(xùn)練數(shù)據(jù)的。為此,夸克構(gòu)建了“雙數(shù)據(jù)產(chǎn)線+雙獎(jiǎng)勵(lì)機(jī)制”的工程體系,將醫(yī)學(xué)數(shù)據(jù)劃分為“可驗(yàn)證”和“不可驗(yàn)證”兩類,分別對(duì)應(yīng)診斷類任務(wù)和健康建議類任務(wù)。另外,在訓(xùn)練方法上,夸克引入了“過程獎(jiǎng)勵(lì)模型”和“結(jié)果獎(jiǎng)勵(lì)模型”,確保推導(dǎo)過程和最終結(jié)果的合理性和準(zhǔn)確性。 為了避免AI大模型為了高分而做題的應(yīng)試行為,夸克健康大模型還設(shè)計(jì)了多階段強(qiáng)化學(xué)習(xí)流程,通過真實(shí)醫(yī)生標(biāo)注、提問——思考——回答整組數(shù)據(jù)驅(qū)動(dòng)強(qiáng)化學(xué)習(xí),讓夸克健康大模型成為了“不讀死書”,擁有真正醫(yī)學(xué)思維的AI大模型。 得益于在醫(yī)學(xué)領(lǐng)域的專業(yè)性,夸克健康大模型得到了不少專業(yè)醫(yī)師的認(rèn)可,比如安貞醫(yī)院心臟外科主任醫(yī)師謝進(jìn)生表示,夸克在一些問題上回答的專業(yè)度比專業(yè)醫(yī)生更強(qiáng)。同時(shí)夸克AI搜索吸引了一大批醫(yī)學(xué)生和醫(yī)生群體,目前平臺(tái)在全國醫(yī)學(xué)生中月活用戶已突破200萬,覆蓋率過半,這就是夸克健康大模型在醫(yī)學(xué)領(lǐng)域?qū)I(yè)性的證明。 這次夸克健康大模型證明了自己更高的能力上限,但這不是AI大模型的終點(diǎn)。醫(yī)學(xué)大模型除了要在專業(yè)領(lǐng)域上不斷精進(jìn),從應(yīng)用層面去看,更應(yīng)該讓更多普通用戶享受到“人均專業(yè)醫(yī)師”的專業(yè)咨詢。 |
|