久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    如何通俗易懂地讓女朋友明白什么是語言模型?

     尹培西 2021-05-05
    深度學(xué)習(xí)自然語言處理
    一個(gè)熱衷于深度學(xué)習(xí)與NLP前沿技術(shù)的平臺(tái),期待在知識(shí)的殿堂與你相遇~
    154篇原創(chuàng)內(nèi)容
    公眾號(hào)

    圖片

    來自:NLP情報(bào)局

    ??背景

    上周末和女朋友去風(fēng)云再起夾娃娃,原本不會(huì)玩的我們?cè)诤酶鐐兊闹更c(diǎn)下竟然夾到了一堆。其中一只娃娃是語言模型BERT的好兄弟,來自芝麻街的“甜餅怪”。于是飯后回到家,我們有了下面的對(duì)話。

    ??什么是語言模型?

    我:親愛的,今天你夾到了一只甜餅怪耶,還記得我之前和你說過的BERT嗎?他們是好兄弟哦,而且甜餅怪也是語言模型Grover的代表。

    女友:有點(diǎn)印象,是不是那個(gè)小黃人!你們NLPer說的BERT到底是啥呀?

    我:BERT是Google發(fā)布的一款預(yù)訓(xùn)練語言模型,中文全稱叫“基于變換器的雙向編碼器....”

    女友:可不可以“說人話” - -!

    圖片

    我:哦,對(duì)不起!BERT屬于預(yù)訓(xùn)練語言模型的一種,那我先從語言模型開始介紹吧,保證用通俗易懂的語言。

    女友:這還差不多。

    我:先舉一個(gè)最簡單的例子!

    假如我剛和你交往沒多久,突然有一天我想對(duì)你說三個(gè)字,又不好意思直說,于是我把中間的那個(gè)字先蓋住,你看到的變成了:“我[mask]你”

    雖然你心中大概率覺得就是那三個(gè)字,但也許會(huì)猜測有沒有別的可能?

    這時(shí)BERT出現(xiàn)了,他和你說:“讓我來幫你看看這小子心里在想啥”。

    通過統(tǒng)計(jì)我和你之前的一些聊天資料,BERT科學(xué)分析得出如下結(jié)論:中間的字97%的概率是“愛”,2.5%的概率是“想”,0.01%的概率是“恨”。

    女友的嘴角微微上揚(yáng),“果不出我所料”。

    我:當(dāng)然啦,這只是最簡單的demo。再來一個(gè)例子,假如夏天我們?nèi)ヅ郎奖苁?,在半山腰發(fā)現(xiàn)對(duì)面山上有一大片竹林。

    才華橫溢的女票隨口而出一句五言詩:“一望山多竹”,并含情脈脈地看向了我。

    鄙人雖然才疏學(xué)淺,好在我的專業(yè)是自然語言處理,又有BERT這一法寶。我悄悄地把這5個(gè)字告訴了他,部署在遠(yuǎn)程GPU上的BERT瞬間發(fā)回5個(gè)字:

    “能生夏日寒”。

    女友:哎呀,對(duì)的不錯(cuò)呀。BERT咋這么聰明?

    圖片

    我:不僅如此,BERT還可以根據(jù)你指定的主題作出完整的古詩或?qū)β?lián)呢!甚至還能編排小說和電影劇情。

    當(dāng)然了,主旨概括、文字翻譯、新聞歸類這些工作對(duì)他而言更不在話下。和文字相關(guān)的活,BERT幾乎都能干

    女友:天吶,這么厲害。

    我:現(xiàn)在我來完整解釋一下。

    所謂語言模型,就是通過觀察人類的表達(dá)習(xí)慣,計(jì)算機(jī)模型自動(dòng)統(tǒng)計(jì)歸納出一些客觀的文字規(guī)律。經(jīng)過總結(jié)這些規(guī)律,模型一定程度上可以理解人類的語言。

    一個(gè)優(yōu)秀的語言模型,無法讓你分辨出它到底是人還是機(jī)器。

    女友:還是沒有很懂,是怎樣的規(guī)律呢?

    我:假如我們現(xiàn)在從網(wǎng)絡(luò)上收集到了100W個(gè)句子,其中有一個(gè)句子是:“今晚我想吃香芋西米露”。

    語言模型的學(xué)習(xí)任務(wù)就是統(tǒng)計(jì)語言序列 “今 / 晚 / 我 / 想 / 吃 / 香 / 芋 / 西 / 米 / 露”的概率,即:

    簡單的說,語言模型的目的是判斷一個(gè)句子是否正常,是不是是人話。例如:

    P(今 / 晚 / 我 / 想 / 吃 / 香 / 芋 / 西 / 米 / 露) > P(香 / 芋 / 西 / 米 / 露 / 今 / 晚 / 想 / 吃 / 我)

    語言模型認(rèn)為,后面一句話不是正常的人話,幾乎不會(huì)在我們的生活中出現(xiàn)。依此類推,模型會(huì)對(duì)100W個(gè)句子分別計(jì)算出現(xiàn)的概率。

    女友:哦,好像有點(diǎn)明白了~

    圖片

    我:嗯嗯,這就是最早期的基于統(tǒng)計(jì)的語言模型。當(dāng)然啦,上面的序列計(jì)算量有些大,實(shí)際中我們往往會(huì)對(duì)句子先分詞,把“今晚我想吃香芋西米露”切分成“今晚 / 我 / 想 / 吃 / 香芋 / 西米露”。

    女友:這不就是我們小學(xué)學(xué)習(xí)的組詞嘛。

    我:對(duì)!分詞是NLP最基礎(chǔ)的概念之一,看來你已經(jīng)能初步理解啦。

    分詞的好處是我們可以以詞為粒度,統(tǒng)計(jì)每個(gè)詞彼此先后的順序、分布的規(guī)律,顯著減少計(jì)算量。例如“香芋”后跟“西米露”的概率要遠(yuǎn)大于“金露”。

    女友:明白分詞的含義啦。

    我:要計(jì)算一個(gè)句子中所有詞出現(xiàn)的概率仍然比較困難,所以實(shí)際中我們會(huì)繼續(xù)優(yōu)化,使用基于n-gram的統(tǒng)計(jì)方法,以及隨后出現(xiàn)的神經(jīng)網(wǎng)絡(luò)語言模型。

    這些內(nèi)容涉及了一些專業(yè)知識(shí),下一次我們?cè)賮碛懻摗R歉信d趣,我可以先給你一些資料哦[1]。

    女友:好。

    ??預(yù)訓(xùn)練語言模型和語言模型又有什么區(qū)別?

    女友:為什么你一開始時(shí)說BERT是預(yù)訓(xùn)練語言模型呢,他和上面的語言模型難道還不一樣?

    我:本質(zhì)是一樣的,但是實(shí)現(xiàn)方法有一些不同。

    女友:怎么說?

    我:BERT是2018年底開發(fā)出來的語言模型,用到了當(dāng)時(shí)NLP最前沿的技術(shù)。BERT模型有3個(gè)核心特點(diǎn):

    (1)基于self-Attention的Transformer架構(gòu);(2)采用的MLM預(yù)訓(xùn)練任務(wù)符合語言模型本質(zhì);(3)訓(xùn)練語料龐大,多達(dá)33億文本,見多識(shí)廣。

    女友:不行,又開始懵了。

    我:不急哈,我來一個(gè)個(gè)說明。

    關(guān)于注意力機(jī)制,你只要先了解這是一種非常高效的神經(jīng)網(wǎng)絡(luò)。假如現(xiàn)在有一個(gè)很長的句子,從頭讀到尾,很可能句子一開始說的內(nèi)容我們已經(jīng)忘了。

    但是Attention沒有這個(gè)煩惱,在它看來句子中任意兩個(gè)位置的詞都是相鄰關(guān)系。所以我們說Attention有很強(qiáng)的“記憶能力”!

    圖片

    女友:哦,原來是記性好。那MLM呢?

    我:MLM(Mask Language Model)其實(shí)很好理解。正常的一句話,針對(duì)其中的每個(gè)字以15%的概率掩蓋,再讓BERT預(yù)測被蓋住的字原本是什么。

    以蘇東坡的詩“欲把西湖比西子,淡妝濃抹總相宜”為例。

    經(jīng)過隨機(jī)掩蓋,原詩可能變成了“欲把西[mask]比西子,淡[mask]濃抹總相宜”。

    BERT的主要訓(xùn)練任務(wù)就是將文本經(jīng)過層層Transformer編碼后,根據(jù)沒有被掩蓋的上下文還原[mask]位置的字。

    女友:那不會(huì)出現(xiàn)有很多種可能的表達(dá)嗎?

    我:中文版BERT的詞表一共有20,000多個(gè)字符,常見的中文字符只有2000-3000個(gè)。假如讓模型隨機(jī)猜,猜中的概率最多只有1/2000。

    女友:這也太低了吧~

    我:模型不會(huì)瞎猜啦!他會(huì)根據(jù)上下文縮小范圍。

    通過對(duì)海量文本的學(xué)習(xí),BERT知道和“西”組成的詞只有“西瓜、西湖、西紅柿、西溪、西北...”等十幾種,再結(jié)合上下文語境,能快速鎖定第一個(gè)[mask]對(duì)應(yīng)的字符是“湖”。

    即便有多種可能組合,BERT也只會(huì)選擇概率最大的字符(“湖”在這個(gè)語境中的概率可能大于90%)。

    女友:所以BERT最終會(huì)輸出“欲把西[湖]比西子,淡[妝]濃抹總相宜”?

    我:就是這樣。假如剛開始訓(xùn)練時(shí)BERT預(yù)測錯(cuò)了,MLM對(duì)應(yīng)的損失函數(shù)(CrossEntropy)就會(huì)產(chǎn)生一個(gè)比較大的值,對(duì)模型進(jìn)行懲罰;下一次預(yù)測對(duì)了,損失值就變成0。

    BERT會(huì)往損失值最小的方向?qū)W習(xí),也就越學(xué)越聰明啦!

    女友:好聰明呀。為什么會(huì)選擇MLM這樣一個(gè)訓(xùn)練任務(wù)呢?

    我:MLM任務(wù)的靈感來自于人類做完形填空。挖去文章中的某些片段,需要理解上下文來猜測這些被掩蓋位置的內(nèi)容。這樣的任務(wù)符合咱們前面介紹過的語言模型的本質(zhì)。

    女友:猴。

    我:第3點(diǎn)訓(xùn)練語料龐大更好理解。相比前面提及的100W文本,明顯33億語料包含的信息更豐富,BERT幾乎能學(xué)到每一個(gè)詞在各種上下文語境中的用法。

    正所謂是大力出奇跡。

    女友:一個(gè)人讀了33億文本規(guī)模的書,估計(jì)也是半個(gè)國學(xué)大師了吧圖片

    我:哈哈很有可能。

    圖片

    ??語言模型有什么用?

    女友:你說了這么多,BERT在實(shí)際中有什么用?

    我:只要和自然語言相關(guān)的場景(其實(shí)還包括圖片、音頻等),幾乎都有BERT的用武之地。從最常見的新聞分類、相似句判斷到機(jī)器閱讀理解、問答系統(tǒng)等等。

    女友:你剛說問答系統(tǒng),那是不是可以訓(xùn)練一個(gè)BERT和我聊天?

    我:可以,閑聊屬于問答系統(tǒng)的一個(gè)重要分支,有很廣泛的應(yīng)用場景。

    女友:我問什么BERT都能回答嗎?

    我:這需要關(guān)注2個(gè)問題:訓(xùn)練語料和訓(xùn)練任務(wù)

    BERT本質(zhì)是一個(gè)龐大的語言模型,所以給一段文本讓他分類,或者判斷是真/假新聞,很符合他的預(yù)訓(xùn)練目標(biāo)。但如果想和他聊天,我們需要提供新的目標(biāo)讓BERT學(xué)習(xí)。

    女友:啥目標(biāo)?

    我:比如我們提供上句S1,讓BERT預(yù)測下句S2;通過這樣的訓(xùn)練方式,他就具備了一定的問答能力。

    如果你提供給他的是百度百科語料以及相應(yīng)的“問題-答案“句子對(duì),他就是一個(gè)百科問答型BERT,能幫助你解決一些常見的FAQ。

    如果提供的是聊天相關(guān)的文本,他就是一個(gè)閑聊類型的BERT,能幫你解悶甚至講笑話逗你開心。

    女友:這么神奇!

    什么地方可以安裝BERT???

    我:BERT模型可以部署到公眾號(hào)、小程序、手機(jī)應(yīng)用app、網(wǎng)頁甚至嵌入到已有的硬件產(chǎn)品中哦,不限載體。

    也許未來BERT會(huì)在問答機(jī)器人、智能家居中大顯身手。

    ??可以自己訓(xùn)練一個(gè)BERT嗎?

    女友:BERT好好玩,我可以自己訓(xùn)練一個(gè)嗎?

    圖片

    我:可以的,不過需要先學(xué)習(xí)一些工具哦,比如Python、基礎(chǔ)的NLP知識(shí),看一看BERT的論文...

    女友:啊,這么麻煩= =!有沒有辦法快速上手圖片

    我:有。我可以用tf/torch幫你搭好訓(xùn)練框架,告訴我你想和他聊天的主題,任務(wù)型 or 閑聊 or FAQ問答?

    再幫你爬取一些語料,部署成一鍵訓(xùn)練!點(diǎn)擊“開始訓(xùn)練”,過幾小時(shí)就會(huì)有一個(gè)專屬你的BERT誕生啦!

    女友:好,今晚幫我訓(xùn)練一個(gè)!

    我:這么積極呀,遵命...

    圖片

    女友:下一次我還要去夾娃娃,爭取夾回一個(gè)“BERT”圖片

    ??后記

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: av一区二区中文字幕| 中文字幕在线精品国产| 99久久精品国产一区二区蜜芽| 国产精品有码在线观看| 精品国产人妻一区二区三区久久| 亚洲日韩精品无码av海量| 亚洲欧美综合中文| 亚洲精品一区二区美女| 伊人狠狠色丁香婷婷综合| 无码精品久久久久久人妻中字| 波多野结系列18部无码观看AV| 中文字幕人成乱码中文乱码| 欧美福利电影A在线播放| 东京热大乱系列无码| WWW夜片内射视频在观看视频| 日夜啪啪一区二区三区| 小12萝8禁用铅笔自慰喷水| 欧美自拍另类欧美综合图片区| 女上男下激烈啪啪无遮挡| 亚洲欧美日产综合在线网 | 久久一日本道色综合久久| 国产精品白丝喷水在线观看| 精品无码久久久久成人漫画| 亚洲AV无码乱码在线观看性色扶 | 国产美女精品自在线拍免费| 亚洲精品欧美二区三区中文字幕| 国产在线午夜不卡精品影院 | 亚洲AV无码不卡私人影院| 久久精品国产再热青青青| 成人国产精品一区二区网站公司| 又黄又硬又湿又刺激视频免费| 亚洲成人高清av在线| 四虎影视永久地址WWW成人| 強壮公弄得我次次高潮A片| 日韩有码中文字幕av| 国产精品欧美一区二区三区不卡| 韩国青草无码自慰直播专区| 国产日韩一区二区四季| 好深好爽办公室做视频| 亚洲一卡2卡3卡4卡精品| 免费VA国产高清大片在线|