久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    讓計(jì)算機(jī)理解人類語(yǔ)言:詞向量的構(gòu)建與應(yīng)用

     西北望msm66g9f 2025-01-28

    近兩年大預(yù)言模型很火,大預(yù)言模型可以視為是自然語(yǔ)言處理領(lǐng)域的一大應(yīng)用。自然語(yǔ)言處理(Natural Language Processing, NLP)其核心目標(biāo)是使計(jì)算機(jī)能夠理解、生成和處理人類語(yǔ)言。語(yǔ)言的基礎(chǔ)是詞語(yǔ),那么如何讓機(jī)器來(lái)理解詞語(yǔ)呢?這就關(guān)系到詞的表示,也就是詞向量。

    在NLP中,詞向量(word vector)是非常重要的概念,它通過(guò)將詞語(yǔ)表示為多維向量來(lái)捕捉詞語(yǔ)的語(yǔ)義信息。構(gòu)造詞向量的的方法有很多,比如通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行構(gòu)建,不過(guò)本文將介紹一種直觀的構(gòu)建詞向量的方法,并通過(guò)數(shù)學(xué)模型和具體案例進(jìn)行分析和說(shuō)明。

    詞向量的基本概念

    詞向量是用于表示詞語(yǔ)在語(yǔ)義空間中位置的向量。通過(guò)將詞語(yǔ)轉(zhuǎn)換為向量,我們可以在數(shù)學(xué)上處理詞語(yǔ)的相似性和關(guān)系。詞向量的核心思想是“可以通過(guò)它周圍的詞語(yǔ)了解一個(gè)單詞” ('You shall know a word by the company it keeps'),也就是說(shuō)一個(gè)詞的意義可以通過(guò)它在文本中與其他詞的共現(xiàn)關(guān)系來(lái)捕捉。

    數(shù)學(xué)模型

    下面我介紹的構(gòu)建詞向量的過(guò)程主要是基于詞語(yǔ)間的共現(xiàn)關(guān)系,分為以下幾個(gè)步驟:

    1. 語(yǔ)料庫(kù)準(zhǔn)備:首先需要一個(gè)大規(guī)模的文本語(yǔ)料庫(kù),用于統(tǒng)計(jì)詞語(yǔ)的共現(xiàn)關(guān)系。
    2. 上下文窗口:選擇一個(gè)合適的上下文窗口大小(通常為5到10個(gè)詞),用于確定哪些詞語(yǔ)是目標(biāo)詞的上下文詞。
    3. 共現(xiàn)矩陣:構(gòu)建一個(gè)共現(xiàn)矩陣,矩陣的每一行代表一個(gè)目標(biāo)詞,每一列代表一個(gè)上下文詞,矩陣中的值表示目標(biāo)詞與上下文詞在文本中共現(xiàn)的頻率。
    4. 降維處理:使用降維算法(如SVD、PCA等)將高維的共現(xiàn)矩陣轉(zhuǎn)換為低維的詞向量表示。

    假設(shè)我們有一個(gè)包含 個(gè)詞語(yǔ)的詞匯表 ,我們可以構(gòu)建一個(gè) 的共現(xiàn)矩陣 ,其中 表示詞語(yǔ) 在上下文窗口中的共現(xiàn)頻率。

    然后我們通過(guò)降維算法將共現(xiàn)矩陣 轉(zhuǎn)換為詞向量矩陣 ,其中每一行 表示詞語(yǔ) 的向量表示。常用的降維算法包括奇異值分解(SVD)和主成分分析(PCA)等。

    案例分析

    我們通過(guò)一個(gè)具體的例子來(lái)說(shuō)明構(gòu)建詞向量的過(guò)程。

    1. 語(yǔ)料庫(kù)準(zhǔn)備:假設(shè)我們的語(yǔ)料庫(kù)是以下簡(jiǎn)短的文本:

      I love machine learning. 
      Machine learning is fun. 
      I love coding.

      我們的詞匯表 包含以下詞語(yǔ):I, love, machine, learning, is, fun, coding

    2. 上下文窗口:選擇上下文窗口大小為2,即考慮目標(biāo)詞前后各2個(gè)詞。

    3. 共現(xiàn)矩陣:統(tǒng)計(jì)詞語(yǔ)在上下文窗口中的共現(xiàn)頻率,得到以下共現(xiàn)矩陣

    4. 降維處理:使用奇異值分解(SVD)對(duì)共現(xiàn)矩陣 進(jìn)行降維處理。SVD將矩陣 分解為三個(gè)矩陣的乘積:,其中 是正交矩陣, 是對(duì)角矩陣。通過(guò)截取前 個(gè)奇異值,可以得到低維詞向量矩陣

      如果設(shè)定降維后的維度為2,我們可以得到以下詞向量:

    圖片

    為了驗(yàn)證我們構(gòu)建的詞向量的有效性,我們可以計(jì)算詞語(yǔ)之間的余弦相似度。余弦相似度用于衡量?jī)蓚€(gè)向量之間的相似性,計(jì)算公式為:

    其中, 表示向量 的點(diǎn)積, 分別表示向量 的模。

    我們計(jì)算以下詞語(yǔ)對(duì)之間的余弦相似度:

    1. lovecoding
    2. machinelearning
    3. isfun
    import numpy as np

    # 定義降維后的詞向量矩陣
    word_vectors = np.array([
        [1.51499668-1.4173672],
        [1.876989461.68604424],
        [1.668657890.19649234],
        [1.49526816-0.93713897],
        [1.085383040.17374271],
        [0.720992040.30320536],
        [0.52440038-0.66966223]
    ])

    # 詞匯表
    words = ['I''love''machine''learning''is''fun''coding']

    # 計(jì)算余弦相似度的函數(shù)
    def cosine_similarity(vec1, vec2):
        dot_product = np.dot(vec1, vec2)
        norm_vec1 = np.linalg.norm(vec1)
        norm_vec2 = np.linalg.norm(vec2)
        return dot_product / (norm_vec1 * norm_vec2)

    # 計(jì)算特定詞語(yǔ)對(duì)之間的余弦相似度
    pairs = [('love''coding'), ('machine''learning'), ('is''fun')]
    for pair in pairs:
        idx1 = words.index(pair[0])
        idx2 = words.index(pair[1])
        similarity = cosine_similarity(word_vectors[idx1], word_vectors[idx2])
        print(f''{pair[0]}' 和 '{pair[1]}' 之間的余弦相似度: {similarity:.4f}')

    運(yùn)行結(jié)果:

    'love' 和 'coding' 之間的余弦相似度: -0.0675
    'machine' 和 'learning' 之間的余弦相似度: 0.7794
    'is' 和 'fun' 之間的余弦相似度: 0.9715

    從結(jié)果可以看出,machinelearning 以及 isfun 的相似度較高,而 lovecoding 的相似度相對(duì)較低。當(dāng)然因?yàn)槲覀儸F(xiàn)在的文本(語(yǔ)料庫(kù))比較小,這里的相似關(guān)系或許不那么明顯。我們可以進(jìn)行大語(yǔ)料庫(kù)的試驗(yàn)。

    來(lái)看看與我們對(duì)這些詞語(yǔ)在語(yǔ)義上的預(yù)期是否是一致的,進(jìn)而驗(yàn)證我們構(gòu)建的詞向量能否在一定程度上捕捉到了詞語(yǔ)之間的語(yǔ)義關(guān)系。

    如果大家想要了解更多關(guān)于詞向量的內(nèi)容,可以進(jìn)一步學(xué)習(xí)以下概念和方法:了解基于神經(jīng)網(wǎng)絡(luò)的Word2Vec模型和斯坦福大學(xué)提出的GloVe模型,這兩者都是經(jīng)典的詞向量構(gòu)建方法。還有Facebook AI研究團(tuán)隊(duì)開發(fā)的FastText模型,它通過(guò)子詞生成向量表示。Google的BERT模型和Transformer架構(gòu),這些是現(xiàn)代NLP的重要進(jìn)展。

    學(xué)習(xí)如何使用t-SNE或PCA對(duì)詞向量進(jìn)行降維和可視化。研究上下文嵌入(如ELMo、BERT、GPT),它們根據(jù)上下文動(dòng)態(tài)生成詞語(yǔ)的向量表示。這些方法和工具可以幫助大家更全面地理解和應(yīng)用詞向量技術(shù)。

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: 97欧美精品系列一区二区| 亚洲av午夜成人片| 欧美乱码伦视频免费| 亚洲爆乳WWW无码专区| 爱情岛亚洲论坛成人网站| 国产亚洲精AA在线观看SEE| 漂亮人妻中文字幕丝袜| 久久久久免费看成人影片| 中文字幕有码高清日韩| 欧美黑人XXXX性高清版| 五月丁香啪啪| 亚洲乳大丰满中文字幕| 四虎国产精品永久在线| 少妇人妻在线视频| 久久国产成人av蜜臀| 亚洲AV无码乱码在线观看性色扶| 亚洲精品日本一区二区| 亚洲人成伊人成综合网久久久| 国产99视频精品免费视频36| 国产成人AV三级在线观看按摩| 日韩中文字幕精品人妻| JIZZJIZZ亚洲日本少妇| 中文字幕人成乱码中文乱码| 国产AV无码专区亚洲AV潘金链| 亚洲AV无码一区二区乱子伦| 国内永久福利在线视频图片| 日本欧美一区二区三区在线播放| 夜夜添狠狠添高潮出水| 欧美交a欧美精品喷水| 日韩精品无码人成视频手机| 精品免费看国产一区二区| 中文字幕AV无码人妻| 亚欧洲乱码视频一二三区| 国产中文字幕在线精品| 久久久久亚洲精品无码蜜桃| 女高中生强奷系列在线播放| 亚洲大尺度无码专区尤物| 特级无码毛片免费视频尤物| 免费人成网站视频在线观看| 亚洲一区在线成人av| 亚洲AV中文无码字幕色最新|