計算機科學與探索
2024,18(04),1010-1020
融合BERT多層次特征的短視頻網絡輿情情感分析研究韓坤 潘宏鵬 劉忠軼中國人民公安大學公安管理學院摘 要:
自媒體時代與網絡社交軟件的廣泛普及,導致短視頻平臺極易成為輿情事件起源和發酵的“孵化器”。分析短視頻平臺中的輿情評論信息,對于輿情事件的預警、處置和引導具有重要意義。鑒于此,結合BERT與TextCNN模型,提出一種融合BERT多層次特征的文本分類模型(BERT-MLFF-TextCNN),并對抖音短視頻平臺中的相關評論文本數據進行情感分析。首先,利用BERT預訓練模型對輸入文本進行編碼。其次,提取各編碼層中的語義特征向量進行融合。然后,融入自注意力機制突出其關鍵特征,從而實現特征的有效利用。最后,將所得特征序列輸入TextCNN模型中進行分類。實驗結果表明,與BERT-TextCNN、GloVeTextCNN和Word2vec-TextCNN模型相比,BERT-MLFF-TextCNN模型表現更優,F1值達到了0.977。通過該模型能夠有效識別短視頻平臺輿情的情感傾向,在此基礎上利用TextRank算法進行主題挖掘,實現輿情評論情感極性的主題詞可視化,為相關部門的輿情管控工作提供決策參考。 作者簡介:韓坤(1999—),男,河南商丘人,碩士研究生,主要研究方向為網絡輿情管理、大數據分析。;潘宏鵬(1996—),男,山東濰坊人,博士研究生,主要研究方向為網絡輿情管理、大數據分析。;*劉忠軼(1983—),男,河北滄州人,博士,教授,主要研究方向為智慧管理與人工智能。E-mail:liuzhongyi@ppsuc.edu.cn; 收稿日期:2023-11-02 基金:中國人民公安大學公安學一流學科培優行動及公共安全行為科學實驗室建設項目(2023ZB02);北京社科基金重點項目(22GLA011); Research on Sentiment Analysis of Short Video Network Public Opinion by Integrating BERT Multi-level FeaturesHAN Kun PAN Hongpeng LIU ZhongyiSchool of Public Security Management, People's Public Security University of ChinaAbstract:
The era of self-media and the widespread popularity of online social software have led to short video platforms becoming“incubators”easily for the origin and fermentation of public opinion events. Analyzing the public opinion comments on these platforms is crucial for the early warning, handling, and guidance of such incidents. In view of this, this paper proposes a text classification model combining BERT and TextCNN, named BERT-MLFFTextCNN, which integrates multi-level features from BERT for sentiment analysis of relevant comment data on the Douyin short video platform. Firstly, the BERT pre-trained model is used to encode the input text. Secondly, semantic feature vectors from each encoding layer are extracted and fused. Subsequently, a self-attention mechanism is integrated to highlight key features, thereby effectively utilizing them. Finally, the resulting feature sequence is input into the TextCNN model for classification. The results demonstrate that the BERT-MLFF-TextCNN model outperforms BERT-TextCNN, GloVe-TextCNN, and Word2vec-TextCNN models, achieving an F1 score of 0.977. This model effectively identifies the emotional tendencies in public opinions on short video platforms. Based on this, using the TextRank algorithm for topic mining allows for the visualization of thematic words related to the sentiment polarity of public opinion comments, providing a decision-making reference for relevant departments in the public opinion management work.
Keyword:
network public opinion; sentiment analysis; theme visualization; BERT; Author: HAN Kun, born in 1999, M.S. candidate. His research interests include network public opinion management and big data analysis.; PAN Hongpeng, born in 1996, Ph.D. candidate. His research interests include network public opinion management and big data analysis.; LIU Zhongyi, born in 1983, Ph.D., professor. His research interests include smart management and artificial intelligence.; Received: 2023-11-02 Fund:supported by the Construction Project of the First Class Discipline Training Action and Public Safety Behavior Science Laboratory of Public Security at People’s Public Security University of China(2023ZB02);the Key Project of Beijing Social Science Foundation(22GLA011); 隨著移動互聯網的飛速發展,我國互聯網用戶數量持續增長。根據中國互聯網絡信息中心(China Internet Network Information Center,CNNIC)發布的第52次《中國互聯網絡發展狀況統計報告》顯示:截至2023年6月,我國網民規模已達10.79億,較2022年12月增長1 109萬,互聯網普及率達76.4% 隨著抖音等短視頻平臺迅速發展,海量的富含情緒化的網絡輿情評論信息隨之產生。網民在瀏覽短視頻的過程中,極易受到評論區中情緒化信息的影響,甚至改變其對有關事件的判斷以及自身的立場。短視頻平臺的個性化推送所導致的“信息繭房”效應,也強化了情緒化信息的影響。這對政府部門的網絡輿情治理工作提出了新的挑戰,如果不能及時有效地把控短視頻平臺中輿情事件的情感趨勢,極易出現“以訛傳訛”的現象,從而引發社會輿論危機 鑒于此,本文將文本情感分析技術引入短視頻網絡輿情分析領域,設計了一種基于BERT(bidirectional encoder representations from transformers)多層次特征融合(multi-level feature fusion,MLFF)的文本分類模型(BERT-MLFF-TextCNN)。在此基礎上,構建基于該模型的短視頻網絡輿情情感分析框架(如圖1所示),以抖音短視頻平臺作為數據源,選取2022年“唐山打人事件”為樣本案例,采集點贊量大于200萬的視頻評論區文本數據進行情感分析,并篩選出其中的熱門主題。通過結合不同情感對應的文本信息,研判情感產生的原因,及時發現潛在的輿情焦點和隱患,為政府部門完善輿情分析機制、防范化解輿情風險提供決策支持。 本文的主要貢獻如下: (1)提出一種基于BERT多層次特征融合的文本分類模型,該模型不僅能夠深入挖掘文本的高級語義信息,還能捕捉到語法和詞匯層面的基礎特征,從而實現更全面的文本分析。 (2)通過在本研究構建的數據集上進行實驗,有效驗證了本文模型的性能。 (3)采用TextRank算法提取主題詞,并通過可視化手段加以展現。依據分析結果,進一步提出了具體輿情管理建議。 1 國內外相關工作1.1 國內外研究總體分析1.1.1 國內研究現狀在知網中以“短視頻”和“輿情”為關鍵詞進行搜索,結果顯示,自2018年以來相關的學術期刊共計388篇。其中,關于短視頻輿情的研究主要涉及“新聞與媒體”“社會學及統計學”“行政學及國家行政管理”等學科,而涉及“計算機軟件及計算機應用”學科的相關研究文獻僅有4篇。進一步將篩選好的文獻以Refworks文件格式導出,并運用Citespace軟件對文獻信息進行分析,得出相關文獻中前10的關鍵詞與關鍵詞“情感分析”的頻次和中心性,如表1所示。其中,頻次是指某關鍵詞在文獻數據集中出現的次數,頻次較高的關鍵詞通常代表著該研究領域的主要研究主題和熱點。中心性則反映了某個關鍵詞在該研究領域中的重要性,也是衡量研究熱度的重要指標。 從表1中可以看出,關鍵詞“情感分析”僅出現過1次,對應研究提出了一種融合母評論文本信息的短文本評論情感分類模型 1.1.2 國外研究現狀國外研究文獻的搜集以“Web of Science核心合集”為基礎,以“short-form video public opinion”和“short video public opinion”為關鍵詞,結果顯示,自2004年以來相關的學術期刊共計45篇。其中,關于短視頻輿情的研究方向主要包括“知識工程與表達”“通信技術”及“法律”等。在此基礎上,將篩選后的文獻以純文本格式導出,并運用Citespace軟件對文獻信息進行分析,得出相關文獻中前10的關鍵詞與關鍵詞“情感分析”的頻次和中心性,如表2所示。 如表2所示,與國內研究現狀相似,關鍵詞“情感分析(sentiment analysis)”僅被提及1次,對應研究提出了一種采用多尺度卷積神經網絡與交叉注意力融合機制的情感分析模型 綜合國內外文獻的研究主題可以看出,有關短視頻網絡輿情的研究主要聚焦于新媒體動態、用戶行為模式以及輿情引導策略等方面,而針對文本情感分析技術在短視頻網絡輿情管理中的應用研究相對較少。與前人研究相比,本文將情感分析聚焦于短視頻平臺的評論文本并對文本特征提取方式進行創新,提出一種基于BERT多層次特征融合的情感分類模型,以提高文本情感分析的準確率。此外,本研究通過運用TextRank算法提取主題詞并進行可視化處理,能夠有效識別不同情感輿論的焦點,并據此提出輿情管理建議,增加了本研究在輿情監控與決策支持方面的實際應用價值。 1.2 文本情感分析文獻綜述文本情感分析也稱為意見挖掘,是指對帶有情感色彩的主觀性文本進行分析,挖掘其中蘊含的情感傾向,對情感極性進行劃分 1.2.1 基于情感詞典的分析方法基于情感詞典的情感分析方法依賴于情感詞典中情感詞語的預設情感值,并通過加權運算得出文本的情感傾向。此類方法在具體實施過程中沒有考慮詞語間的聯系,即每個詞語的情感傾向是預先設定的,不會因應用領域或上下文語境的不同而有所改變,因此需要針對特定領域建立相關的情感詞典來提高分類的準確率。周知等 雖然基于情感詞典的方法具有較強的普適性,并且易于實現,但該方法對于情感詞典的構建有著較高的要求,這往往需要相關領域的研究人員投入大量的時間和精力來構建高質量的情感詞典。此外,在互聯網語境中,新的表達方式和詞匯不斷涌現,而該方法依賴于預設的情感詞典,很容易出現現有情感詞典不能滿足當下需求的情況。 1.2.2 基于機器學習的分析方法基于機器學習的情感分析方法是利用大量有情感標記或無標記的文本數據進行訓練,從而構建一個情感分類器。這種分類器可以預測新句子的情感傾向。常見的機器學習算法有決策樹(decision tree,DT)、樸素貝葉斯(naive Bayes,NB)和支持向量機(support vector machine,SVM)等 相對于基于情感詞典的分析方法,基于機器學習的分析方法對情感分析更加準確,并且展現出更強的擴展性和復用性。然而,該方法的分類效果依賴于數據集的質量,而構建大規模的高質量數據集需要較高的人工成本。此外,人工標注的方式導致數據標注的結果具有一定的主觀性,這種主觀性也會影響模型的分類效果。 1.2.3 基于深度學習的分析方法深度學習方法通過多層次的神經網絡進行學習,有效解決了機器學習難以克服的眾多問題,目前在圖像、語音處理以及文本分類等領域均取得了較好的效果。常用的深度學習模型包括卷積神經網絡、循環神經網絡(recurrent neural network,RNN)、長短期記憶網絡(long short-term memory,LSTM)、Transformer和注意力機制等。馮興杰等 2018年10月,Google公司提出了BERT預訓練模型 與前兩種方法相比,基于深度學習的分析方法具有顯著優勢。首先,深度學習方法具有強大的表示學習能力。這種能力使深度學習模型能夠自動學習輸入數據與輸出目標之間的復雜映射關系,有效解決了傳統機器學習方法中需要手動設計特征的問題。其次,深度學習方法具有良好的抽象化和泛化能力。深度學習模型通過多層非線性變換,能夠提取更高層次、更加抽象的特征,使得模型能夠更好地理解和分析含有復雜情景和語義的文本信息,提高了文本情感分析的性能。最后,深度學習模型的預訓練和微調策略為文本情感分析任務提供了強大的工具。例如,BERT、GPT(generative pre-trained transformer)等預訓練模型在大規模文本數據上進行無監督學習,獲取豐富的語言表示,然后針對特定任務進行微調,這種方法大幅提高了模型的效率和效果。 值得注意的是,深度學習也存在諸如“梯度消失”和“梯度爆炸”等問題。這些問題會破壞模型在學習過程中的穩定性,進而影響模型的收斂速度和效果。此外,深度學習模型由于其復雜性,往往難以解釋其決策邏輯,這在某些需要理解模型決策依據的場景中有待進一步剖析。 2 模型構建2.1 自注意力機制自注意力機制(self-attention mechanism)屬于宏觀的注意力機制(attention mechanism)概念中的一種。關于注意力機制的原理,可將其作用過程視為一個查詢操作Query和一系列鍵值對<Key,Value>進行依次的交互作用從而使Query得到附加注意力值的過程,其計算過程如式(1)所示: 其中,Q代表查詢向量矩陣Query,K代表鍵向量矩陣Key,V代表值向量矩陣Value,dK代表鍵向量的維度。通過使用Q與K進行點積運算,然后對運算結果進行縮放,并通過應用softmax函數進行歸一化得到注意力權重Attention(Q,K,V)。所謂自注意力機制是指特征序列自身與自己進行注意力處理,即Q=K=V。經過自注意力機制處理后,特征序列的整體性會變得更強,從而更能代表語句的含義。 2.2 BERT預訓練模型BERT預訓練模型是一種構建在Transformer編碼器基礎之上的,繼承了其深層自注意力機制和前饋神經網絡的復雜結構。但與傳統Transformer編碼器存在顯著差異的是,BERT模型的輸入信息由一種多元素的結構組成,包括詞匯嵌入(token embeddings)、片段嵌入(segment embeddings)以及位置嵌入(position embeddings)。憑借這一結構組成,BERT模型可有效解決傳統Transformer模型無法考慮文本時序信息的問題。 此外,BERT模型通過在大量未標注的文本數據上進行預訓練,能夠得到包含深度語義信息的文本向量。在此基礎上,只需適當“微調”模型參數,即可將其廣泛應用于序列標注、文本分類等多種下游訓練任務中。訓練任務一般包括掩碼語言模型(masked language model,MLM)和上下句預測任務(next sentence prediction,NSP)兩種。在MLM任務中,BERT模型通過在輸入的文本序列中隨機掩蓋一些單詞,并要求模型預測這些被掩蓋的單詞。該項任務能夠促使模型學習到單詞的上下文信息,以便更好地理解語言的語義和句法結構。在NSP任務中,BERT模型則將隨機兩個句子作為輸入,并預測這兩個句子是否具有連續關系,以此幫助模型理解句子之間的邏輯關系和語義連貫性。 BERT模型結構如圖2所示。BERT模型的語義獲取部分由多個Transformer模型的編碼層(encoder)連接而成。經過多重編碼層的處理,模型能夠深入挖掘句子中的語義特征,最后輸送到下游任務進行目標任務操作。為了獲取文本的深層語義信息,BERT模型一般由多個編碼層組成,例如,BERT-base模型中包含12個編碼層,BERT-large模型中包含24個編碼層。 2.3 基于BERT模型的多層特征融合策略在近年的深度學習研究中,編碼層的數量常被視為模型深度與復雜度的象征。但隨著編碼層的逐漸增多,模型可能會呈現超出其本質的文本解讀,從而使得模型在未知數據上受到特定噪音或異常特征的影響。這種現象不僅會導致模型的泛化能力下降,而且容易引發過擬合現象,即模型在訓練數據上展現出色,但在驗證或測試集上性能不佳。 考慮到上述問題,本文提出一種基于BERT預訓練模型的多層次特征融合策略。選擇BERT作為基礎,是基于其在各種自然語言處理任務上已經證明的優越性能及其深度的Transformer架構,能為文本編碼帶來豐富的上下文信息。其基本結構如圖3所示。 ![]() 圖3 基于BERT預訓練模型的多層次特征融合策略 下載原圖 Fig.3 Multi-level feature fusion strategy based on BERT pre-trained model 具體步驟包括: (1)多層特征提取。傳統方法通常從BERT模型的最后一層提取特征,但這種方法可能會漏掉模型初級編碼層的關鍵信息。為了充分利用BERT模型的多層結構,本文采用從每個編碼層提取“[CLS]”向量的方法,該向量能夠代表輸入序列的語義特征。通過這種方法,不僅能夠捕捉到文本的高級語義信息,而且能夠獲得初級編碼層的語法和詞匯特征。 (2)特征融合。將各編碼層的“[CLS]”向量進行拼接操作,從而構建一個綜合特征向量。此步驟的目的在于整合BERT模型中各層的特征信息,以保證細節的完整性。經此步驟得到的特征序列是融合多個語義層次的綜合文本表示。 (3)引入自注意力機制。經上述步驟雖然得到融合多層次的特征序列,但并非所有特征都同等重要,需要利用自注意力機制對特征進行篩選和加權,從而強化其中的關鍵特征并抑制不相關或者冗余的信息。 2.4 TextCNN模型TextCNN(text convolutional neural network)模型是CNN模型的一種變體,是利用卷積神經網絡進行文本分類的算法,其模型結構如圖4所示。與普通的CNN模型相同,TextCNN模型也是由嵌入層、卷積層、池化層以及全連接層組成。但與傳統CNN模型不同的是,TextCNN模型的卷積核的寬度與詞向量的維度相等,且卷積核只會在句子矩陣的高度方向移動。使用大小不同的卷積核進行卷積操作能夠充分學習上下文之間的語義關系,捕捉句子中的局部相關性,從而得到更加全面的特征數據。 (1)嵌入層。嵌入層的作用是將輸入的句子進行向量化處理,從而得到一個句子矩陣,矩陣的行是對應的詞向量。例如,目標語句X中包含n個詞語,每個詞語用k維的向量表示,則該目標語句對應的矩陣維度為n×k,矩陣大小如式(2)所示: 其中,Xi為文本中第i個詞語的詞向量表示,⊕為向量的拼接操作。 (2)卷積層。卷積層是TextCNN模型的核心部分,卷積層通過利用不同大小的卷積核對嵌入層生成的句子矩陣進行卷積操作得到特征矩陣C=[c1,c2,…,cn-1,cn]。例如,卷積核的大小為h×k,其中h是卷積核覆蓋的詞語的數量,k是詞向量的維度,則卷積操作可用式(3)表示: 其中,ci為卷積結果的第i個元素,W為卷積核的權重矩陣,·為矩陣點乘,Xi:i+h-1為輸入矩陣的一個片段,b為偏置項,f為激活函數,例如ReLU函數。 (3)池化層。由于不同大小的卷積核生成的特征映射的維度不同,需要通過池化層對卷積層輸出的特征圖進行池化處理,以得到固定長度的特征向量。常用的池化方法是1-max池化方法,即選擇每個特征映射中的最大值作為該特征映射的代表值,從而實現對每個特征映射的壓縮。具體計算過程如式(4)所示。在此基礎上,將所有卷積核的池化結果進行拼接,得到由最大特征值組成的全局特征 (4)全連接層。全連接層在TextCNN模型中起到決斷的作用。在卷積層和池化層對特征進行提取和合并之后,在全連接層中使用softmax激活函數得到最終的分類結果,具體計算公式如下: 2.5 BERT-MLFF-TextCNN模型本文在上述基礎上提出基于BERT多層次特征融合的TextCNN文本分類模型(BERT-MLFF-TextCNN),模型結構如圖5所示,主要組成如下: (1)BERT編碼層。該模型首先借助BERT預訓練模型對輸入的文本數據進行編碼。BERT預訓練模型作為一種深度雙向的Transformer模型,已被證明在各種自然語言處理任務中具有超越其他模型的性能。利用BERT對文本進行編碼能夠為后續的特征提取和分類提供豐富而準確的文本表示。 (2)多層次特征融合層。在文本編碼的過程中,該模型特別強調了對BERT模型各編碼層中“[CLS]”向量的提取和利用。通過對多個層次的“[CLS]”向量進行拼接,能夠融合文本的淺層語義和深層語義特征,從而有效提高模型的特征表示能力。 (3)自注意力層。為了進一步強化文本中的關鍵語音信息,BERT-MLFF-TextCNN模型引入了自注意力機制對特征序列進行動態賦權。這意味著不同特征在模型的決策中將有不同的權重,有助于模型更為準確地捕捉文本中的關鍵部分。 (4)TextCNN分類層。經過上述的特征提取和增強后,特征序列被輸入TextCNN模型中進行分類。TextCNN模型擅長捕捉局部關聯特征,通過這種方式,可以確保模型充分挖掘文本中的局部信息。 綜合來看,BERT-MLFF-TextCNN模型實現了深層與淺層、全局與局部特征的有機融合。這種設計理念為文本數據提供了一個更為全面的特征表示,從而使模型在文本分類任務中展現出更強的魯棒性和準確性。 3 實驗應用研究3.1 實驗數據集獲取與預處理3.1.1 數據集獲取抖音作為網絡輿情傳播載體,自上線以來便受到廣大網民的追捧,并迅速發展成為互聯網的流量高地。根據抖音平臺公布的數據,截至2021年6月,抖音的日活躍用戶數已經超過了1.5億,月活躍用戶數更是超過了3億。此外,已有超500家政府和媒體機構落戶抖音平臺,由此可見抖音在短視頻平臺領域的影響力和代表性 3.1.2 數據預處理為了提高模型的準確性,需要先對收集到的數據集進行預處理操作。具體包括以下步驟: 首先,刪除無效文本。由于數據采集均來自于抖音平臺的評論區,采集到的文本數據經常存在“@+用戶名”形式的內容。鑒于“用戶名”中包含的字符會對情感分析產生影響,對于此類文本數據不能簡單地刪除“@”特殊符號,而應當刪除整條數據。此外,在數據采集的過程發現存在借用評論區為其他熱點事件引流的情況,例如,“毒教材事件怎么沒有人關注”“麻煩大家關注一下上海金山案件”等評論。類似評論與視頻主題無關,同樣應當刪除。 其次,分詞與停用詞過濾。借助Jieba工具完成中文分詞,并在此基礎上通過自定義詞典和正則表達式完成停用詞過濾。 最后,分類標注。對經過上述處理的評論信息進行標注,用“0”表示“消極情感”,用“1”表示“積極情感”,最終得到包含消極情感的評論8 957條,包含積極情感的評論9 631條,具體數據分布情況如表3所示。本研究使用的評論數據共18 588條,屬于小規模樣本集(幾萬量級)。因此,按照6∶2∶2的比例將數據集隨機劃分為訓練集、驗證集以及測試集。 3.2 實驗環境與超參數取值本文使用的實驗平臺為Anaconda,硬件為Intel i7-12700H處理器,16 GB內存,RTX 3060處理器。編碼采用Python 3.7.16版本,深度學習庫為Pytorch1.13.1,機器學習庫為Sklearn 1.0.2。為了確保模型取得更好效果,在保持其他參數不變的情況下,通過多次實驗調整模型的可調參數,最后確定最佳參數值,如表4所示。 3.3 評估指標本文實驗使用的評價指標包括四個:精確率(Precision)、召回率(Recall)、F1值和準確率(Accuracy)。其中,精確率記作“P”,召回率記作“R”。由于本文實驗在本質上屬于文本情感分析中的二分類任務,可以參考二分類的混淆矩陣定義計算符號:TP表示真實值和預測值均為正類的樣本數量;FN表示真實值為正類,預測值為負類的樣本數量;FP表示真實值為負類,預測值為正類的樣本數量;TN表示真實值和預測值均為負類的樣本數量。本文實驗使用的評價指標的計算方式如式(7)~(10)所示 4 研究結果4.1 性能評價為驗證BERT-MLFF-TextCNN模型的有效性,本文分別計算了BERT-MLFF-TextCNN、BERT-TextCNN、Word2vec-TextCNN及GloVe-TextCNN四種模型在數據集上的精確率、召回率、準確率和F1值,結果如表5所示。 可以看出:在上述四類文本情感分析模型中,BERT-MLFF-TextCNN模型表現最佳。F1值方面,BERT-MLFF-TextCNN模型達到了0.977,與BERT-TextCNN模型、GloVe-TextCNN模型和Word2vecTextCNN模型相比,均有所提升。 4.2 主題可視化與對策建議主題詞的提取過程通常需要借助無監督學習的方法,比如TF-IDF(term frequency inverse document frequency)、隱含狄利克雷分布(latent Dirichlet allocation,LDA)以及TextRank算法等。與其他方法相比,TextRank的優勢在于它能夠直接進行主題詞的提取,無需進行預先訓練。基本原理是:首先,利用詞匯間的共現關系構建詞匯連接圖,將每個詞與其相鄰詞的連接視作一種投票機制,連接的數量反映邊的權重。然后,通過迭代計算獲得詞語的重要性直至收斂。最后,根據重要性對詞匯進行排序,選擇排名前列的一些詞作為關鍵詞 從圖6中可以看出,積極情感極性的評論的關鍵詞主要包括“報警”“勇敢”“老板娘”等。此類評論主要是網民對老板娘保存監控視頻以及現場女生報警行為的稱贊。例如“面對惡人不顧自身安危,勇敢報警,是當代見義勇為的女英雄,為你點贊”“感謝老板娘保存完整監控”等。 與積極情緒相比,輿情事件中的消極情緒更應得到政府相關部門的重視,這是因為消極情緒的輿情影響力遠大于積極情緒,若政府相關部門不能及時采取行動,這些負面信息會迅速產生嚴重的社會影響,甚至由線上引發線下沖突 基于上述分析,未來應加強以下幾方面的工作: 第一,及時發布權威有效信息。在網絡輿情事件爆發初期,網民所掌握的信息量有限,對輿情事件的認知判斷主要受自身情緒的影響。在此情況下,當網民接觸到不實言論和偏執評價時,極易產生負面情緒,并在心理上形成難以修正的“第一印象”。因此,政府部門必須及時發布權威且有效的信息。為了有效控制網絡輿論,政府應采取兩項關鍵措施:首先,應遵循“輿情黃金4小時法則”,在網絡輿情發生后的最初4小時內迅速發布權威信息,并積極回應公眾疑慮,以贏得輿論引導的優勢。其次,應持續更新并發布后續權威信息,遵循“快速報道事實、謹慎分析原因、重視表明態度、持續更新進展”的原則,確保在法律允許的范圍內盡可能多地公開信息,讓公眾了解更多真實情況。 第二,充分發揮政務新媒體的作用。媒體作為“輿論緩沖”的平臺,能夠在滿足自身價值觀實現的同時確保公眾對于某一時間的不滿情緒得到法律允許前提下的發泄,從而達到穩定社會情緒的作用 第三,疏導公眾負面情緒。情緒宜“疏”不宜“堵”,網絡輿情中產生的負面情緒不宜用壓抑的方式去解決,壓抑和抵制反而會引發更激烈的憤怒和不滿情緒,導致輿論爆發和群體情緒化 5 結束語本文提出了一種基于BERT多層次特征融合的文本分類模型BERT-MLFF-TextCNN,以抖音短視頻平臺為例,對“唐山打人事件”中的熱門輿情評論進行情感分析。實驗結果表明,與BERT-TextCNN、GloVe-TextCNN和Word2vec-TextCNN模型相比,BERT-MLFF-TextCNN模型展示出了更為優秀的性能。在此基礎上,利用TextRank算法提取評論信息中的熱門主題詞,并進一步分析深層次的原因,從而為政府相關部門的輿情管控工作提供決策參考。在本研究中,數據采集主要集中在抖音短視頻平臺。為進一步拓展研究的廣度和深度,未來研究應考慮將快手、微信視頻號等其他短視頻平臺作為補充數據來源。此外,在數據處理部分,本文僅將評論的情感傾向分為積極和消極兩類,這種做法雖然為后續研究提供了便利,但是也丟失了一些有價值的信息。基于此,在下一步研究中,可通過增加情感類別,將評論情感傾向劃分到更細粒度,為輿情管控工作提供更具針對性的決策依據。 作者圖片
![]() ![]() ![]() 參考文獻 |
|