本文是一篇電子商務論文,本研究以新浪微博平臺為代表進行研究,暫未嘗試對其他社交網絡平臺輿情進行情感分析模型的實驗及應用,現如今如貼吧、微信公眾號等平臺同樣具有言論自由、傳播廣泛等特點,若嚴重公共安全事件發生或不法分子惡意煽動,這些平臺的的輿情泛濫問題同樣嚴峻。
1 緒論
1.1 研究背景
隨著互聯網的飛速發展與web2.0技術的普及,社交網絡應用平臺以驚人的速度席卷全球,并憑借其開放性、交互性與社會參與性滲透到大眾生活的方方面面。新浪微博作為國內社交網絡應用平臺的佼佼者,基于公共平臺架構,提供便捷且具有創新性的方式使得用戶可以實時公開的發布信息,并通過裂變傳播方式讓用戶與世界緊密相連[1]。
新浪微博是基于用戶關系的社交媒體應用,用戶可以通過電腦PC端、手機客戶端等多種終端接入,以文本、圖片等多種表達形式實現信息的即時分享、互動與傳播。新浪微博作為繼門戶、搜索之后的互聯網新入口,改變了信息的傳播方式并實現了信息的即時分享。自2009年8月上線以來,新浪微博就以其低門檻、便捷性獲取了大批用戶并保持持續增長態勢。《第45次中國互聯網發展狀況統計報告》[2]的數據顯示,截止2020年4月,微博月活躍用戶達5.16億,日活躍用戶達到2.22億。作為國內目前最大的中文社區平臺,微博已成為公眾即時獲取信息、自由發布情感觀點與訴求以及便捷傳遞信息的主要途徑,然而這樣便捷的言論環境也為輿情的迅速爆發和不良泛濫埋下隱患,同時微博龐大的用戶群體和海量的言論信息為平臺管理提出了更大的挑戰。
輿情泛濫現象古已有之,其中不乏某些組織刻意通過極端情緒性言論帶動輿論節奏以達成某種私有目的或利益,由于信息的不對稱性和相關言論的情緒煽動性,往往會在群眾中產生極大的影響力。同樣的,微博用戶類型形形色色,公眾發布的言論情緒極端化、碎片化程度高且信息量龐大,輿情態勢會乘著平臺發布言論的相對匿名性和裂變式傳播的便捷乘風破浪,普通民眾常常會盲目加入這股輿論風暴從而使得局面更加難以控制,其產生的負面影響力也會進一步擴大。特別是事關公眾人身安全的破壞性突發事件,如洪水、干旱、瘟疫、地震等,往往在發布伊始就能觸發爆發點,并迅速聚焦公眾視野和輿論熱點,如2018年紅黃藍幼兒園虐童事件衍生出諸多子事件,從開始矛頭指向幼兒園,到攝像證據被刪,到最后幕后操手做空紅黃藍股票。
1.2 研究意義
輿情自古以來均是政府進行決策的重要依據,特別是危害性極強的公共安全事件相關輿情。微博作為民意發布的集中地,具有較好的研究代表性,文本面向公共安全突發事件的微博評論情感傾向性分析,目前在公共安全事件發生時,微博輿情爆發并在演化中陷入負反饋惡性循環的問題仍然嚴峻。因此,從公共安全事件微博中獲取每類事件以及子事件屬性的評價情感傾向,根據輿情情況針對性的處理等工作,可進一步保證微博輿情環境的穩定,維護民眾和諧生活與國家的安定,具有重要的學術理論意義與社會實踐意義。
在學術理論層面上,諸多學者已經在微博情感分析研究中取得了豐碩的成果,他們對與微博情感相關的內容特點進行了全面的闡釋,但對與之相關的領域輿情特點、用戶畫像特點的研究十分有限。本文認為這兩類特點對于更具針對性、準確性的識別情感較為重要,因此系統了梳理和分析了影響模型情感判斷的三大特征,首先結合公共安全領域輿情特征,構建了微博評論情感分析模型,彌補了領域研究空白,其次對發表評論用戶的畫像特征對情感分析的影響度進行了初步的研究探索,并獲取了對情感判別重要度排序,豐富了評論用戶畫像特征的選擇使用研究,最后從領域特征、微博評論內容特征和評論用戶畫像特征三方面、深層和淺層兩個層次構建了公共安全微博情感特征體系,為后續研究提供特征構建與微博情感分析的方法思路。
2 相關理論及技術
2.1 公共安全領域界定
公共安全,是指社會和公民個人從事和進行正常的生活、工作、學習、娛樂和交往所需要的穩定的外部環境和秩序。所謂公共安全管理,則是指國家行政機關為了維護社會的公共安全各秩序,保障公民的合法權益,以及社會各項活動的正常進行而做出的各種行政活動的總和。公共安全事件包括:自然災害、事故災難、公共衛生事件、社會安全事件等。[31]本研究以影響力重大的新冠肺炎公共衛生事件為例進行實驗,其結果具有重要的代表性以及可遷移性,在公共安全領域情感分析理論研究與實際應用中具有方法及思路借鑒意義。

2.2 情感分析內涵
情感分析,又稱為情感分類、意見挖掘或者傾向性分析。簡單而言,是對帶有情感傾向的主觀性文本進行分析、挖掘、歸納和推理。在本文中是指通過對微博文本的分析處理獲得發布者對某個對象的情感傾向、觀點及意見,這個對象可以是產品、事件或者概念等[32]。
情感分析的研究歷史不是太長,該研究領域的發展和快速起步得益于網絡社交媒體應用的風靡,例如線上商品評論、電影服務評論,貼吧論壇討論,微博微信的快速發展,因為這是人類歷史上首次通過該方式記錄存儲如此海量信息,對各行各業的發展具有重大價值。自二十世紀初以來,情感分析逐漸成長為自然語言處理(Nature Language Process,簡稱NLP)中最活躍的研究領域之一,也是在數據挖掘、文本處理和信息檢索方面有廣泛的研究。
3 公共安全微博評論情感分析模型 ..................................... 20
3.1 公共安全微博評論情感分析模型架構 ............................ 20
3.2 數據采集與預處理 ................................... 21
4 實驗評估及結果分析 ............................................ 30
4.1 實驗數據集說明 ..................................... 30
4.1.1 微博評論及特征數據集獲取 ..................................... 30
4.1.2 數據特征預處理 ......................................... 31
5 總結與展望 ........................................ 44
5.1 本文研究總結 ................................. 44
5.2 研究不足及展望 .......................... 45
4 實驗評估及結果分析
4.1 實驗數據集說明
4.1.1 微博評論及特征數據集獲取
實驗數據集的獲取主要包括三個步驟: 步驟一:關鍵詞獲取熱門微博。本文以“新冠肺炎”、“新型冠狀病毒”、“武漢不明肺炎”等為關鍵詞爬取2019年12月8日至2020年3月1日的熱門微博共計9359條,去重處理后剩余8453條。
統計8453條微博博主認證類型占比如表4-1所示,微博博主為企業、政府等官方認證藍V用戶占比72.2%,微博博主為各領域知名人士的黃V用戶占比23.83%,無認證用戶僅占3.99%,而微博評論博主中89.51%的用戶均為無認證。基于藍V用戶在微博社區中更多的是作為官方媒體號發布傳播客觀信息,無認證用戶則更多的表達自身對事件的觀點及傾向,為了更廣泛的挖掘廣大民眾的想法與情感傾向,本文僅將熱門微博作為事件主題特征提取語料,為后續分析評論的情感傾向服務。

5 總結與展望
5.1 本文研究總結
本文通過微博內容特點、輿情領域特點、發布用戶畫像特點等來進行微博評論情感分析。首先本文通過爬蟲軟件爬取公共安全事件熱門微博、微博評論以及發布用戶信息,然后結合前人的研究成果以及對公共安全領域輿情特點的統計分析提取了20個特征,用于對非負面微博評論與負面微博評論的分類,最后本文選擇XGBoost機器學習算法構建面向公共安全突發事件的情感分析模型,以隨機森林、支持向量機算法為対照組,實驗結果表明通過本文選擇的特征組合和以XGBoost構建的分類模型在公共安全微博評論情感分析的準確度和運行速度上具有更佳的表現。
(1)公共安全微博輿情領域化特征的有效性
基于公共安全領域中推進微博輿情智能管控的迫切需求與微博評論情感分析學術研究存在缺口的矛盾背景,本文針對領域特點進行情感分析模型構建,并發現相比于娛樂事件、時事新聞等領域,公共安全領域突發事件不僅具有影響更深遠、延續性更強的特點,還會在爆發、反復、緩和到消失的演變過程中衍生各類子事件,子事件之間情感類別占比差別懸殊,同時子事件中各個屬性維度的評論情感也具有顯著差異。本文通過LDA抽取各子事件主題,并針對每個主題下進行屬性維度聚類,并以天和小時為單位抽取周期特征和時段特征構建公共安全領域特征,最后實驗證明公共安全突發事件微博評論的情感與其所屬微博主題、主題屬性、周期以及時段都存在顯著關聯關系,在進一步研究中可作為領域優選特征考慮。相比于使用通用特征的情感分析方法,即僅使用微博內容特征的方法,文本提出的特征體系在公共安全領域情感分析中具有優勢。
參考文獻(略)
相關文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.