多層次中文微博情緒分析

2022-11-11 16:03:04 字數 7012 閱讀 6846

第25卷第11期

計算機技術與發展

2015年11月

多層次中文微博情緒分析

劉寶芹,牛

耘(南京航空航天大學電腦科學與技術學院,江蘇南京210016)

摘要:文中旨在對中文微博文本中表達的情緒進行自動分析。目前,微博情緒分析的方法主要是平面型分類方法。該

方法認為各個情緒類之間相互獨立,相互並列,它們處在同乙個平面層次上,只需要一次性構建乙個分類器就可以完成情

緒分類任務。事實上,ekman六類情緒之間的關係並不完全獨立。文中將ekman六類情緒按照情感極性及情緒間的相互

關係組織成三層樹狀結構,在此基礎上提出了一種基於樸素貝葉斯模型的多層次中文微博情緒分析方法。實驗結果表明,與傳統的平面型樸素貝葉斯分類方法相比,文中提出的多層次微博情緒分析方法降低了各情緒類微博分布不平衡對分類結果造成的影響,提高了微博情緒識別的精度。

關鍵詞:微博情緒;樸素貝葉斯;平面型分類方法;層次型分類方法中圖分類號:tp391

文獻標識碼:a

文章編號

一o 引言

隨著網際網路的蓬勃發展,使用者通過微博、部落格、論壇等社交**主動發布的文字越來越多。微博以內容簡短、即時分享、快速傳播的特色成為使用者分享、傳播、

獲取資訊以及抒發個人情緒的重要社交網路平台。分析微博中所包含的情緒,可以幫助使用者及時了解自身情緒的波動情況,幫助企業理解使用者的消費習慣,制定營銷策略,還可以幫助**分析熱點事件的輿情,從而為**制定決策提供重要依據。

文中的研究目的是自動分析判別微博文本中表達

與心理狀態。ekman…通過研究人的面部表情,將情

緒劃分為六種基本狀態:喜(joy)、哀(sad)、怒(all-

ger)、懼(fear)、驚惡文中將以這六類情緒作為情緒類別對微博文本中表達的情緒進行自動分析。

目前,微博情緒分析的方法主要以平面型分類

方法為主一。該方法認為各個情

緒類之間相互獨立,相互並列,它們處在同乙個平面層次上,只需要一次性構建乙個分類器就可以完成情緒分類任務。事實上,ekman的六類情緒之間的關係並不完全獨立。如joy類可以被劃分為positive類,其他

網路出版時間

的情緒。情緒是人基於個體本能的需要而產生的身體

收稿日期

修回日期

**專案:國家自然科學**資助專案

作者簡介:劉寶芹(1989一),女,碩士研究生,研究方向為自然語言處理;牛

耘,博士,副教授,研究方向為自然語言處理。

網路出版位址

24計算機技術與發展第25卷

五類可以被劃分為negative類;而anger類和disgust類非常接近,不易區分。文中根據六類情緒的情感極性及情緒間的相互關係將六類情緒組織成三個層次,然後利用基於樸素貝葉斯模型的多層次分類(hierar—

方法對中文微博進**緒分析。

先對tweets進行主、客觀分類,然後對被分為主觀的tweets進行正、負向分類,準確率達到66%。jiang

等建立了與文獻[8]類似的情感層次結構,通過提取微博結構特徵、句子結構特徵、情感詞典特徵、表情符特徵,採用二步二分類法對中文微博情感進行分類。該方法第一步對微博進行有情感、無情感分類,第二步

實驗結果表明,文中提出的多層次微博情緒分析方法

降低了各情緒類微博分布不平衡對分類結果造成的影響,提高了微博情緒識別的精度。

1相關工作

1.1微博情緒分析

目前,微博情緒分析主要有監督機器學習的方

法和基於規則的方法,而這些方法主要是平面

型方法。

以twitter為代表的英文微博的情緒分析已取得了一定的研究成果。purver等利用遠端監督的方法進行ekman情緒分類。他們利用人工選取的標籤(hashtag)和表情符來自動標註微博情緒,省去了人工標註語料的過程。

實驗結果表明三類情緒不易區分和thelwall利用基於情緒詞典liwc的無監督方法對三個社交**的微博進行主、客觀分類和正負向情感分類。實驗結果表明,多

數情況下該方法對不同領域的適應性較強,效能優於有監督機器學習的方法。

中文微博情緒分析的研究起步較晚。劉志明和劉魯採用三種機器學習演算法、三種特徵選擇方法、三種特徵項權重計算方法對微博進行正負向情感分類。實

驗結果表明,使用svm,資訊增益和tf—idf三者結合的方法對微博情感的分類效果最好。張晶等先根據常用情緒詞和情緒短語構建情緒詞典,再結合情緒表達方式、標點符號、表情符號建立情緒規則來識別微博

情緒。該方法雖然具有可行性,但是建立情緒規則比較困難。

1.2微博情緒分析中的層次型分類方法

在很多分類問題中,類別之間並不是相互獨立的,而是具有一定的層次關係,層次型分類方法即針對這

類問題。層次型分類方法將類別組織成某種型別的層

次結構(一般組織成樹狀結構),然後利用類別層次結構提供的資訊幫助提高分類效能。

目前,微博情緒分析主要以平面型分類方法為主。

層次型分類方法主要用於文字分類任務中,而在情感分類任務中主要用於對微博情感進行正負情感極性的判別

。jiang等將tweets情感劃分為兩個層次,

通過考慮主題相關特徵以及tweets間的**關係,採用二步分類法對tweets的情感進行分類。該方法首

對有情感的微博進行正、負向情感分類,準確率達到

60.1%。

keshtkar和inkpen 利用層次型分類方法將部落格

的心情分為132類,然而情緒與心情不同,情緒的持續時間比心情的持續時間短,兩者的層次結構和分類任務也不同。因此,文中的研究工作與keshtkar和ink—pen的研究工作有所不同。文中根據六類情緒間的情

感極性及情緒問的相互關係為六類情緒建立樹狀層次

結構,並且利用該結構對微博情緒進行自動分析。

2多層次微博情緒分析方法

2.1微博情緒的層次結構

文中根據情緒的正負極性及情緒間的關係,將六類情緒分為三個層次,微博情緒的層次結構如圖1

所示。其中,第乙個層次是對情感正負極性的劃分,文中

將joy類的情感極性劃分為正向其他五類

情緒的情感極性劃分為負向第二個層次是對負向情感的劃分,其中anger類和disug

st類合併為類。ekman在文獻[12]中指出anger

類和disgust類的面部表情最易混淆;aim 在對兒童故事情緒進行分類時也將anger類和disugst類進行了合併。第三個層次是對類的劃分。

第一層第二層

第三層圖1微博情緒的層次結構

2.2分析方法

文中提出了基於樸素貝葉斯模型的多層次微博情緒分析方法。使用的分類演算法是樸素貝葉斯(nb)演算法。該演算法是一種基於概率統計的演算法,它實現簡單,

分類準確率高,速度快。

層次型分類方法一般將類別組織成樹狀結構,每個類別相當於樹中的乙個節點。根據分類過程中分類

第11期劉寶芹等:多層次中文微博情緒分析25

器的數目,可以將層次型分類方法分為如下兩種型別:

區域性分類器方法和全域性分類器方法下面以樹狀層次

分類任務結束;若分類器將情緒判斷為negative類,則

需進一步將情緒判斷為層次結構第二層的某類或第三

層的某類。若該分類器將情緒判斷為第二層anger—

disusgt類,則進一步將情緒判斷為anger類或disgust類。

結構為例,簡單介紹一下這兩種型別以及根據圖1中

的層次結構如何利用它們進行微博情緒分析。

(1)區域性分類器方法:又稱為自頂向下方法該方法需要建立多個分類器。silla和freitas¨ 根據建立分類器方式的不同將該方法細

分為三類:每個節點乙個分類器實驗

3.1實驗資料

文中利用新浪提供的api抓取不同話題的微博文每個父節點乙個分類器

每層乙個分類器

lcn方法為除根節點以外的每個節點建立乙個二元分類器。該方法的缺點是對微博進**緒分類

時,會導致父類一子類間的**結果不一致。如:為

negative類建立的二元分類器將情緒判斷為非negative

類。為fear類建立的二元分類器將情緒判斷為fear類。在圖1中,fear類屬於negative類,即如果該條微

博的情緒是fear類,那麼該條微博的情緒也一定是

negative類,但為negative建立的二元分類器卻將情緒

判斷為非negative類,這就出現了父類一子類間預i貝4結果不一致的情況。

lcpn方法為每個父節點建立乙個多類分類器,將情緒判斷為其子類中的某一類。

lcl方法為在每層建立乙個多類分類器,將情緒

判斷為該層中的某類。該方法不同層次的分類結果也可能導致父類一子類間的**結果不一致。

(2)全域性分類器方法:又稱為**式方法。該方法從層次結構的全域性出發,考慮層次結構中

的所有類別,為它們建立乙個分類器,該分類器包含了整個類別層次結構的資訊。

考慮到lcn方法和lcl方法的缺點,文中選取

lcpn方法和全域性分類器方法來分析微博情緒。lcpn

方法為圖1中的每個父節點建立乙個分類器,共建立

三個分類器。首先利用根節點分類器將情緒分為圖1

第一層中的某類。若該分類器將情緒判斷為joy類,則分類結束。若判斷為negative類,則利用為negative節點建立的分類器將情緒判斷為圖1第二層中的某一類。

若該分類器將情緒判斷為中的

某類,則分類結束。若判斷為類,則利用

為節點建立的分類器將情緒判斷為an.

ger類或disugst類。

全域性分類器方法為圖1中包括父節點在內的八個情緒類只建立乙個分類器,而文中的分類任務是將微

博情緒判斷為六個葉節點中的某類。所以在測試階

段,若分類器將情緒判斷為層次結構中的葉節點類,則

本。選取若干話題的微博,由兩名標註人員各自獨立

對文字進**緒標註。每條微博標註為喜、哀、怒、懼、惡、驚和其他共七類中的一類。將兩名標註員標註結果一致的微博文本提取出來作為實驗資料集以保證資料的可靠性。

六類情緒的微博分布情況如表1所示。

表1六類情緒的微博分布情況

情緒類別合計數量

145121

1335

3.2實驗設定

文中評測方法採用五折交叉驗證

l盼璐評測指標選用精確率

56l88

3(tp+fp))、召回率和,一"8

3.3實驗結果分析

8趴卯8將第2節提出的多層次情緒分析方法和平面型分類方法進行比較,結果如表2所示。

表2三種方法的分類結果比較

55.9

surprise

幹但注..lcpn代表每個父節點乙個分類器方法,gc代表全域性分類器方法,nb代表平面型分類方法,即文中使用的樸素貝葉斯方法。

由表2可以看出,文中提出的兩種方法在negative

類上的分類效果都優於平面型方法。其中,lcpn方

法的召回率和f—score比平面型nb方法分別高

方法直接利用根節點分類器將

微博情緒判斷為negative類或joy類,根節點分類器實現的是二類分類任務。而平面型nb方法將微博情緒

一次性分為六類,然後根據除joy類外的其它五類負

向情緒的分類結果計算negative類的分類效果。觀察132

545684&o

44∞5

46626計算機技術與發展

第25卷

平面型方法在六類情緒上的分類結果發現,該方法受資料集中各類別資料分布不平衡的影響較大,所以joy

類和其它五類負向情緒的分類效果差異很大。因此平面型方法根據五類負向情緒的分類結果計算negative類的分類效果時,negative類的分類效果不如文中

方法。lcpn方法在ekman的六類情緒上召回率的平均值和f—score的平均值都高於平面型方法。nb方法在

j0y類的召回率高於lcpn方法和gc方法,但在sur-prise類的召回率低於lcpn方法和gc方法。這是因為在實驗資料中,joy類微博佔的比例最大,而surprise

類微博佔的比例最小。當採用平面型分類方法時,分類器將很多微博情緒判斷為j0y類,而將微博數量僅佔語料庫9%的surprise類微博情緒判斷為了其他五類情緒中的一類。當採用文中提出的兩種方法時,弱

化了joy類微博在數量上的優勢,從而在joy類上取得了更高的精確率和f—score,在surprise類上取得了更

高的召回率和廠--score。相比平面型方法,gc方法在

anger類的召回率提高了2.9%。lcpn方法和gc方

法在disgust類的召回率都提高了1.4%。

lcpn方法明顯優於gc方法,lcpn方法的召回

率和f—score都普遍高於gc方法。但在anger類的召

回率卻比gc方法低8.8%。這是因為gc方法為層次結構中的所有類別建立乙個分類器,這類似於平面型分類方法,只是gc方法考慮到層次結構,將父節點

算作一種類別,建立的分類器含有整個類別的層次結

構資訊。gc方法也會受資料集中各類別資料分布不

平衡的影響,在實驗資料中anger類的微博數量佔類微博數量的65%,這導致了在gc方法將許多disug

st類判斷為了anger類,所以gc方法在anger類的召回率高於lcpn方法。

4結束語

文中提出了基於樸素貝葉斯模型的多層次微博情

緒分析方法。將文中提出的方法與傳統的平面型樸素貝葉斯方法對比發現,文中方法降低了各情緒類微博

分布不平衡對分類結果造成的影響,提高了微博情感

識別的精度。但文中提出的方法並沒有考慮類別層次

結構中各類別之間的聯絡,如類別間的相似性。下一

步將考慮如何充分利用層次結構中各類別之間的關係

來幫助識別微博情緒。

參考文獻:

[3]劉志明,劉魯.基於機器學習的中文微博情感分類實證

研究[j].計算機工程與應用

[4]歐陽純萍,陽小華,雷龍豔,等.多策略中文微博細粒度情

緒分析研究[j].北京大學學報:自然科學版

67—72.

[6]張晶,朱波,梁琳琳,等.基於情緒因子的中文微博情

緒識別與分類[j].北京大學學報:自然科學版,2014,50

[7]牛耘,潘明慧,魏歐,等.基於詞典的中文微博情緒識

別[j].電腦科學

[1o]謝麗星,周明,孫茂松.基於層次結構的多策略中文微博

情感分析和特徵抽取[j].中文資訊學報

-83.

[12]保羅艾克曼.情緒的解析[m].海口:南海出版公司,

2oo8.

2oo8.

多層次實踐群眾路線

市菸草局精心構建群眾路線教育實踐活動多層次學習體系 深化群眾路線教育實踐活動,夯實學習教育聽取意見環節工作基礎,近日,市煙草專賣局強化政治理論學習,細化學習教育方案,組織黨員幹部向群眾學習,向實踐學習,向書本學習,精心構建教育實踐活動多層次學習體系,使黨員幹部理想信念更加堅定,學習意識更加超前,實踐...

多層次綜合運用績效考評結果

多數企業對績效考評既愛又恨。愛它是因為績效考評是乙個時尚的管理工具,領先企業都在用,甚至於有企業還企圖 一考百了 用考評代替一切管理手段 恨它是因為開始時轟轟隆隆,執行時流於形式,考評期末時要麼不了了之,要麼把考評結果只是用於罰款,扣罰工資,大幅降低承諾獎金,省下一分是一分。其結局都是虎頭蛇尾,勞民...

多層次綜合運用績效考評結果

愛它是因為績效考評是乙個時尚的管理工具,領先企業都在用,甚至於有企業還企圖 一考百了 用考評代替一切管理手段 恨它是因為開始時轟轟隆隆,執行時流於形式,考評期末時要麼不了了之,要麼把考評結果只是用於罰款,扣罰工資,大幅降低承諾獎金,省下一分是一分。其結局都是虎頭蛇尾,勞民傷財,怨聲載道,讓企業上上下...