網路輿情中的大資料分析方法研究

2022-11-18 11:54:05 字數 829 閱讀 1140

作者:常衛東劉完芳

**:《求知導刊》2023年第28期

摘要:網路輿情是指在網路空間中對網民和生活中的社會事件尤其是一些突發事件的看法和態度。網路輿情通常涉及社會的熱點事件,因而經常在網路中快速傳播,成為人們談論的焦點。

因而,對網路輿情進行分析和正確的引導顯得尤為重要。文章採用大資料分析方法分析網路資料,通過聚類的方法發掘網路輿情中的熱點問題。實驗證明該分析方法具有較高的熱點挖掘能力和及時的能力。

關鍵詞:網路輿情;大資料分析;統計方法

一、輿情資訊的獲取

輿情分析的第一步是要對網頁中的資訊進行抓取,第二步是對抓取的網頁的資訊進行預處理。

對網頁資訊抓取主要採用網路爬蟲,爬蟲的主要作用是將網際網路上的網頁**到本地形成乙個網際網路內容的映象備份。它既可以爬取網頁鏈結,又可以爬取網頁的文字資訊和影象資訊。它通過關鍵字的搜尋將對應的統一資源定位為相關的網頁頁面進行抓取,通過對其進行文字和影象的解析,提取對應網頁的文字和影象資訊並進行儲存。

本文中主要提取的是網頁的文字資訊。

而中文分詞是把中文中的漢字系列分割為乙個個獨立的中文詞彙。由於中文詞彙與詞彙之間的界限遠不如英文單詞那樣清晰,因此,中文分詞也是乙個技術難點。當前中文分詞主要是從主要包括字串匹配分詞方法和機器學習的統計分詞方法。

字串匹配分詞方法是事先通過一定的方法建立乙個龐大的資料庫字典,按照一定的方法把待分詞的詞彙與資料庫字典中的詞進行匹配從而實現分詞的方法。機器學習的統計分詞方法是通過詞彙出現的頻率和在文中的含義等資訊對漢字的這些特徵進行訓練,從而實現分詞。字串匹配分詞方法比較準確,但缺乏靈活性,機器學習的統計分詞方法能對詞的語意進行識別,但由於演算法的不完善,準確率不高,因此,在實際中通常是將這兩種結合來實現分詞。

列印53大資料的分析方法一

大資料時代的資料探勘大資料時代的資料探勘 窗體頂端 輸入分數1 加分理由 需要選擇 獨家報道,很及時 知識性強,寫得好 觀點鮮明,受啟發 趣味性強,我喜歡 窗體底端 窗體頂端 輸入分數1 減分理由 需要選擇 似曾相識,是抄襲 自賣自誇,我討厭 無理攻擊,不支援 說不清楚,不愛讀 窗體底端 大資料是2...

資料分析能力在高考評價中的體現

作者 李春長劉錫光 中學數學雜誌 高中版 2015年第05期 1引言隨著大資料時代的到來,資料分析能力在高中數學教育中顯得愈發重要.義務教育數學課程標準 2011 在課程設計思路中指出 資料分析觀念包括 了解在現實生活中有許多問題應當先做調查研究,收集資料,通過分析做出判斷,體會資料中蘊涵著資訊 了...

雲計算在資料分析與商業智慧型分析中的應用研究

圖1 虛擬化 2 自動化部署 雲計算的乙個核心思想是通過自動化的方式盡可能地簡化任務,使得使用者可以通過自助服務方式快捷地獲取所需的資源和能力。部署是基礎設施管理中十分重要,也是需要花費很大工作量的一部分,包括作業系統 中介軟體和應用等不同層次的部署。自動化部署提供簡化流程,使用者提出申請後由自動化...