列印53大資料的分析方法一

2021-03-03 22:31:24 字數 5065 閱讀 9177

大資料時代的資料探勘大資料時代的資料探勘

窗體頂端

輸入分數1-

加分理由(需要選擇):

獨家報道,很及時

知識性強,寫得好

觀點鮮明,受啟發

趣味性強,我喜歡

窗體底端

窗體頂端

輸入分數1-

減分理由(需要選擇):

似曾相識,是抄襲

自賣自誇,我討厭

無理攻擊,不支援

說不清楚,不愛讀

窗體底端

大資料是2012的時髦詞彙,正受到越來越多人的關注和談論。大資料之所以受到人們的關注和談論,是因為隱藏在大資料後面超千億美元的市場機會。

大資料時代,資料探勘是最關鍵的工作。以下內容供個人學習用,感興趣的朋友可以看一下。

智庫百科是這樣描述資料探勘的「資料探勘又稱資料庫中的知識發現,是目前人工智慧和資料庫領域研究的熱點問題,所謂資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、視覺化技術等,高度自動化地分析企業的資料,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。

資料探勘的定義

技術上的定義及含義

資料探勘(data mining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用資料中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。這個定義包括好幾層含義:資料來源必須是真實的、大量的、含雜訊的;發現的是使用者感興趣的知識;發現的知識要可接受、可理解、可運用;並不要求發現放之四海皆準的知識,僅支援特定的發現問題。

與資料探勘相近的同義詞有資料融合、人工智慧、商務智慧型、模式識別、機器學習、知識發現、資料分析和決策支援等。

----何為知識從廣義上理解,資料、資訊也是知識的表現形式,但是人們更把概念、規則、模式、規律和約束等看作知識。人們把資料看作是形成知識的源泉,好像從礦石中採礦或淘金一樣。原始資料可以是結構化的,如關聯式資料庫中的資料;也可以是半結構化的,如文字、圖形和影象資料;甚至是分布在網路上的異構型資料。

發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用於資訊管理,查詢優化,決策支援和過程控制等,還可以用於資料自身的維護。因此,資料探勘是一門交叉學科,它把人們對資料的應用從低層次的簡單查詢,提公升到從資料中挖掘知識,提供決策支援。

在這種需求牽引下,匯聚了不同領域的研究者,尤其是資料庫技術、人工智慧技術、數理統計、視覺化技術、平行計算等方面的學者和工程技術人員,投身到資料探勘這一新興的研究領域,形成新的技術熱點。

這裡所說的知識發現,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什麼機器定理證明。實際上,所有發現的知識都是相對的,是有特定前提和約束條件,面向特定領域的,同時還要能夠易於被使用者理解。最好能用自然語言表達所發現的結果。

商業角度的定義

資料探勘是一種新的商業資訊處理技術,其主要特點是對商業資料庫中的大量業務資料進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性資料。

簡而言之,資料探勘其實是一類深層次的資料分析方法。資料分析本身已經有很多年的歷史,只不過在過去資料收集和分析的目的是用於科學研究,另外,由於當時計算能力的限制,對大資料量進行分析的複雜資料分析方法受到很大限制。現在,由於各行業業務自動化的實現,商業領域產生了大量的業務資料,這些資料不再是為了分析的目的而收集的,而是由於純機會的(opportunistic)商業運作而產生。

分析這些資料也不再是單純為了研究的需要,更主要是為商業決策提供真正有價值的資訊,進而

獲得利潤。但所有企業面臨的乙個共同問題是:企業資料量非常大,而其中真正有價值的資訊卻很少,因此從大量的資料中經過深層分析,獲得有利於商業運作、提高競爭力的資訊,就像從礦石中淘金一樣,資料探勘也因此而得名。

因此,資料探勘可以描述為:按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,並進一步將其模型化的先進有效的方法。

資料探勘常用的方法

利用資料探勘進行資料分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特徵、變化和偏差分析、web頁挖掘等, 它們分別從不同的角度對資料進行挖掘。

①分類。分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢**等,如乙個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業機會。

②回歸分析。回歸分析方法反映的是事務資料庫中屬性值在時間上的特徵,產生乙個將資料項對映到乙個實值**變數的函式,發現變數或屬性間的依賴關係,其主要研究問題包括資料序列的趨勢特徵、資料序列的**以及資料間的相關關係等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命週期分析、銷售趨勢**及有針對性的**活動等。

③聚類。聚類分析是把一組資料按照相似性和差異性分為幾個類別,其目的是使得屬於同一類別的資料間的相似性盡可能大,不同類別中的資料間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢**、市場的細分等。

④關聯規則。關聯規則是描述資料庫中資料項之間所存在的關係的規則,即根據乙個事務中某些項的出現可匯出另一些項在同一事務中也出現,即隱藏在資料間的關聯或相互關係。在客戶關係管理中,通過對企業的客戶資料庫裡的大量資料進行挖掘,可以從大量的記錄中發現有趣的關聯關係,找出影響市場營銷效果的關鍵因素,為產品定位、定價與定製客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙**等決策支援提供參考依據。

⑤特徵。特徵分析是從資料庫中的一組資料中提取出關於這些資料的特徵式,這些特徵式表達了該資料集的總體特徵。如營銷人員通過對客戶流失因素的特徵提取,可以得到導致客戶流失的一系列原因和主要特徵,利用這些特徵可以有效地預防客戶的流失。

⑥變化和偏差分析。偏差包括很大一類潛在有趣的知識,如分類中的反常例項,模式的例外,觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。

意外規則的挖掘可以應用到各種異常資訊的發現、分析、識別、評價和預警等方面。

⑦web頁挖掘。隨著inter***的迅速發展及web 的全球普及, 使得web上的資訊量無比豐富,通過對web的挖掘,可以利用web 的海量資料進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求資訊、客戶等有關的資訊,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境資訊和內部經營資訊,並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些資訊進行分析和處理,以便識別、分析、評價和管理危機。

資料探勘的功能

資料探勘通過**未來趨勢及行為,做出前攝的、基於知識的決策。資料探勘的目標是從資料庫中發現隱含的、有意義的知識,主要有以下五類功能。

1、自動**趨勢和行為

資料探勘自動在大型資料庫中尋找**性資訊,以往需要進行大量手工分析的問題如今可以迅速直接由資料本身得出結論。乙個典型的例子是市場**問題,資料探勘使用過去有關**的資料來尋找未來投資中回報最大的使用者,其它可**的問題包括預報破產以及認定對指定事件最可能作出反應的群體。

2、關聯分析

資料關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。

關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中資料的關聯函式,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。

3、聚類

資料庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。

80年代初,mchalski提出了概念聚類技術牞其要點是,在劃分物件時不僅考慮物件之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。

4、概念描述

概念描述就是對某類物件的內涵進行描述,並概括這類物件的有關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類物件的共同特徵,後者描述不同類物件之間的區別。生成乙個類的特徵性描述只涉及該類物件中所有物件的共性。

生成區別性描述的方法很多,如決策樹方法、遺傳演算法等。

5、偏差檢測

資料庫中的資料常有一些異常記錄,從資料庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常例項、不滿足規則的特例、觀測結果與模型**值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。

資料探勘與傳統分析方法的區別

資料探勘與傳統的資料分析(如查詢、報表、聯機應用分析)的本質區別是資料探勘是在沒有明確假設的前提下去挖掘資訊、發現知識.資料探勘所得到的資訊應具有先未知,有效和可實用三個特徵.

先前未知的資訊是指該資訊是預先未曾預料到的,既資料探勘是要發現那些不能靠直覺發現的資訊或知識,甚至是違背直覺的資訊或知識,挖掘出的資訊越是出乎意料,就可能越有價值.在商業應用中最典型的例子就是一家連鎖店通過資料探勘發現了小孩尿布和啤酒之間有著驚人的聯絡。

資料探勘應用

1、資料探勘解決的典型商業問題

需要強調的是,資料探勘技術從一開始就是面向應用的。目前,在很多領域,資料探勘(data mining)都是乙個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。資料探勘所能解決的典型商業問題包括:

資料庫營銷(database marketing)、客戶群體劃分(customer segmentation & classification)、背景分析(profile analysis)、交叉銷售(cross-selling)等市場分析行為,以及客戶流失性分析(churn analysis)、客戶信用記分(credit scoring)、欺詐發現(fraud detection)等等。

2、資料探勘在市場營銷的應用

資料探勘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是「消費者過去的行為是其今後消費傾向的最好說明」。

通過收集、加工和處理涉及消費者消費行為的大量資訊,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然後以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者物件特徵的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。

2023年大資料行業分析報告

2015年1月 目錄一 中國寬頻網際網路商業的發展 3二 移動網際網路商業的異軍突起 3 三 大資料是運營商的必然選擇 4 1 電信運營商傳統業務被蠶食 6 2 國外運營商大資料應用已有先例 73 三大運營商已經行動,賣資料 已成為集團第一戰略 84 與bat相比,運營商具有獨特優勢 105 運營商...

2023年大資料行業分析報告

2014年10月 目錄一 大資料定義與特徵 3 1 資料體量巨大 volume 32 資料型別繁多 variety 33 價值密度低 value 4 4 處理速度快 velocity 4二 大資料分析在商業中的應用 4 三 傳統資料分析與大資料分析的區別 5四 產業結構 6 五 市場規模 8 六 行...

網路輿情中的大資料分析方法研究

作者 常衛東劉完芳 求知導刊 2017年第28期 摘要 網路輿情是指在網路空間中對網民和生活中的社會事件尤其是一些突發事件的看法和態度。網路輿情通常涉及社會的熱點事件,因而經常在網路中快速傳播,成為人們談論的焦點。因而,對網路輿情進行分析和正確的引導顯得尤為重要。文章採用大資料分析方法分析網路資料,...