雲計算在資料分析與商業智慧型分析中的應用研究

2022-11-27 06:51:02 字數 4936 閱讀 9993

圖1 虛擬化

2) 自動化部署

雲計算的乙個核心思想是通過自動化的方式盡可能地簡化任務,使得使用者可以通過自助服務方式快捷地獲取所需的資源和能力。部署是基礎設施管理中十分重要,也是需要花費很大工作量的一部分,包括作業系統、中介軟體和應用等不同層次的部署。自動化部署提供簡化流程,使用者提出申請後由自動化部署平台根據排程和預約自動完成相應的部署,因此使用者只需花十幾分鐘,甚至幾分鐘就可以得到乙個完整的環境,極大地提高了工作效率。

3) 應用規模擴充套件

雲計算提供了乙個巨大的資源池,而應用的使用又有不同的負載週期,根據負載對應用的資源進行動態伸縮將可以顯著提高資源的有效利用率,即高負載時動態擴充套件資源,低負載時釋放多餘的資源,這就是應用規模擴充套件技術所解決的問題。該技術以應用為基本單位,為不同的應用架構設定不同的集群型別,每一種集群型別都有特定的擴充套件方式,然後通過監控負載的動態變化,自動為應用集群增加或者減少資源。

4) 分布式檔案系統

分布式儲存的目標是利用雲環境中多台伺服器的儲存資源來滿足單台伺服器所不能滿足的儲存需求。其特徵是,儲存資源能夠被抽象表示和統一管理,並且能夠保證資料讀寫與操作的安全性、可靠性、效能等各方面要求。

雲計算催生了一些優秀的分布式檔案系統和雲儲存服務。最典型的雲平台分布式檔案系統是google的gfs(google file system)和開源的hadoop。這兩種可伸縮的分布式檔案系統利用容錯和故障恢復機制,有效的克服單節點故障導致的系統故障;實現了大規模海量級的檔案儲存。

以hadoop檔案系統為例,hadoop檔案系統(hdfs)是乙個執行在普通的硬體之上的分布式檔案系統,它和現有的分布式檔案系統有著很多的相似性,然而和其他的分布式檔案系統的區別也是很明顯的:hdfs是高容錯性的,可以部署在低成本的硬體之上,hdfs提供高吞吐量地對應用程式資料訪問,它適合大資料集的應用程式,hdfs放開一些posix的需求去實現流式地訪問檔案資料。乙個hdfs集群由乙個管理檔案系統元資料的name node,和儲存實際資料的一些data node組成。

5) 分布式資料庫與非結構化資料儲存

在分布式檔案系統之上,是儲存海量結構化資料的分布式儲存系統。典型包括,google的bigtable,開源的hbase等。這些系統可將非結構化資料,例如網頁等,儲存為分布式的、多維的、有序的圖。

以hbase為例。hbase是乙個分布式的、面向列的開源資料庫。hbase是apache的hadoop 專案的子專案,hbase在hadoop之上提供了類似於bigtable的能力。

hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫.另乙個不同的是,hbase基於列的而不是基於行的模式。 hbase使用和bigtable非常相同的資料模型。

使用者儲存資料行在乙個表裡。乙個資料行擁有乙個可選擇的鍵和任意數量的列。表是疏鬆的儲存的,因此使用者可以給行定義各種不同的列。

hbase主要用於需要隨機訪問,實時讀寫大資料。在系統架構上,hbase 分成 master 與 region server 兩部份。master負責告知 client對乙個表訪問時,應該轉向哪台 region server;而 region server 就是實際上提供資料的節點。

6) 分布式計算

基於雲平台的最典型的分布式計算模式是mapreduce程式設計模型。mapreduce將大型任務分成很多細粒度的子任務,這些子任務分布式的在多個計算節點上進行排程和計算,從而在雲平台上獲得對海量資料的處理能力。概念"map(對映)"和"reduce(化簡)",和他們的主要思想,都是從函式式程式語言裡借來的,還有從向量程式語言裡借來的特性。

當前的軟體實現是指定乙個map(對映)函式,用來把一組鍵值對對映成一組新的鍵值對,指定併發的reduce(化簡)函式,用來保證所有對映的鍵值對中的每乙個共享相同的鍵組。簡單說來,乙個對映函式就是對一些獨立元素組成的概念上的列表的每乙個元素進行指定的操作。事實上,每個元素都是被獨立操作的,而原始列表沒有被更改,因為這裡建立了乙個新的列表來儲存新的答案。

這就是說,map操作是可以高度並行的,這對高效能要求的應用以及平行計算領域的需求非常有用。而reduce操作指的是對乙個列表的元素進行適當的合併。雖然他不如對映函式那麼並行,但是因為化簡總是有乙個簡單的答案,大規模的運算相對獨立,所以化簡函式在高度並行環境下也很有用。

對於edc和業務支撐系統而言,大量的業務涉及到資料分析和商業智慧型。例如,以上海電信為例,相關系統,按大類劃分,為bss、mss、oss、edi等;按照具體應用系統,則為計費、crm、dw、綜合結算、網廳、oa、 erp、 門戶、edw、 全息檢視、計費分析、營銷分析、資源管理、綜合保障、綜合報警等。彼此獨立的系統,占用了大量的硬體資源。

然而,由於資源彼此隔離,伺服器的平均利用率非常低。由於生產要求,月初出帳(主要是報表)期,計算扎堆嚴重,資源又明顯不足。

資料分析和商業智慧型雲平台,作為公共計算平台,用於支撐edc和業務支撐系統中的資料分析和商業智慧型計算。因此,雲平台的客戶也即上述系統的客戶,同時輻射到電信各種業務的決策層。

通過對電信edc和業務支撐系統的分析,我們可以總結出以下幾個業務特性:

高效能計算的需求

資料量大、運算量大的系統如計費、crm、edw等對高效能計算有需求。四川電信資料分析都架構在小型機上,cpu資源仍然不夠。 雖然有一系列擴容優化計畫,但計算與資源一直有矛盾。

上海電信eda/ws部門,也面臨針對海量資料做分析報表的壓力;由於計算資源分離,不能共享,資源利用率低下,目前主要通過不斷擴容應對壓力。

時間視窗問題需求

資料分析的乙個突出問題是時間視窗問題,這在上海電信和四川電信都很突出。由於生產要求,月初出賬(主要是報表)期,計算扎堆嚴重,資源明顯不足。目前對策主要是,對於階段性以及突發性的作業需求進行動態調整以滿足作業對計算能力的要求。

即,對於重要業務需預留資源,對於其它業務則進行排程管理;在出賬前,根據資源需要,停掉低優先順序的計算,從而滿足高優先順序計算的需求。然而,在時間視窗之外,計算資源又相對空閒。

雲計算在資料分析與商業智慧型分析中的應用有兩種應用模式:

為電信內部edc和業務支撐系統提供資料分析和商業智慧型業務,實現傳統資料分析與商業智慧型應用的雲化。要實現此類應用模式需要完成後述工作:利用虛擬化和自動化等雲計算關鍵技術整合現有硬體資源; 部署雲模式資料分析與商業智慧型平台;遵照雲模式選擇性地重構現有業務系統中用到的資料分析與商業智慧型服務;將上述使用者人物排程到雲平台上進行計算,獲得雲模式帶來的好處。

採用雲模式開發新的資料分析與商業智慧型服務,實現企業資料分析雲。要實現此類業務應用模式需要依託整合共享的硬體資源,在雲模式資料分析與商業智慧型平台上開發新的服務,以支援各類新興的應用模式和需求(如移動社交網路,基於客戶社交網路的客戶價值發現和營銷,客戶分群,基於使用者地理位置和軌跡的資訊服務和廣告推送等)。

本節闡述幾個典型利用資料分析和商業智慧型雲平台的新資料分析業務,包括客戶流失分析,客戶社**現,客戶多重身份識別,客戶價值發掘。上述典型應用涵蓋了雲模式資料分析與商業智慧型平台提供的資料探勘和社會網路分析功能。然而,該平台並不僅限於支援上述業務,傳統的各類資料分析業務均可通過定製化開發,移植到該平台上。

客戶流失分析

針對當前中國電信的c網客戶流失嚴重的現象,利用雲資料分析平台提供的chaid(chi-squared automatic interaction detector)等客戶分群演算法,將客戶劃分為「穩定客戶」和「潛在流失客戶」,從而可以讓中國電信將營銷資金投入到挽留「潛在流失客戶」上,有效地提高營銷資金的使用效率。

經過清洗和預處理的客戶資料會被提交給這個應用,加以分析。分析過程包括chaid模型的建立和評估兩個步驟。評估結果會以**準確度和lift兩個指標的形式展現

客戶社**現

針對性營銷不僅需要了解單個顧客的特徵,更需要識別和理解顧客形成的各種社群。例如,識別家庭使用者形成的社群結構,對於特定種類的業務營銷會有很大的幫助。然而,傳統的統計方法往往只對代表社群規模的一些簡單指標進行統計和比較,無法分析客戶社群內在結構上的差異。

利用雲平台bi演算法庫中的連通分量,k-core和極大團等演算法,可深入分析客戶社群的組成,發現具有商業價值的特殊結構。例如, k-core和極大團演算法分析乙個網路社群,可以通過分析結果發現,不同社群的內部聯絡緊密差異是否很大;k-core演算法可以獲得清晰的坍縮序列,極大團演算法進而發現了該社群內部一些聯絡緊密的小團體。對於電信業務,潛在的應用場景有:

發掘家庭客戶,也即哪些客戶是家庭客戶,哪些客戶可能是同乙個家庭;發掘商業關聯。

客戶多重身份識別

在各類客戶分析應用中,往往需要識別單一客戶的多重身份。例如,在電信網中需要識別重入網客戶,在廣告營銷管理中需要識別虛假好評。雲平台演算法庫提供的個體中心網和極大團等演算法,可以輔助識別使用者的多重身份。

電信網中的重入網客戶識別。利用網路分析演算法庫提供的個體中心網演算法,可以計算得到每個客戶的朋友以及朋友之間的聯絡,這一資訊可以被看作是該客戶的社會關係指紋。將這一分析工具同時態分析等工具相結合,可以有效地判斷乙個客戶是否是該運營商過去某個使用者再入網的身份。

虛假好評/馬甲的識別。雲平台網路分析演算法庫提供的極大團等社**現演算法可以識別客戶社群中一些有趣的小團體。以網路社群資料為例,可發現一些包含兩個使用者的強極大團實際上是一些使用者的多個身份。

客戶價值發現

傳統的客戶價值分析方法往往將客戶看作是乙個個獨立的個體,依據客戶的統計屬性來判斷客戶的價值。然而,統計屬性並非有效表徵客戶價值。利用雲平台社會網路分析pagerank和hits等演算法,可分析客戶在社會網路中的位置對其價值的影響,從而有效挖掘出價值客戶。

資料分析和商業智慧型雲平台的技術架構由如下四層結構組成:

● 資料分析與商業智慧型的應用

● 資料分析中介軟體(演算法庫和工具)

● 雲模式分布式平行計算框架

● 雲模式分布式檔案系統和特定主題的資料模型

前述功能模型中的四個具體分析應用,歸屬於應用層。平台未來將要支援的各種應用層業務邏輯也在這層定製化開發。

圖2 技術模型

這層中介軟體是架構在hadoop之上,遵照mapreduce計算模型開發而來的一系列的演算法庫和工具。為支援現有各種資料分析和商業智慧型應用,本層應至少包含統計查詢、社會網路分析、資料探勘、機器學習的演算法庫和工具。此外,隨著雲模式資料分析與商業智慧型平台及其應用的發展,本層的演算法庫和工具也將不斷豐富和完善。

下圖展現了乙個典型的資料分析和商業智慧型應用的流程,包括:問題定義、資料收集、資料分析、決策、行動/監控/學習,及其迭代過程。

資料分析與統計計算軟體DASC

data analysis and statistical computation 功能選單 科學出版社出版 系列軟體兩次獲得省部級科技進步獎 兩次獲得國家科技部技術創新 支援 四次獲得國家自然科學 支援 完成國家軟體著作權登記 其中一項軟體技術獲得國家發明專利 經過權威機構軟體測試和專家評審 省精...

資料分析與資料探勘區別

先談資料,其實很簡單,就是觀測值。例如測量資料。不過大家可能有個誤區。認為,客戶填寫的表單就是資料。對程式設計序而言,是的。但是不是常規的資料。當然填寫的內容,一旦落入的觀測空間,則自然就成了資料。不談資料,就無以談資料分析和資料探勘。由此,上面先說了資料。這裡還要說下資訊。資訊,抽象的說,就是可信...

服裝銷售資料分析與管理

服裝銷售資料 20 80法則 任何時候,20 左右的款會產生80 的銷售業績!80 的款式只產生20 的銷售業績!也就是說只有20 左右的款會是暢銷款。所以,終端銷售如何管理好貨品,找出其中20 的款,並讓其產生80 的銷售,是終端貨品管理的重點。253法則 很多時候,都會矛盾?款式太多,不知該重點...