駕馭大資料

2022-10-15 06:09:02 字數 4643 閱讀 2168

龐大的資訊流現在有了新的約束規則。pb 級資料世界內發生了哪些變化?大資料將如何改變您的做事方式?

海量的資訊充斥著 it 世界。這些資訊從全球 43 億部**和 20 億位網際網路使用者生成的資料中流出,與 300 億個 rfid 標記和數百顆人造衛星和每秒都在不斷傳送的更多訊號融合在一起。當然,沒有人會一下子處理全球所有資料。

但是當這個資料餡餅變大時,每個人分得的部分也會變大。當您開始以 zb 為單位衡量這個餡餅時,甚至一小部分也會變得很大。這裡有乙個具體的統計資訊:

單單 twitter 每天就會增加 12 tb 的資料 - 全文本,而且每次最多新增 140 個字元。

這種規模的資料處理是一種新的極限,許多人正在以多種不同的方式接近它。但人們越來越意識到,我們將資料的誕生視為永遠不會消失的挑戰。一些人將此稱為大資料。

大資料:3 個 v

當我們聽到詞語 「大資料」 時,大部分人立即會想到龐大的資料集,當資料量達到 tb 和 pb 級時,它們就需要以不同的方式對待。能夠良好地處理較小資料量的演算法常常無法足夠迅速或有效地處理較大的資料集,沒有無限容量這樣的東西,無論儲存介質和管理如何發展。

但是,資料量(volume)只是大資料挑戰的乙個方面,其他兩個方面指的是速度(velocity)和多樣性(variety)。速度表示收集、處理和使用資料的速度需求。許多分析演算法可處理大量的資訊,前提是您要整晚執行這些演算法。

但是如果存在實時需要(比如****或兒童健康方面),處理一整晚這樣的速度不再夠用。

種類表示不斷增長的資料型別陣列 —— 音訊、**、影象資料,以及從零售交易、文字訊息和遺傳密碼等豐富多樣的**收集的資訊集合。在處理那些可用行和列表示且通過命令(比如 select 和 jion)操作的資料時,傳統的分析和資料庫方法表現非常優秀。但許多描述我們的世界的要素,既無法硬塞入行和列中,也無法使用那些依賴於一系列 select、join 或其他相關命令的軟體來輕鬆分析。

當您將數量、種類和速度綜合起來時,就只能獲得一些不能很好地發揮作用的資料。結果,處理大資料需要一定程度的資料庫敏捷性,以及難以或者甚至無法單獨使用如今的技術實現的可變性。「在傳統的資料庫中,設計就是一切,」 ibm information management 專案總監 tom deutsch 說。

「它只關乎結構。如果資料更改,如果您希望知道的資訊更改,或者如果您希望將資料與來自另一種渠道或資料倉儲的資訊相結合,您必須更改資料倉儲的整體結構。對於大資料,您常常要處理不斷演化的需求,當然還有大量資料(其中只有一部分是您自己生成的),而且您將希望能夠更改您執行的作業,而不是資料庫設計。

」了解極限

因為在處理大資料時,只有傳統的資料庫管理器和資料倉儲是不夠的,所以許多組織都在調整他們的系統以應付大量 「行為不良」 資料。解決方案各異,取決於它們想要解決的問題的具體性質,一些解決方案應對高速、高容量的資訊,而另一些必須處理大量高可變性資訊。但是,也可能發現這樣一些常見的戰略和技巧,它們要麼能夠減少需要儲存或處理的資訊量,要麼使用能夠處理大量新需求的更新、更強大的技術來處理它。

terraechos 就是一家處理所有 3 v 資料的公司,它是一家領先的隱秘情報和觀測感測器系統提供商,使用了流資料來監控高度安全的設施、國家邊界和石油管道破裂。terraechos adelos s4 。這種海量的高可變性、高速資料(有時在幾小時內就會達到幾 tb)必須收集,與來自其他渠道的資訊相結合,並以極快的速度進行分析,以查詢入侵者,檢測**事件或查詢裝置損壞。

「我們需要在高速傳送帶傳送來資料後立即進行分析。我們不敢奢望首先對它進行結構化並放入資料庫中,因為我們希望能夠在 2 到 3 秒內對它進行分類,」 terraechos ceo alex philp 說。「使用取樣速率為每秒 12,000 個讀數的數字訊號處理器以及可能數千個不同的資料流,我們必須使用完全不同的方法才能迅速響應,」 philp 說。

對於 terraechos,這種鋪天蓋地的資料的受害者是已經統治資料處理領域幾十年的 「提取-轉換-載入」 模式:從資料**提取資料,執行眾多耗時的操作來轉換它,以便能準確容納在一種既定模式的行和列格式中,最後將它載入到資料倉儲中。公司日漸開始在傳入資訊到來時即進行轉換和分析。

如果它遇到某種條件(比如,如果音訊流顯示出一種聽起來像汽車逼近的模式,它會立即進行標記以用於更多分析,常常還會觸發其他資料收集和資料儲存操作。

「我們常常一次僅分析幾秒長度的資料,」 philp 說。「如果我們發現某些東西,我們可以觸發相關流程來查詢相應的**流或查詢一些有趣內容,而且如果有必要,快速儲存特定區域**監控攝像機資料的一些幀。仍然有大量的流資料,但確實減少了我們必須處理和儲存的內容。

」首先過濾,立即詢問問題

為了處理傳入的大量資料,terraechos 使用了專門針對該公司使用的資料流型別而設計的分析。該公司將 ibm infosphere streams 整合到了它自己的 adelos s4 感測器知識系統中。ibm infosphere streams 分析傳入的資料並將涉及到的計算工作分配給眾多的處理器,它的分析包是專為處理特定的資料型別(比如音訊和**)而設計的。

例如,一些分析涉及到對傳入的波形進行嚴格的統計分析,以確定可能威脅的大概性質。

專為特殊資料型別定製的以趨勢為導向的專業分析的速度正在提公升。例如,針對文字理解的演算法分析已用於分析每天生成的海量的音訊流和電子郵件,以通過一種能理解結果的方式查詢恐怖威脅和轉移。

terraechos 系統將定製的分析(在這種情況下來自 ibm infosphere streams)與並行處理硬體中的進步相結合,對來自數千個感測器的二進位制聲學資料執行數百萬此並行、快速計算。

許多專家表明這些技術(動態過濾和分析資料,使用能理解如何處理各種 「原生」 格式的資料的定製分析,以及利用龐大的並行處理器陣列處理傳入的資料)很快將主導資料處理領域,因為 it 正在嘗試處理以驚人速度移動的高容量、多種類資料的特殊問題。

此命令將告訴您哪些物件儲存在指定的緩衝池中,以及有多少資料、索引、長欄位、大物件 (lob) 和 xml 頁面目前位於給定物件的緩衝池中。要將表名稱與物件 id 相關聯,執行以下命令並留意分配給每個表的 id(僅被訪問的表將在生成的輸出中顯示):

針對大資料機會的 5 大技能公升級

概況:公司將可能花費更少的時間和資金來定義、清理和管理資料和資料倉儲結構。相反,他們會將更多時間用於確定如何迅速採集、驗證和使用資料,所以這些是需要掌握的技能。

「如今,dba 和其他 it 人員花費了大量時間來建立多維資料集並將資料填入它們之中,」 ibm 的 ibm infosphere streams 產品經理 roger rea 說。「這一現象即將改變。在未來,無需讀取資料,進行轉換,然後進行載入,您將在查詢時盡可能快地載入並轉換它。

這種新方法更加敏捷,但它意味著我們思考資料的方式的轉變。它與依據傳統的關係模型來管理資料有很大區別。」

您如何準備抓住新的機會?請考慮以下技能公升級:

學習使用新的大資料分析

一些專家**,資料探勘軟體(比如 bigsheets —— ibm infosphere biginsights 中使用的類似電子**的介面)將使 it 專業人員和業務分析師可以更容易地分析大資料。熟悉這些工具和它們的功能可能將為各種 it 領域的員工帶來益處。

在 j**a 程式設計和相關指令碼工具中熟練地開發

許多用於處理大資料的程式(比如 hadoop 和 mapreduce)都是基於 j**a 的,所以了解如何使用 j**a 程式設計是一項重要技能。如果您已經熟悉 j**a,您可以開始學習 hadoop 上的**教程或圖書。

了解市場營銷和業務基礎知識,關注如何使用新資料**

親和力計畫(affinity programs)通過挖掘客戶呼叫中心資料和 twitter 提要等不同資源,探索影響客戶忠誠度的複雜因素。理解如何使用不同的資料**並將它們應用到這些業務問題中,將變得對各種職位(從市場營銷到 it)更加重要。

基本理解統計知識

分析軟體的核心是統計基礎知識。了解人口、取樣和統計意義的基本知識,將有助於您理解有哪些可能性,更好地理解和解釋結果的含義。最佳的學習途徑是市場營銷和業務運營統計課程,這些課程中的材料更可能被迅速應用。

了解如何組合來自不同**(尤其是公開**)的資料

大型資料集的強大用途在很大程度上**於將專門資訊(比如公司收集的銷售資料)與公開的資料**(比如地圖資訊或**資料)相結合。只要知道哪些資料可用,常常就會激發關於組合這些資訊的可盈利方式的新想法。

分析靜態大資料的新技術

儘管很多時候,處理 「移動的」 流資訊的更好方式是解決許多大資料挑戰,如果靜態資料非常多,特別是其中包含的資料變換多端,僅僅處理大量靜態資料也非常棘手。有效處理大量此類資料的一種方法是在相對比較廉價的硬體上執行大量平行計算。例如,ibm infosphere biginsights 分析軟體起源於開源專案 apache hadoop,但使用了它自己的檔案系統並新增了其他專門技術。

hadoop 是乙個基於 j**a 的框架,支援資料密集型的分布式應用程式,使應用程式能夠處理數千個處理器節點和 pb 級的資料。針對順序讀取大型檔案進行了優化,它可以自動管理資料複製和恢復。即使特定處理器上發生了故障,資料仍然會被複製,處理也將繼續進行而不會中斷或丟失剩餘的計算結果,這使該系統具有一定的容錯能力,能夠非常快地排序 tb 級的資料。

為了實現快速和可伸縮性,hadoop 依賴於 mapreduce,乙個簡單但強大的平行計算框架。mapreduce 在對映階段將乙個問題分解為數百萬個平行計算,並生成鍵-值對流作為輸出。然後 mapreduce 按照各個鍵改組對映輸出,對重新分配的對映輸出執行另一項平行計算,在計算的歸納階段將結果寫入到檔案系統中。

例如,當處理海量的銷售交易資料來確定每項產品的銷售量時,hadoop 將對每個包含交易的檔案塊執行對映操作,計算每筆交易中銷售的每項產品的數量,然後在它返回答案時進行 「歸納」。

汽車大資料

汽車後市場未來的關鍵基於大資料 採訪張雲林是一段非常有趣的經歷。他的思維和反應都是極快的,在採訪過程中記者有時都跟不上他的節奏,而張雲林卻絲毫沒有注意到,在談起汽車後市場和目前即將正式面世的淘汽配資料庫,張雲林依舊侃侃而談。為何做汽車資料?所有人都要資料,但又不願意做 四川省伊愛車科技 以下簡稱 淘...

大資料時代

大資料時代 語境下的貴陽發展新支點 貴州攜手北京推動大資料產業發展系列報道之四 2月20日,當貴陽訊鳥雲計算科技 總經理 北京訊鳥軟體 總裁吳益民得知貴陽將著力打造全國大資料產業創新發展先行區這個訊息時,他下意識哼唱了一句 我的未來不是夢。大資料產業是前沿中的前沿 高階中的高階,是全球下乙個促發創新...

大資料學習總結

大資料時代 讀後感 1 學習總結 1 關於作者 維克托 邁爾 捨恩伯格 viktor mayer schnberger 他是十餘年潛心研究資料科學的技術權威,他是最早洞見大資料時代發展趨勢的資料科學家之一。2 關於大資料 1 大資料是什麼 大資料 big data 或稱巨量資料,指的是所涉及的資料量...