資料探勘工程化實踐

2022-09-25 16:27:05 字數 1230 閱讀 7124

一、前言

每每提到資料探勘,總有些人上來就是etl、是演算法、是數學模型,作為搞工程實施的我而言,很是頭疼。其實作為資料探勘的而言,演算法只是其實現手段、是工具和實現手段而已,我們不是在創造演算法(國外職業搞研究的除外),我們是在使用演算法而已,換句話說我們是演算法的工程化實踐者。資料探勘非今日之物,大資料探勘也不是乙個孤立的概念,其實質還是採用傳統的資料探勘的方法,只是其實現工具發生了變化而已,本質的東西還在。

引入發布近20年前的 crisp-dm資料探勘標準規範模型,供大家共享,希望能有人喜歡。

二、框架

三、詳述

3.1 業務理解(business understanding)

最初的階段集中在理解專案目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步計畫。

3.2 資料理解(data understanding)

資料理解階段從初始的資料收集開始,通過一些活動的處理,目的是熟悉資料,識別資料的質量問題,首次發現資料的內部屬性,或是探測引起興趣的子集去形成隱含資訊的假設。

3.3 資料準備(data preparation)

資料準備階段包括從未處理的資料中構造最終資料集的所有活動。這些資料將是模型工具的輸入值。這個階段的任務能執行多次,沒有任何規定的順序。

任務包括表、記錄和屬性的選擇,以及為模型工具轉換和清洗資料。

3.4 建模(modeling)

在這個階段,可以選擇和應用不同的模型技術,模型引數被調整到最佳的數值。一般,有些技術可以解決一類相同的資料探勘問題。有些技術在資料形成上有特殊要求,因此需要經常跳回到資料準備階段。

3.5 評估(evaluation)

到這個階段,你已經從資料分析的角度建立了乙個高質量顯示的模型。在開始最後部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確保模型可以完成業務目標。這個階段的關鍵目的是確定是否有重要業務問題沒有被充分的考慮。

在這個階段結束後,乙個資料探勘結果使用的決定必須達成。

3.6 部署(deployment)

通常,模型的建立不是專案的結束。模型的作用是從資料中找到知識,獲得的知識需要便於使用者使用的方式重新組織和展現。根據需求,這個階段可以產生簡單的報告,或是實現乙個比較複雜的、可重複的資料探勘過程。

在很多案例中,這個階段是由客戶而不是資料分析人員承擔部署的工作。

四、總結

從以上流程和規範我們可以看到,演算法實現過程,其實只佔了資料探勘的一部分,真正要想實現資料探勘,並達到資料探勘的目標,我們需要做的事情還有很多。

資料探勘視覺化系統設計與實現

作者 楊健章關婷婷曲婷婷王璐 科技創新與應用 2015年第16期 摘要 針對當前資料視覺化工具的種類 質量和靈活性上存在的不足,構建乙個資料探勘視覺化平台。將獲取的資料集上傳到系統分布式資料庫中,對資料集進行預處理,利用mahout提供的分類 聚類等挖掘演算法對資料集進行挖掘,使用echarts將挖...

宿州學院「工程化」教育教學改革實施方案 草案

為貫徹落實2011年全國教育工作會議精神和 安徽省中長期教育改革和發展綱要 2010 2020 進一步轉變教育思想觀念,全面推進我校省級示範應用型本科院校的建設,結合我院實際,特制訂本實施方案。一 工程教育 教學改革的原則和基本思路 1 以改革教育思想和教育觀念為先導的原則,把握新形勢下應用型本科人...

2019百度校招資料探勘工程師筆試題

一 簡答題 1.簡述繼承 多型 組合的作用,並舉例說明。2.程序間互動的方式有哪些,至少舉出3項。3.給出貝葉斯公式的基本形式,簡述樸素貝葉斯法的過程。二 演算法題 1.設兩個隨機向量,服從均值為0,方差為1正態分佈,z為x和y的相關係數。試求 1 求z的期望和方差,寫出推導過程 2 寫出蒙特卡羅模...