資料探勘手冊的目錄

2023-01-11 02:24:07 字數 4878 閱讀 9438

ⅰ:資料探勘的方法

1 決策樹——johannes gehrke

簡介問題定義

分類樹構造

劃分選擇

資料連線

決策樹修剪

缺失值回歸樹的簡短介紹

問題定義

劃分選擇

資料連線

應用和可用軟體

天體物質編制

現有資料探勘工具中的決策樹

總結參考文獻

2 關聯規則——geoffrey i. webb

簡介購物籃分析

關聯規則發現方法

演算法apriori

頻繁專案集的權利決策

興趣測量

lift

leverage

專案集發現

頻繁專案集發現方法的技術

關閉專案集決策

長專案集

取樣不用專案集發現方法**關聯規則的技術

數值關聯

關聯規則發現方法的應用

總結參考文獻

3 人工神經網路模型在資料探勘中的應用

jennie si, benjamin j, nelson, and george c. runger

多層結構前饋網路的介紹

多層前饋網路中基於訓練方法的梯度

偏導數非線性最小二乘法

批量與增量學習

多層結構前饋網路與其他分類方法的比較

決策樹方法

判別分析方法

多分割槽決策樹

乙個生長多層前饋網路

案例學習1——表面紋理的分類

實驗條件

分類方法結果的定量比較

案例1的最終討論

演算法som的介紹

演算法som

som構件

演算法som的實現

案例2——解密猴子表面動作背後的動機

從電機臨界流量率計算軌跡

利用從螺旋任務到訓練som得到的資料

利用那些從中心出來任務到訓練som得到的資料

利用le**e-k-out方法得到的平均測試結果

案例2的最終討論

結論和討論

參考文獻

4 正常和異常資料的統計分析——connie m. borror

介紹單變數控制圖

變數控制圖

屬性控制圖

累積和控制圖

指數加權移動平均控制圖

控制圖技術的選擇

平均連串長度

多變數控制圖

資料描述

hotelling t2控制圖

多變數ewma控制圖

總結參考文獻

5 貝葉斯資料分析——d**id madigan and greg ridgeway

介紹貝葉斯推理的基礎

乙個簡單例子

乙個更複雜的例子

分層模型和可交換性

實際的先驗分布

貝葉斯模型選擇和模型平均

模型選擇

模型平均

模型評估

貝葉斯計算

重要的抽樣

markov chain monte carlo(mcmc)

乙個例子

在大資料量中的應用

大資料集分析中的重要抽樣

變分法貝葉斯建模

bugs和通過mcmc建的現實複雜性模型

貝葉斯**模型

貝葉斯描述模型

可用軟體

討論和未來方向

總結致謝

參考文獻

6 隱馬爾科夫過程和序列模式挖掘——steven l. scott

隱馬爾科夫模型的計算

缺失資料存在的引數估計

演算法em

mcmc資料展開

缺失資料總結

本地計算

似然遞迴

遞迴演算法viterbi

遞迴的理解

乙個解釋遞迴的數字例子

例證和應用

小羊羔的運動

商業圈hmm平穩分布和**分布

dt平穩分布

**分布

h協方差

可用軟體

總結參考文獻

7 **的策略和方法——greg ridgeway

**問題的介紹

指導例子

**模型構件

損失函式——我們正在試著實現

普通回歸損失函式

普通分類損失函式

用於倖存資料的考克斯損失函式

線性模型

線性回歸

分類推廣的線性模型

非線性模型

最近鄰演算法和k-核算法

樹模型平滑模型,基展開模型和附加模型

神經網路

提公升軟體的可用性

總結參考文獻

8 主要元件和分析因素——daniel w. apley

介紹變異模式在相關多變數資料中應用的例子

識別變異模式方法概覽

多變數資料中變異模式的表述和說明

重要元件分析

重要元件的定義

利用重要元件作為變異模式估計

要素迴圈

pca的容量和限度

要素迴圈的方法

盲源分離

經典盲源分離問題

盲分離原則

四階盲分離方法

附加製造應用

可用軟體

總結參考文獻

9 潛變數建模的心理測量方法——edward ip, igor codez, and padhraic smyth

介紹基本潛變數模型

基本潛在分類模型

基本有限混合模型

基本潛在試驗模型

基本因子分析模型

普通結構

資料探勘擴充套件

基本潛在分離模型擴充套件

基本混合模型擴充套件

潛在試驗模型擴充套件

因子分析模型擴充套件

乙個示例

事務資料的分層結構

個體化的混合模型

資料集試驗結果

參考文獻和工具

參考文獻

工具總結參考文獻

10 可擴充套件性聚類——joydeep ghosh

介紹聚類技術:乙個簡單調查

分割方法

分層方法

區分對衍生的模型

結果評估

結果的視覺化

資料探勘中的聚類挑戰

事務性資料分析

下乙個生成點選流量聚類

聚類耦合序列

大範圍遠端感測

資料探勘中的可擴充套件聚類

n-大量記錄或模式的可擴充套件性

d-大量屬性或維數的可擴充套件性

平衡聚類

序列聚類技術

案例研究:基於購物籃和網頁日誌聚類的相似性

案例研究:關於網頁檔案聚類的相似性測量的影響

相似性測量:乙個抽樣

聚類演算法和文字資料集

結果比較

聚類軟體

總結致謝參考文獻

11 時間序列相似性和索引——gautam das and dimitrios gunopulos

介紹時間序列相似性測量

歐幾里得距離和lp規範

歸一化變換

一般變換

動態時間變形

最長普通子串行相似性

概率性的方法

其他相似性測量

時間序列的索引技術

當距離函式是乙個矩陣時的索引時間序列

維度下降技術的勘察

當距離函式不是乙個矩陣是的相似時間序列檢索

子串行檢索

總結參考文獻

12 非線性時間序列分析——ying-cheng lai, zonghua liu, nong ye, and tolga yalcinkaya

介紹關於無序時間序列分析的嵌入式方法

相空間的重建

維度計算

不穩定週期軌道監測

從時間序列中計算李氏指數

時間序列的時頻分析

分析訊號和hilbert轉換

emd方法

總結致謝參考文獻

13 分布式資料探勘——byung-hoon park and hillol kargupta

介紹相關研究

資料分布和預處理

同質性/同質資料情景

資料預處理

分布式資料探勘演算法

分布式分離學習

聚集資料探勘

分布式關聯規則挖掘

分布式聚類

隱私保護分布式資料探勘

其他分布式資料探勘演算法

分布式資料探勘系統

架構設計

在ddm中的通訊模型

元件維護

未來方向

參考文獻

ⅱ 資料探勘管理

14 資料收集,準備,量化和視覺化——dorian pyle

介紹怎樣使資料與資料探勘關聯起來

資料探勘的10條要求

準備資料之前要知道演算法

為什麼進行資料分析之前要準備資料

資料收集

選擇正確的資料

整合資料集

檢驗資料集

評估缺失值的影響

資料準備

為什麼資料需要準備:乙個企業案例

缺失值表現時間:絕對的,相關的,週期的

異常值和分布的正規化

範圍和正規化

數目和分類

資料質量

什麼是資料質量

強制質量:優勢和劣勢

資料質量和模型質量

資料視覺化

所見即所得

絕對和相對的視覺化

視覺化多樣互動作用

總結15 資料儲存和管理——tong(teresa) wu and xiangyang (sean) li

介紹文字檔案和電子資料表

資料的文字檔案

資料表檔案

資料庫系統

歷史資料庫

相關資料庫

物件導向資料庫

資料儲存和管理的前沿

olap

資料倉儲

分布式資料庫

資料倉儲與資料探勘

頻繁專案集.給定全域性專案集i和資料庫d,d中所有滿足使用者指定的最小支援度 minsupport 的專案集,即大於或等於minsupport的i的非空子集,稱為頻繁專案集 frequent itemsets 或者大專案集 large itemsets 在頻繁專案集中挑選出所有不被其他元素包含的頻繁...

資料倉儲和資料探勘

編號 data warehouse data mining 一 課內學時 32 學分 2 二 適用專業 計算機軟體與理論 計算機應用等。三 預修課程 資料庫 四 教學目的 通過資料倉儲和資料探勘的有關基礎知識介紹,使學生對其含義 作用及發展有所了解,為進一步做有關的研究打下基礎。五 大綱內容 第一章...

資料探勘課程報告

southwest university of science and technology id3演算法 2014年12月 宣告 在辛苦的將這個 寫完之後,懷著忐忑的心情讓眾所周知的學霸大神指點看看有什麼不妥的地方,沒有想到還是出現了乙個bug。因此在這裡作乙個宣告,以免引起不必要的誤會。由於我選...