ⅰ:資料探勘的方法
1 決策樹——johannes gehrke
簡介問題定義
分類樹構造
劃分選擇
資料連線
決策樹修剪
缺失值回歸樹的簡短介紹
問題定義
劃分選擇
資料連線
應用和可用軟體
天體物質編制
現有資料探勘工具中的決策樹
總結參考文獻
2 關聯規則——geoffrey i. webb
簡介購物籃分析
關聯規則發現方法
演算法apriori
頻繁專案集的權利決策
興趣測量
lift
leverage
專案集發現
頻繁專案集發現方法的技術
關閉專案集決策
長專案集
取樣不用專案集發現方法**關聯規則的技術
數值關聯
關聯規則發現方法的應用
總結參考文獻
3 人工神經網路模型在資料探勘中的應用
jennie si, benjamin j, nelson, and george c. runger
多層結構前饋網路的介紹
多層前饋網路中基於訓練方法的梯度
偏導數非線性最小二乘法
批量與增量學習
多層結構前饋網路與其他分類方法的比較
決策樹方法
判別分析方法
多分割槽決策樹
乙個生長多層前饋網路
案例學習1——表面紋理的分類
實驗條件
分類方法結果的定量比較
案例1的最終討論
演算法som的介紹
演算法som
som構件
演算法som的實現
案例2——解密猴子表面動作背後的動機
從電機臨界流量率計算軌跡
利用從螺旋任務到訓練som得到的資料
利用那些從中心出來任務到訓練som得到的資料
利用le**e-k-out方法得到的平均測試結果
案例2的最終討論
結論和討論
參考文獻
4 正常和異常資料的統計分析——connie m. borror
介紹單變數控制圖
變數控制圖
屬性控制圖
累積和控制圖
指數加權移動平均控制圖
控制圖技術的選擇
平均連串長度
多變數控制圖
資料描述
hotelling t2控制圖
多變數ewma控制圖
總結參考文獻
5 貝葉斯資料分析——d**id madigan and greg ridgeway
介紹貝葉斯推理的基礎
乙個簡單例子
乙個更複雜的例子
分層模型和可交換性
實際的先驗分布
貝葉斯模型選擇和模型平均
模型選擇
模型平均
模型評估
貝葉斯計算
重要的抽樣
markov chain monte carlo(mcmc)
乙個例子
在大資料量中的應用
大資料集分析中的重要抽樣
變分法貝葉斯建模
bugs和通過mcmc建的現實複雜性模型
貝葉斯**模型
貝葉斯描述模型
可用軟體
討論和未來方向
總結致謝
參考文獻
6 隱馬爾科夫過程和序列模式挖掘——steven l. scott
隱馬爾科夫模型的計算
缺失資料存在的引數估計
演算法em
mcmc資料展開
缺失資料總結
本地計算
似然遞迴
遞迴演算法viterbi
遞迴的理解
乙個解釋遞迴的數字例子
例證和應用
小羊羔的運動
商業圈hmm平穩分布和**分布
dt平穩分布
**分布
h協方差
可用軟體
總結參考文獻
7 **的策略和方法——greg ridgeway
**問題的介紹
指導例子
**模型構件
損失函式——我們正在試著實現
普通回歸損失函式
普通分類損失函式
用於倖存資料的考克斯損失函式
線性模型
線性回歸
分類推廣的線性模型
非線性模型
最近鄰演算法和k-核算法
樹模型平滑模型,基展開模型和附加模型
神經網路
提公升軟體的可用性
總結參考文獻
8 主要元件和分析因素——daniel w. apley
介紹變異模式在相關多變數資料中應用的例子
識別變異模式方法概覽
多變數資料中變異模式的表述和說明
重要元件分析
重要元件的定義
利用重要元件作為變異模式估計
要素迴圈
pca的容量和限度
要素迴圈的方法
盲源分離
經典盲源分離問題
盲分離原則
四階盲分離方法
附加製造應用
可用軟體
總結參考文獻
9 潛變數建模的心理測量方法——edward ip, igor codez, and padhraic smyth
介紹基本潛變數模型
基本潛在分類模型
基本有限混合模型
基本潛在試驗模型
基本因子分析模型
普通結構
資料探勘擴充套件
基本潛在分離模型擴充套件
基本混合模型擴充套件
潛在試驗模型擴充套件
因子分析模型擴充套件
乙個示例
事務資料的分層結構
個體化的混合模型
資料集試驗結果
參考文獻和工具
參考文獻
工具總結參考文獻
10 可擴充套件性聚類——joydeep ghosh
介紹聚類技術:乙個簡單調查
分割方法
分層方法
區分對衍生的模型
結果評估
結果的視覺化
資料探勘中的聚類挑戰
事務性資料分析
下乙個生成點選流量聚類
聚類耦合序列
大範圍遠端感測
資料探勘中的可擴充套件聚類
n-大量記錄或模式的可擴充套件性
d-大量屬性或維數的可擴充套件性
平衡聚類
序列聚類技術
案例研究:基於購物籃和網頁日誌聚類的相似性
案例研究:關於網頁檔案聚類的相似性測量的影響
相似性測量:乙個抽樣
聚類演算法和文字資料集
結果比較
聚類軟體
總結致謝參考文獻
11 時間序列相似性和索引——gautam das and dimitrios gunopulos
介紹時間序列相似性測量
歐幾里得距離和lp規範
歸一化變換
一般變換
動態時間變形
最長普通子串行相似性
概率性的方法
其他相似性測量
時間序列的索引技術
當距離函式是乙個矩陣時的索引時間序列
維度下降技術的勘察
當距離函式不是乙個矩陣是的相似時間序列檢索
子串行檢索
總結參考文獻
12 非線性時間序列分析——ying-cheng lai, zonghua liu, nong ye, and tolga yalcinkaya
介紹關於無序時間序列分析的嵌入式方法
相空間的重建
維度計算
不穩定週期軌道監測
從時間序列中計算李氏指數
時間序列的時頻分析
分析訊號和hilbert轉換
emd方法
總結致謝參考文獻
13 分布式資料探勘——byung-hoon park and hillol kargupta
介紹相關研究
資料分布和預處理
同質性/同質資料情景
資料預處理
分布式資料探勘演算法
分布式分離學習
聚集資料探勘
分布式關聯規則挖掘
分布式聚類
隱私保護分布式資料探勘
其他分布式資料探勘演算法
分布式資料探勘系統
架構設計
在ddm中的通訊模型
元件維護
未來方向
參考文獻
ⅱ 資料探勘管理
14 資料收集,準備,量化和視覺化——dorian pyle
介紹怎樣使資料與資料探勘關聯起來
資料探勘的10條要求
準備資料之前要知道演算法
為什麼進行資料分析之前要準備資料
資料收集
選擇正確的資料
整合資料集
檢驗資料集
評估缺失值的影響
資料準備
為什麼資料需要準備:乙個企業案例
缺失值表現時間:絕對的,相關的,週期的
異常值和分布的正規化
範圍和正規化
數目和分類
資料質量
什麼是資料質量
強制質量:優勢和劣勢
資料質量和模型質量
資料視覺化
所見即所得
絕對和相對的視覺化
視覺化多樣互動作用
總結15 資料儲存和管理——tong(teresa) wu and xiangyang (sean) li
介紹文字檔案和電子資料表
資料的文字檔案
資料表檔案
資料庫系統
歷史資料庫
相關資料庫
物件導向資料庫
資料儲存和管理的前沿
olap
資料倉儲
分布式資料庫
資料倉儲與資料探勘
頻繁專案集.給定全域性專案集i和資料庫d,d中所有滿足使用者指定的最小支援度 minsupport 的專案集,即大於或等於minsupport的i的非空子集,稱為頻繁專案集 frequent itemsets 或者大專案集 large itemsets 在頻繁專案集中挑選出所有不被其他元素包含的頻繁...
資料倉儲和資料探勘
編號 data warehouse data mining 一 課內學時 32 學分 2 二 適用專業 計算機軟體與理論 計算機應用等。三 預修課程 資料庫 四 教學目的 通過資料倉儲和資料探勘的有關基礎知識介紹,使學生對其含義 作用及發展有所了解,為進一步做有關的研究打下基礎。五 大綱內容 第一章...
資料探勘課程報告
southwest university of science and technology id3演算法 2014年12月 宣告 在辛苦的將這個 寫完之後,懷著忐忑的心情讓眾所周知的學霸大神指點看看有什麼不妥的地方,沒有想到還是出現了乙個bug。因此在這裡作乙個宣告,以免引起不必要的誤會。由於我選...