資料探勘實習報告

2021-12-29 11:37:30 字數 1364 閱讀 7185

通過半年的實習,我在這裡得到了一次較全面的、系統的鍛鍊,也學到了許多書本上所學不到的知識和技能。以下是我這次的實習鑑定。

經歷了實習,對社會也有了基本的實踐,讓我學到了書本以外的知識,實習期間,我努力盡量做到理論與實踐相結合,在實習期間能夠遵守工作紀律,不遲到、早退,認真完成領導交辦的工作。在實習鑑定中,我參與了整個資料分析工作,從資料獲取到資料清洗、資料包表的制定到模型的建立以及模型監控等等,讓我充分學習了資料分析崗位的實際操作。

在實習初期,專案經理安排了我參與資料獲取的相關工作,主要是編寫sql**在linux上用perl語言呼叫獲取資料。起初覺得自己對sql語言了解較多,以為這份工作非常簡單。但實際操作起來才知道,在資料量達到幾百兆甚至上gb級別的時候,所學的sql根本解決不了問題。

經向專案經理學習,這才知道了如何使用分層次操作等速度較快的sql技巧。通過這兩個月的實習充分認識到所學知識遠遠不夠。

完成資料獲取階段之後,專案經理開始安排資料清洗以及資料包表制定的相關工作。接到這份工作之初,對資料清洗並沒有太多的認識,以為很多都是按照《資料探勘》教材中步驟進行就可以的。但經過專案經理指導之後才知道資料清洗之前首先要對專案業務進行一定的了解,只有清晰了業務資料的**、資料的實際意義才知道哪些資料可以稱為極端值,哪些資料又是不正常的,制定報告或者交給模型分析師時需要去除的等等。

同時,在制定資料包表的同時學習了很多excel函式的使用,透視表的使用,ppt報告的書寫等等。

在實習的後三個月,開始接觸了模型的分析與監控。在學習《機器學習》以及《資料探勘》書本時,總會想到各種各樣的分類模型,也總會認為模型準確率高的模型才會是好模型。在運用統計模型之前,專案經理首先向實習生介紹了目前挖掘部門常用的分類模型以及具體的一些使用方法。

其中邏輯回歸模型、決策樹模型是常用的分類模型,回歸分析和時間序列模型是常用的**模型,這與平日所學基本一致。正當好奇為什麼不使用支援向量機以及神經網路模型之時,專案經理說,由於模型結果都是要給市場部門的同事報告的,所以模型結果最好能夠簡單易懂的。在實際工作才知道,一般除了用模型準確率來衡量模型的效果外,還有例如靈敏度、roc曲線、ra曲線等等指標值。

而模型的操作過程也不是想象的那麼簡單,並不是用r軟體上的幾個函式,幾行**就能解決的,選擇什麼引數、選擇什麼樣的模型,當然最重要的還是選擇什麼樣的基礎資料作為模型的訓練資料才是最重要的,這才發現專案經理之前提到的業務知識是多麼的重要。

在模型建立之後就是模型監控了,由於是我負責的專案,所以專案經理也將監控這一任務交給了我。資料探勘模型通常情況下都是要上線的,但模型的效果會隨著資料的變化而變化,當模型的指標達到一定程度時就需要修改模型。在這一階段,充分鍛鍊了我的程式編寫能力。

在整乙個實習過程,非常感謝專案經理給予了我資料探勘整乙個流程學習的機會,讓我真正對資料探勘的實際工作有了一定的認識,也讓我學習到了很多學校學習中學不到的實際操作能力,在此表示衷心的感謝。

資料探勘課程報告

southwest university of science and technology id3演算法 2014年12月 宣告 在辛苦的將這個 寫完之後,懷著忐忑的心情讓眾所周知的學霸大神指點看看有什麼不妥的地方,沒有想到還是出現了乙個bug。因此在這裡作乙個宣告,以免引起不必要的誤會。由於我選...

資料探勘實驗報告 關聯規則挖掘

關聯規則挖掘 姓名 李聖傑 班級 計算機1304 學號 1311610602 一 實驗目的 1.1.掌握關聯規則挖掘的apriori演算法 2.將apriori演算法用具體的程式語言實現。二 實驗裝置 pc一台,dev c 5.11 三 實驗內容 根據下列的apriori演算法進行程式設計 四 實驗...

資料探勘實驗報告

實驗名稱 一元線性回歸的分析與應用 實驗人員 俞定君084774438 俞駿084774439 實驗原理 1 一元線性回歸 法的概念 一元線性回歸 法是分析乙個因變數與乙個自變數之間的線性關係的 方法。常用統計指標 平均數 增減量 平均增減量 一元線性回歸 基本思想 確定直線的方法是最小二乘法。最小...