「資料分析技術實驗」學生標準實驗報告

2023-02-05 08:24:06 字數 3752 閱讀 5302

電子科技大學政治與公共管理學院

本科教學實驗報告

(實驗)課程名稱:資料分析技術系列實驗

電子科技大學教務處製表

9電子科技大學

實驗報告

學生姓名:*** 學號:****** 「資料分析技術實驗」

電子科技大學政治與公共管理學院

本科教學實驗報告

(實驗)課程名稱:資料分析技術系列實驗

電子科技大學教務處製表

電子科技大學

實驗報告

學生姓名:*** 學號:******

指導教師:高天鵬

一、實驗室名稱: 電子政務視覺化實驗室

三、實驗原理

通過調查或觀察,採集到樣本以後,常用一些統計量描述這些資料的分布狀態,並通過這種認識,對資料的總體特徵進行總結和歸納。資料的分布狀態常通過資料的進行描寫。

本實驗主要對資料統計分析的最基礎分析——描述性統計分析進行實驗,主要包括集中趨勢和離中趨勢分析,其主要演算法原理如下:

1. 描述集中趨勢的統計

(1) 算術平均值(mean):樣本資料的總和除以樣本資料的個數即是算術平均值。

(2) 中位數(median,me)

首先將樣本資料(假設有n個數)按公升序或降序排列,如果 n 為奇數,則數列中間的數值為中位數;如果n為偶數,則中位數為其中兩數值的均值。

(3) 眾數(mode,mo)

樣本資料**現頻數(次數)最多的那個數稱為眾數。眾數不易確定,與中位數一樣,它不受極值影響。但有時會出現兩個甚至多個眾數,有時又沒有眾數。所以,眾數的使用受到嚴格限制。

(4) 幾何平均數(geometric mean)

假定銀行每年本利(本金加利率)為 x1 有 f1 年,年本利為 x2 有f2 年,銀行年本利為x3 有 f3 年, ,年本利為xn 有 fn 年,則n年銀行平均本利為g,銀行平均年利率g-1。

(5) 四分位數(quartiles)

最低數與中位數之間的中位數是25分位數,原中位數與最高數之間的中位數是75分位數。類似集中趨勢的度量還有十分位數和百分位數。

2. 描述離中趨勢的統計量

(1) 極差(range)

是樣本資料中最大值與最小值的差值。極值捨棄了最大值與最小值之間的其他資料資訊,僅僅依靠端點值來確定,因而穩定性差。

(2) 平均差(**erage difference)

指各樣本資料與均值間差異絕對值的均值,也稱為平均絕對差。

(3) n個資料的方差(variance)

定義如下式,其中為這 n 個數的均值。

(4) 標準差 (standard deviation, std dev)

是方差的算術平方根。標準差是變數與算術平均數的平均離差,也是最常用的反映資料離中趨勢的統計量。但是,在抽樣調查中總體標準差往往未知,需要用樣本標準差代替總體標準差,總體方差的無偏估計量應該為原方差乘以修正因子 (n / n-1),並由此得到無偏標準差的估計量。

四、實驗目的

掌握常用的描述性統計方法的原理及操作,包括:算術平均值、中位數、眾數、幾何平均數、調和平均數、極差、平均差、方差、標準差等。

五、實驗內容及步驟

使用「analyze」 萊單中的「descriptive statistics」功能進行描述性統計分析。

「frequencies」 過程通過單個資料的頻數分析(frequencies )來達到整理資料的目的,利用該過程,得到一系列描述資料分布狀況的統計量。

單擊「frequencies 」 命令則可開啟相應對話方塊(如圖示),對對話方塊中各選項進行設定。

圖 2(1)對話方塊左側的源變數名列表框中,給出了當前資料檔案中所有變數的變數名。

(2)「variable(s)」 列表框,在變數名列表框中單擊變數名以後,單擊對話方塊中間的右箭頭按鈕,將變數名移到該列表框中。選定變數名以後,將對選定變數的資料進行頻數分析。

(3)選擇「display frequency tables」 選項,將在瀏覽器中顯示頻數分布表,否則只顯示直方圖,不顯示頻數表。

(4)若單擊「statistics」 按鈕,則開啟統計量選擇對話方塊,如圖示,該對話方塊中各選項的意義如下。

圖 3① 「percentile values」 選項區,可計算並顯示如下內容: 四分位數(「 quartiles」 )、等間隔n 分位數(「cut points for」 後文字框中輸入數值為 n ) 和不等間隔「 percentile(s)」 分位數 p %、q % 。「percentile(s)」 選項後面的文字框中依次先後輸人數值p、q,單擊「add」 按鈕,顯示在文字框中,利用「change」 和「remove」 按鈕,可以對文字框中列表進行修改。

②「central tendency」將顯示樣本的集中趨勢,如計算並顯示樣本資料的均值「mean」 ,資料的中位值「median」 ,資料的眾數「mode」 ,資料的累加和「sum」 。

③「values are group midpoints」選項,表示假設資料已經分組,資料取值為組中值,選擇此項,可計算百分位數統計和資料的中位數。

④「dispersion」 選項區將計算並顯示資料的離中趨勢,如計算並顯示標準差「std. deviation」 ,方差「variance」,極差「range」,最小值「minimum」 ,最大值「maximum」 ,和標準誤(平均值的標準誤差)「 mean」 。

⑤「distribution」選項區設定描述資料樣本分佈的統計量。如顯示樣本資料的偏度「skewness」 和偏度的標準誤差,樣本資料的峰度「kurtosis」 和峰度的標淮誤差。

(5)「 charts」 按鈕是圖形選擇對話方塊,如圖所示,各選項的意義如下。

圖 4①「chart type」 確定輸出圖形的型別。不生成和顯示圖形選擇「none」 單選項(預設選項);生成和顯示條形圖(橫座標非等距座標)選擇「bar charts」 ;生成和顯示餅圖選擇「pie charts」 ;生成和顯示直方圖(橫座標為等距座標)則選擇「histograms」 。若選擇「histograms」 後,「show normai curve」 選項為可用,選擇此項後,在生成和輸出直方圖時新增正態分佈曲線。

② 若選擇「bar charts 」或「pie charts」 單選項,對話方塊底部「chart values」 選項區內的選項為可用,該選頊要求確定生成圖形時所用的資料變數。若用不同取值的樣本數作為分類變數的度量,選「frequencies」 (預設項);若用不同取值對應樣本數佔總樣本的百分數作為分類變數度量,選用「percentages」 選項。

(6)「 format」 是頻數分析表的輸出格式選擇對話方塊,如圖所示,各選項的意義如下。

圖 5①「order by」 選項區設定表中資料的排列、輸出順序。若按照變數值的大小做公升序排列(預設選項),選「ascending values」 單選項;若按照變數值的大小做降序排列,選「des***ing values」 單選項;按照變數值出現的頻數做公升序排列、輸出,選「λ∞cildlng cllun『」單選項;按照變數值出現的頻數做降序排列、輸出,選「d岱c***ing counts」 單選項。

②「multiple variables」 選項區是多變數的**顯示格式。若選擇「compare variables」 (預設選項),將對應於各變數的統計量顯示在一張單獨的表中。若選擇「organize output by variables」 單選項,將對應於各變數的統計量分別列表顯示。

③「suppress tables with many categories」 選項是限定頻數表輸出的範圍,若選擇此項,在後面的文字框中輸入數值 n ,即輸出資料的組數不得大於視窗中輸入的數值。預設時該數值為10 。

在「analyze」子選單中單擊「descriptives statistics」命令(如圖示),開啟「descriptives 」對話方塊(如圖55所示),可見如下選擇項。圖 6

實驗九Excel資料分析

實驗九 excel資料分析 本次實驗將做好的excel檔案交上即可 實驗目的 1.掌握建立資料清單的方法 2.掌握excel2003的分類彙總操作。3.熟悉excel2003的資料透視表的製作方法。實驗環境 中文windows xp和excel 2003 實驗內容及操作步驟 1 按照樣張1的內容在工...

資料分析與建模實驗報告

學生實驗報告書 2015 2016 學年第 1 學期 實驗報告填寫規範 1 實驗是培養學生動手能力 分析解決問題能力的重要環節 實驗報告是反映實驗教學水平與質量的重要依據。為加強實驗過程管理,改革實驗成績考核方法,改善實驗教學效果,提高學生質量,特制定本實驗報告書寫規範。2 本規範適用於管理學院實驗...

核衰變實驗資料分析與處理

工作電壓的選擇 根據坪曲線規律,選擇較為平坦時工作電壓為880v。測放射源計數率實驗資料分析 實驗分析 1.探測器與放射源的幾何位置應保持合理 兩者不宜離開太遠 2.實驗中要保證不觸碰探測儀,因為本實驗是一種強度測量,所以一切有可能影響探測器探測效率的因素都必須嚴格保持不變,如工作點要保持穩定探測器...