數學教育測量與評價

1.學習目的：通過學習了解數學教育測量與評價的基本原理，運用數學教育測量與評價獲得資訊，對數學教學進行測量與評價，從而指導數學教學實踐。

2．內容介紹：了解和掌握數學教育測量與評價的基本概念，學會運用教育統計學的基本理論進行教學測量與評價。

3．考核或方案：運用教育測量與評價的基本原理，結合教學實踐，選乙個課題進行教學評價。

4. 主要參考書目：

[1] 田萬海等著數學教學測量與評估上海教育出版社，2023年12月第1版

[2] 王孝玲編著教育統計學，華東師範大學出版社，2023年7月第1版

[3] 王孝玲編著教育測量華東師範大學出版社，2023年4月第1版

第一章緒論

§1.1教育統計學的內容

一、什麼是教育統計學

教育統計學是運用數理統計的原理和方法，研究教育問題的一門應用科學。它的主要任務是研究如何蒐集、整理、分析由教育調查和教育實驗所獲得的數字資料，並以此為依據，進行科學推斷，揭示教育現象以蘊含的客觀規律。

二、統計學研究的內容

分成描述統計、推斷統計、實驗設計

1．描述統計

對已獲得的資料進行整理、概括，顯現其分布特徵的統計方法，稱為描述統計。通過教育調查和教育實驗獲得大量的資料。用歸納、編表、繪圖等統計方法對之進行歸納、整理，以直觀形象的形式反映其分布特徵；通過計算各種特徵量，來反映它們分布上的數字特徵。

例如，計算集中量（算術平均數、中位數、眾數、加權算術平均數、幾何平均數、調和平均數等）來反映它的集中趨勢；計算差異量（如全距、四分位距、百分位距、平均數、標準差、差異係數等）來反映它們的離散程度；計算偏態量及峰態量來反映它們的分布形態；計算相關量（如積差相關係數、等級相關數、點二列相關係數、相關係數、四分相關係數、c相關係數、肯德爾和諧係數、多系列相關係數等）來反映乙個事物的中特性之間變化的一致性程度（尤其是測量評價中）。這些均屬於描述統計範圍。

目的：在於將大量零散的、雜亂無序的數字資料進行整理、歸納、概括，使事物的全貌及其分布特徵清晰，明確的顯現出來。

2．推斷統計

根據樣本所提供的資訊，運用概率的理論進行分析，論證，在一定可靠程度上，對總體分布特徵進行統計、推測，這種統計方法稱為推斷統計。例如，對總體引數值，即總體數字特徵值（如總體平均數、總體標準差、總體相關係數等）的估計；對總體數字特徵值或總體引數之差（如總體平均數之差、方差之差、總體相關係數之差等）的假設檢驗；對總體分布是否服從某種分布的假設檢驗等，都屬於推斷統計的範圍。其目的在於根據已知的情況，在一定概率的意義上估計、推測未知的情況。

3．實驗設計

教師為了揭示實驗中自變數與因變數的關係，在實驗之前所制定的實驗計畫，稱為實驗設計。其中包括選擇怎樣的抽樣方式；如何計算樣本容量；確定怎樣的實驗對照形式；如何實現實驗組和對照組的等組化；如何安排實驗因素和如何控制無關因素；用什麼統計方法處理及分析實驗結果等。

以上三部分內容，不是截然分開，而是相互聯絡的。描述統計是推斷統計的基礎，推斷統計可以通過樣本資訊估計，推測總體。從已知情況推測、估計未知情況。

良好的實驗設計才能使我們獲得真實的有價值的資料，對這樣的資料進行統計處理才能得出正確的結論。而良好的實驗設計又必須以統計就原理為根據，符合統計方法的要求才能對實驗結果進行統計處理。

§1.2 學習統計與測量評價的意義

1．可以順利地閱讀運用統計方法進行走量分析的科研報告和文獻，從中可以間接地學習國內外先進地研究成果。

2．可以提供一種科學方法為教科研服務——工具。

3．可以提高教育工作的科學性和效率（學制的改革、課程的建設、課程分量的確定、數學效果的考核、各種教法和學法的比較、學科成績的評定、各類調查、學業成績的比較）。

§3 幾種基本概念

一、隨機變數

二、總體與樣本

三、統計量與引數

四、資料的分類

1．名稱量表——點計資料

測量與統計中最簡單的形式——分類。即屬於同一類的事物用同乙個數字表示。屬於另一類的事物用另乙個數字表示。

用來描述各類事物的數字僅僅是事物的名稱或符號。沒有數量大小的含義，只具有相同與不同的特性。即只能區分事物的類別，沒有數量的大小、多少、位次和倍數關係。

也就是說，它只具有數的同一性和區分性，而不具有等級性、等距性和等比性。因此，不能將之進行加、減、乘、除四則運算。所進行的統計處理，只是歸入每一類中個體的數目（頻數），對這類資料所允許和運用的統計方法，有比率、百分比、相關係數、 x2檢驗。

2．等級量表——等級資料

對於事物的屬性按乙個標準進行分類，用來描述各個類別的數字，不僅具有區分性，而且還具有等級性（位次性）。這些數字之間能表示事物大小的位次關係。但不具有等距性和等比性。

甲、乙、丙三個等級，甲 3，乙 2，丙 1。構成3>2>1的位次關係。但這些數字只能確定事物相等或不等的關係。

在不等的情況下，只能確定大於或小於的關係。如3>2，2>1，則3>1的關係。不能確定甲等的3比丙等的1大多少個相等的單位。

因為3與2和2與1之間的差距是不相等的。不能進行四則運算。它們所適用的統計方法：

中位數、百分位數、等級相關係數。肯德爾和諧係數（多列等級相關），以及符號檢驗，秩次檢驗、秩次方差分析（3-2 2-1）。

3．等距量表——等距資料

有相等單位和人定參照點德測量資料，不僅具有區分性、等級性，還具有等距性。例如9℃與6℃之差=6℃與3℃之差。但是參照點（零點），而是人定德零點，0℃並不意味著沒有溫度。

鐘錶上的0點，並不意味著沒有時間。同樣，並不意味著9℃是3℃的3倍。這類資料只能作加減運算，不能作乘除運算。

適用的統計方法有平均數，標準差、積差相關係數的n級z、t、f檢驗等。

4．比率量表——比率資料

這是最高水平的測量。有相等單位和絕對零點的資料，不僅具有區分性、等級性、等距性，還具有等比性。具有絕對零點。

所謂絕對零點，就是量表上稱表0的地方，表示所要測量的屬性是無。這類資料既可以確定乙個事物比另乙個事物大多少，又可以確定大多少倍。因此，資料可以進行四則運算。

例如長度、身高、重量等。它所運用的統計方法。除了等距資料所運用的統計方法外，還可以計算幾何平均數和差異係數。

注：一般而言，學生知識、技能的測驗分數多屬於等級資料。因為測驗分數之間只能表明哪個大，哪個小，不能表明大多少，小多少。

例如，一次數學測驗的平均分為70分。在這裡，60分與70分之間和90分與100分之間，雖然都差10分。但是，它們的差異是不相等的。

眾所周知，90分與100分之差要比60分與70分之差難度大得多。已表明，測驗分數是不等距的。另外，測驗得零分的學生，並不意味著他在所測驗的知識、技能方面為零。

這表明，測驗分數不是絕對零點開始的。雖然測驗分數屬於等級資料，但我們通常把測驗分數作為等距量來處理。這是因為：

第一：在統計就上可以將總體呈正態分佈的測驗分數轉換成單位相等的標準分數。

第二：如果測驗編造得較好，特別是對於測驗結果的極端分數的微小差異可能反映著巨大差異的這一現象給予注意的情況下，就可以使本來屬於等級資料的分數，作為等距量表來處理所造成的誤差減少到最小程度。

第三：如果測驗的編制程式能使測驗分數接近等級資料，而且對測驗分數當作等距資料處理時所得到的結果也確實是有意義的。那麼，也就表明這種做法是可行的。

第二章測驗資料的處理與解釋

§2.1 測驗分數的解釋

當我們用乙個信度效高，效度經過檢定合格的測驗，對乙個學生施測後，就獲得乙個測驗分數。對這個測驗分數應當如何解釋，便是這一章所要論述的問題。

一、測驗分數與所測量的屬性

當我們用測驗來測量人的某種心理屬性時，總是假定：測驗分數的單位是相等的；測驗分數相同的增量反映著心理屬性的同等增量。因為，這樣的假定對於統計運算的使用是不可缺少的。

但是，由於人的心理屬性只能通過其行為反應進行間接測量，而且人的行為反應常因多種因素的影響而容易發生變化。也就是說，測量的誤差較大。因此，對於人類心理屬性的測量很少有絕對的測度。

即使以時間、空間或能力作為單位的測量分數，它們的相同增量也很難代表著相同的心理增量。

例如，用乙個、十幾個題目組成的數學測驗，對甲、乙兩個學生施測，如果甲生全部答對，得100分，而乙生全部答錯得0分。這時，甲生的100分和乙生的0分，只能分別表示他們在這個特定的測驗上所表現出的能力，並不能代表甲、乙兩個學生學習數學的全部能力。因此，我們不能根據這兩個測驗分數就作出關於甲生對於數學知識、能力全部掌握，而乙生對於數學知識、能力全部沒有掌握的判斷。

因為，若用另一套測驗對他們施測，甲生就不一定得100分，而乙生也不一定得0分。假如在上述測驗中，甲生得100分，而乙生得50分，這也並不意味著甲生在數學方面知識和能力是乙生的兩倍。用理，甲生和乙生在同乙個測驗上獲得相同的分數，也不能判定他們兩人這方面的知識與能力是相同的。

甚至用同乙個測驗對同乙個學生先後施測兩次，可能由於在兩次測驗中學生的動機、情緒、態度、健康、睡眠、學習以及測驗環境的光線、氣壓、濕度和考試的指導語不同，所獲得的兩個測驗分數也不一定相同。

二、原始分數和匯出分數

根據測驗的記分標準，對被試的測驗結果所計算出的測驗分數稱為原始分數。

例如，乙個學生在數學測驗上獲得72分，這72分就是原始分數。

原始分數的本身意義甚高，因為僅從個別學生的原始分數，我們既無法了解他學習成績的好壞，知識能力的高低，也無法與其他學生相互比較。對於同乙個學生不同學科的原始分數。由於缺乏參照點和一定的單位。

因此，既不能相比較，也不能相加求和。

例如：某生期末考試成績：語文為69分，數學為86分，英語為90分。

根據這三門學科的分數。我們還是不能了解該生三門學科哪一門學科學得好。哪一門學得差。

即我們不能說，該生英語最好，數學次之，語文最差。為了使原始分數本身具有意義，使不同測驗得分數可以相互比較，就必須將原始分數轉化成匯出分數。所謂匯出分數，就是經過統計整理過的。

具有一定參照點和單位的，可以相互比較的分數。在教育測量中，常用的匯出分數，有百分等級，標準分數，年級等值分數，年齡等值分數等。

如果對乙個標準化的樣本施行某乙個測驗之後，將所獲得的原始分數以常模（平均數）為參照點轉模成某種匯出分數。並以等值表的形式將原始分數與匯出分數之間的對應值表示出來，這就是測驗量表。根據這種測驗量表，我們可以為某個學生的原始分數尋找到在這個測驗量表上的相對位量，以確定其測驗成績的優劣。

與上述的匯出分數相對應，常用的測驗量表有百分等級量表、標準分量表、年級和年齡量表等。

§2.2 測驗的種類

一、根據測量的屬性分類

1．智力測驗——主要目的在於測量智力的高低，它是最早發展起來的一種心理測驗，目前從出生到老年人都有不同年齡階段的智力測驗。

2．智力傾向測驗——主要目的在於發現被試的潛在能力。所謂潛在能力是指經教育或訓練以後，能夠發揮出來的能力。這類測驗在職業訓練或就業指導方面應用最為廣泛。

3．人格標準——主要目的是測量人的態度、情緒、興趣、品德、動機、意志、性格、美感等方面的行為。

數學教育測量與評價

教育測量與評價

教育測量與評價

教育測量與評價

相關推薦