教育測量與評價講稿

2021-06-20 11:23:55 字數 4922 閱讀 5845

第二章測驗資料的處理與解釋

§2.1 測驗分數的解釋

當我們用乙個信度效高,效度經過檢定合格的測驗,對乙個學生施測後,就獲得乙個測驗分數。對這個測驗分數應當如何解釋,便是這一章所要論述的問題。

一、測驗分數與所測量的屬性

當我們用測驗來測量人的某種心理屬性時,總是假定:測驗分數的單位是相等的;測驗分數相同的增量反映著心理屬性的同等增量。因為,這樣的假定對於統計運算的使用是不可缺少的。

但是,由於人的心理屬性只能通過其行為反應進行間接測量,而且人的行為反應常因多種因素的影響而容易發生變化。也就是說,測量的誤差較大。因此,對於人類心理屬性的測量很少有絕對的測度。

即使以時間、空間或能力作為單位的測量分數,它們的相同增量也很難代表著相同的心理增量。

例如,用乙個、十幾個題目組成的數學測驗,對甲、乙兩個學生施測,如果甲生全部答對,得100分,而乙生全部答錯得0分。這時,甲生的100分和乙生的0分,只能分別表示他們在這個特定的測驗上所表現出的能力,並不能代表甲、乙兩個學生學習數學的全部能力。因此,我們不能根據這兩個測驗分數就作出關於甲生對於數學知識、能力全部掌握,而乙生對於數學知識、能力全部沒有掌握的判斷。

因為,若用另一套測驗對他們施測,甲生就不一定得100分,而乙生也不一定得0分。假如在上述測驗中,甲生得100分,而乙生得50分,這也並不意味著甲生在數學方面知識和能力是乙生的兩倍。用理,甲生和乙生在同乙個測驗上獲得相同的分數,也不能判定他們兩人這方面的知識與能力是相同的。

甚至用同乙個測驗對同乙個學生先後施測兩次,可能由於在兩次測驗中學生的動機、情緒、態度、健康、睡眠、學習以及測驗環境的光線、氣壓、濕度和考試的指導語不同,所獲得的兩個測驗分數也不一定相同。

二、原始分數和匯出分數

根據測驗的記分標準,對被試的測驗結果所計算出的測驗分數稱為原始分數。

例如,乙個學生在數學測驗上獲得72分,這72分就是原始分數。

原始分數的本身意義甚高,因為僅從個別學生的原始分數,我們既無法了解他學習成績的好壞,知識能力的高低,也無法與其他學生相互比較。對於同乙個學生不同學科的原始分數。由於缺乏參照點和一定的單位。

因此,既不能相比較,也不能相加求和。

例如:某生期末考試成績:語文為69分,數學為86分,英語為90分。

根據這三門學科的分數。我們還是不能了解該生三門學科哪一門學科學得好。哪一門學得差。

即我們不能說,該生英語最好,數學次之,語文最差。為了使原始分數本身具有意義,使不同測驗得分數可以相互比較,就必須將原始分數轉化成匯出分數。所謂匯出分數,就是經過統計整理過的。

具有一定參照點和單位的,可以相互比較的分數。在教育測量中,常用的匯出分數,有百分等級,標準分數,年級等值分數,年齡等值分數等。

如果對乙個標準化的樣本施行某乙個測驗之後,將所獲得的原始分數以常模(平均數)為參照點轉模成某種匯出分數。並以等值表的形式將原始分數與匯出分數之間的對應值表示出來,這就是測驗量表。根據這種測驗量表,我們可以為某個學生的原始分數尋找到在這個測驗量表上的相對位量,以確定其測驗成績的優劣。

與上述的匯出分數相對應,常用的測驗量表有百分等級量表、標準分量表、年級和年齡量表等。

§2.2 測驗的種類

一、 根據測量的屬性分類

1.智力測驗——主要目的在於測量智力的高低,它是最早發展起來的一種心理測驗,目前從出生到老年人都有不同年齡階段的智力測驗。

2.智力傾向測驗——主要目的在於發現被試的潛在能力。所謂潛在能力是指經教育或訓練以後,能夠發揮出來的能力。這類測驗在職業訓練或就業指導方面應用最為廣泛。

3.人格標準——主要目的是測量人的態度、情緒、興趣、品德、動機、意志、性格、美感等方面的行為。

4.教育測驗—目的在於測量學生某些學科經過教育,訓練之後所獲得的知識、技能。

二、 根據測驗的標準化程度分類

1.標準化測驗

它是由測驗專家精心周密編制的。測題根據試訓的結果客觀的篩選,測驗經過客觀地評價,應具有較高的信度和效度。測驗的手續——指導語,評分標準,環境布置,測驗時限,分數的解釋等都有詳細明確的規定。

必須嚴格遵守,不得隨意更改。它一般以大量測驗結果為基礎,求出常模,建立測量驗量表。

2.教師自編測驗

教師自編測驗的客觀性和標準化程度不如標準化測驗。例如,測驗的編制不如標準化測驗那樣精心周密,一般不進行試測,不求信度,效度和常模。測驗的記分也不那麼嚴格。

優點:它與教師日常的數學工作息息相關,使用頻繁,它可在乙個數學單位的中途和結束,或期中和期末,就較短時間的學習內容施行測驗,隨時了解學生的學習情況,及時地改進教學。測驗內容與教材內容,教學目標,教學進度完全相一致;測驗的難易程度適合學生的水平;對於學生經常發生的錯誤針對性強;教師自己編制測驗可省時、省力、靈活、方便教師自編測驗的標準化程度雖然不如標準化測驗,但編制的原則和程度與標準化測驗基本一致,而且教師自編測驗有時也可以使用標準化測驗的有關內容。

三、 根據記分標準分類

1.常模參考性測驗

常模參考性測驗是以被測團體的常模(平均數)為參照標準來衡量個體成績的測驗。其評分基準在測驗以後,產生於被測團體之內,它是以個體在團體中所處的位置來解釋個人成績的優劣。一般用百分等級和標準分數等相對分數來表示。

例如,某生數學成績為第70百分等級,這表明在團體中有70%的人在他之下。

該測驗的主要功能是區分學生的個別差異的相對水平,常用於選拔性和競賽性活動。以及能力分組方面。測驗編制所基於的假設是:

團體測驗成績呈正態分佈,要求組成測驗的題目,大多數為中等難度,少數為較難,較易的題目,即難度呈正態分佈。

2.目標參考性測驗

它是以預定的目標(大綱)為參考標準來衡量測驗成績的測驗。其評分基準是在測驗之前,建立在被測團體之外,個體的成績只需與既定的目標相比較,不必與團體重的他人相比較就可以確定其優劣。一般用合格與不合格、達標與未達標來表示。

主要功能:確定被試達到目標的程度,多用於合格性,達標性活動。如學校中的期中、期末、畢業證書考試、執照考試。

優點:除了甄選之外,在教學中既可以確定學生知識、技能達到目標的實際水平,又可以判斷學習中的困難,有助於提高學生學習的目的性,並為教師的教學及時地提供反饋資訊。

其他分類:根據測驗功能分類略、

受測人數分類

四、 常模與標準

常摸是某年級、某年齡或具有某種共同特徵地被試團體,在某一測驗上實際達到地平均水平。而標準是某年級、某年齡或具有某種共同特徵地被試團體、在某一測驗上應達到的水平。

常模是乙個相對的數量,而不是一種絕對的永久性的固定不變的標準。常模隨著時間和空間的不同而變化。例如,由於時代的進步,科學技術的發展,教育的改革,師資的提高,裝置的完善,學生學習水平也隨之提高。

十年前求得的常模不一定能適用於沿海各省的常模,不一定適用於內地各省。就是在同一地區,不同型別的學校,所求得的常模也不見得相同。

常模和標準雖然不同,但是,從某種意義上來說,常模起著標準的作用。因為常模為了個別被試的測驗分數提供了比較的基礎,如果乙個學生某科測驗成績在常模以上,很少有人認為他的學習成績是差的,反之,在常模之下,也很少有人認為他的學習成績是好的。

常模是根據標準化樣本的測驗分數經過統計處理而建立起來的。所謂標準化樣本就是對於使用該測驗的總體具有代表性的那部分個體。在建立常模時,由於人力、物力、時間和經濟條件的限制,不大可能將總體中的每乙個個體一一施行測驗。

往往是從總體中按照一定的方式抽取相當數量的個體施於測驗。然後用這些測驗分數所建立起來的常模作為比較的尺度來解釋該總體中某個個體測驗分數的優劣。而該常模是否能用來解釋該總體中的測驗分數,那就取決於標準化樣本對總體的代表性程度。

1. 合理的抽樣方法——分層隨機抽樣

2. 較大的樣本容量——但分數的差異性較大

§2.3 百分等級量表

一、百分等級量表的意義

百分等級量表是以標準化樣本測驗分數的中位數為參照點,以百分等級(百分位)為單位的測量表。它將同一年級或同一年齡組的被試,在某個測驗上所得的分數分成100個等級。每個百分等級表示其相應的測驗分數在該年級被試中所佔的地位。

即低於這個分數的人數百分比。

例如,某年級數學測驗最高分為92分,其百分等級為100;最低分為40分,其百分等級為0,在40~92分之間分成100個等級。如果其中甲生測驗分數為54分,他處於第10個百分等級,這表明有10%的學生測驗分數比他差,而有90%的學生測驗分數比他好。因此,百分等級實際上是乙個地位量數。

與百分等級相對應的原始分數稱為該百分等級的百分位數,如上例的第10百分位數為54分,可表示p10=54;若根據標準化樣本的測驗分數計算出各相應的百分位數。也就是說,建立百分等級與原始分數的等值對照表。即為百分等級量表。

二、百分等級量表的編制方法

1. 用原始分數直接計算其百分等級的方法

在使用計算機的條件下,可直接計算每乙個可能的原始分數的百分等級,來建立百分等級量表。

例1.初二50個學生數學測驗分數為例,說明計算各原始分數百分等級的步驟與方法。

初二50個學生數學測驗分數為例,說明計算各原始分數百分等級的步驟為方法

85 70 67 50 87 70 68 52 53 67

72 86 89 71 42 74 60 45 83 73

62 48 82 64 72 82 79 74 61 71

81 84 96 75 65 55 57 66 77 91

76 68 58 60 69 70 94 79 67 57

1 所有分數找最大值、最小值:96、42。從41按班順序從小到大排至97。(公差學生沒有獲得的分數)

2 計算各原始分數的步驟

3 從下至上計算各分數的累積頻數

4 計算各分數中點的累積頻數——該分數頻數的一半加上小於該分數的頻數總和,或者,某乙個分數中點的累積頻數,就等於該分數頻數的+小於該分數的累積頻數。

5 計算各分數中點的百分等級——將各分數中點的累積頻數除以總頻數,再乘100。

分數頻數累積頻數中點累積頻數百分等級

教育測量與評價

摘要 隨著改革開放以及各項措施的不斷開展實施,中國經濟得到了長足發展,在經濟發展 人民生活水平得到改善提高的情況下,國家逐漸加強了對教育的投入力度,改革開放以來,教育事業進入快速發展時期,義務 高等 職業等教育方式都得到迅速發展。但是在教育事業取得巨大成功的同時,我們更應該看到教育事業發展過程中暴露...

教育測量與評價

我國現行的高考制度雖然在逐步進行改革,但仍存在許多弊端,如 仍是一種強調學業成績的終結性評價,主要形式仍是紙筆測驗,而缺乏表現性及展示評價,忽視對學生素質的綜合表現評價 現行高等院校招生錄取,幾乎以高考分數為唯一標準,唯高分是錄,思想品德 心理素質 社會能力 創新精神等其他因素難以掌握 高校錄取學生...

教育測量與評價

卷一一 單選題 共30題,每題1分 a 1 有大小關係和相等的單位,可進行加減運算,不能乘除運算的量表屬於 a 等距量表 b順序量表 c等比量表 d命名量表 b 2 教育評價大發展時期,實證化傾向佔主要地位,其中典型的是 a 形成性評價 b 系統分析模式 c 比較性評價 d 目標本身的評價 3 如果...