第七章教育測驗與評價

第一節教育測驗

一、教育測驗的概念

(一)概念界說

測量是給事物的某種屬性給定數值的過程，回答了「有多少」的問題。教育測量包括了從身體身體素質到興趣態度等多個方面。

測驗是對於知識水平、情意狀態、運動技能等的數量化測定，有廣義和狹義之分。狹義的測驗僅指乙份測驗卷子，而廣義的測驗指編制試題、施測、評分到報告成績的全過程。在教育領域，測驗只是測量的一種形式，主要用來測量學生的學業成績和心理特點。

如果說測量回答了「有多少」的問題，只考察量的大小，測驗則回答了「某個人做的怎麼樣」的問題，包含了對測驗結果的解釋和評判。

規範的考試是教師在教學過程中編制試題、評定學生學業成績的過程，如期中、期末考試。它與測驗的區別有兩種看法。第一種是從教育測量學中引出，認為測驗更為規範，從試題編制、實施測驗測驗到評分過程都有嚴格的程式，而考試則是教師可自行安排，相對靈活，技術要求不高的測驗形式。

另一種觀點與第一種正好相反，認為測驗比較隨意，而考試則較為正式。本書主要採用第一種觀點。

評價是對某種教育活動的價值判斷。評價包含定性描述或價值判斷，更多的時候是兩者兼而有之。

(二)測驗的功能

測驗具有以下功能：(1)激勵功能；(2)診斷功能。診斷性測驗主要考察兩個方面，乙個是看基礎打得好不好，可否滿足學習某種新知識的需要，另乙個是看理解和掌握上有什麼錯誤及其原因所在，它為教學提供了豐富的反饋資訊，使教師能及時調整教學；(3)區分和選拔功能。

公升學考試就體現了測驗的選拔功能，如高考；(4)評定功能。

二、測驗的型別

從測驗目的上考慮，可以分成安置性測驗、形成性測驗、診斷性測驗和總結性測驗。從測驗內容上考慮，可以分成成就測驗和學能測驗。從規範程度上區分，可以分成標準化測驗和教師自編測驗。

從結果解釋所參照的標準區分，又可以分成常模參照性測驗和標準參照性測驗。

(一)安置性測驗、形成性測驗、診斷性測驗和總結性測驗

安置性測驗的根本目的是分班、分組。安置性測驗涉及的範圍比較窄，難度也比較低。

形成性測驗針對某一教學單元而設計，在教學過程中進行，其目的不在於評定學生，而是為了調控教學。

診斷性測驗能夠反映學習中常見的錯誤，診斷學習困難，特別是找到困難的成因。診斷性測驗的目的是發現問題，評分不作為正式成績。

總結性測驗用於對學生學習情況的階段性總結分析。在乙個段落或一門課結束後，教師會編制一套試題，全面考察學生的掌握情況。現行小學學科測驗多採用閉卷形式，有時候也要求學生完成實踐性課題。

(二)標準化測驗和教師自編測驗

標準化測驗在試題編制、施測和評分過程中有著嚴格的規範。標準化測驗是由測驗專家和教師共同編制的，試題質量較有保障。最典型的標準化測驗是智力測驗，如「比奈智力量表」。

教師自編測驗是教師自己編制的測驗，是在教學過程中針對教學實際引用現代測驗原理編制的。教師自編測驗針對性、靈活性強，能反映實際教學中遇到的特殊問題。

(三)成就測驗和學能測驗

成就測驗是對學生學業成績的檢查，常結合具體學科而設。學校平時的課堂測驗，期中、期末考試等，都是成就測驗。

學能測驗，又稱學能傾向測驗，它考察學生在課程學習中所獲得的能力，與學業成就有較大關係。學能測驗不侷限於某門課程，關心各門課程都需要具有一般能力，主要包括文字推理測驗和數字推理能力測驗。學能測驗一般在小學畢業前進行，能在一定程度上**學生的發展潛力。

學能測驗與成就測驗的區別在於，成就測驗針對具體的教學內容而定，著重考察知識的掌握情況；而學能測驗的測驗內容比較寬泛，側重於能力考察。

(四)常模參照性測驗和標準參照性測驗

常模參照性測驗是按照在特定群體中的相對位置決定成績的好壞。選拔性考試一般是典型的常模參照性測驗，如高考。常模參照性測驗要在所定教學內容中，選出一些能區分出學生水平的題目，它不一定要面面俱到，但應該能拉開分數距離。

題目難度以中等為宜，特別難和特別簡單的題目要少一些。

標準參照性測驗是考察是否達到了預先規定的標準，類似於各種執照考試，如駕駛執照考試。這種測驗只關注考生是否達到了應該達到了應該達到的水平，而不去管別的考生怎麼樣。確定「合格」或「掌握」的標準是標準參照性測驗能否取得成功的關鍵。

標準參照測驗往往是針對某幾個特殊的知識點而設計，題目覆蓋面廣，並盡可能把所學的重要知識都反映出來。標準參照性測驗不去刻意拉開學生間的距離，題目該難就難，該易就易，完全隨知識點的要求而定。

常模參照性測驗和標準參照性測驗的區別是：前者著重同學間的比較，後者關心有沒有達到預定的學習目標。常模參照性測驗適用於選拔性考試和總結性評定；而標準參照性測驗適用於診斷和發現學生的不足，從而為改進教學提供反饋資訊。

三、良好測驗的標準

好的測驗都應當符合一定的要求，通常用實用性、信度、效度、難度和區分度等指標衡量測驗質量。

1．實用性

實用性反映了試題的基本質量，其基本要求是便於組織，便於實施，節時省力。(便於組織。(2)測驗便於實施。(3)容易評分。(4)結果要容易解釋。

2．可信度

可信度又稱信度，指測驗結果的前後一致程度，表示了分數的穩定性和可靠性。具體要求是，先後兩次用同樣的試卷測查同一批學生，則兩次測驗的分數應該比較相近；對同樣的答卷組織兩次評分，評分結果相近。如果上述評分結果相差懸殊，就表示可信度很低。

評分的客觀性常用評分者信度來說明。

3．有效性

有效性在測量學上也稱為測驗的效度，指乙個測驗能測到預先想測的知識和能力的程度。估計測驗效度的方法主要有兩種：(1)內容效度，反映了題目對所考察內容的代表性問題。

(2)效標關聯效度，反映了測驗分數和所選擇的效標分數之間的一致程度。和信度相比，測驗的效度更為重要。因為效度高的測驗信度一定高。

4．難度

難度即測驗的程度，提供了試題平均通過率的資訊。乙份試卷的難度取決於每一道題的難度。難度用全體被試在某題的得分率(p)表示。

如果全部通過，難度為1；如果誰都沒有通過，難度為0。難度值在0到1之間，難度值越大，表示題目越容易。高分段人數少，低分段的人數多，表示難度較高。

高分段的人數多，低分段的人數少，表示難度較低。難度中等時，最容易拉開考生間的檔次。不同的測驗對難度有不同的要求，如選拔性考試難度以中等為宜，否則很難篩選。

一般來說，某一道試題答對的學生少於20%時便是過深，答對的多於80%時則是偏淺。

5．區分度

區分度是測驗能否拉開分數距離的指標。試題的區分度也稱為鑑別力，表示某道題目能夠將不同程度的學生鑑別開來的能力。試題難度直接影響區分度，特別難的題目大家都不會做，特別容易的題目大家都會做，這兩種題目區分度都很低。

反之，中等難度的試題的區分度比較高，難度為0.5的題目，區分度最大。

四、測驗的編制和實施

(一)確定試題內容

在選擇試題內容時，應設計測驗藍圖。測驗藍圖包括確定測驗目的、測驗內容以及編制雙向細目表等內容。(1)確定知識點。

(2)確定認知水平。(3)設計雙向細目表。雙向細目表是由教學內容和教學目標構成的的。

(二)選擇試題型別

課堂測驗的題型有客觀題和**題兩種。客觀題包括填空、判斷正誤和多項選擇等題型。**題包括簡答題和論述題。因為客觀題和**題各具優缺點，所以搭配使用效果最佳。

(三)評分

計分方法可分為等級分和百分制兩類。等級分在中國隋唐一代就廣為使用，百分制則是20世紀初教育測量學的發展產物。等級制的計分方法除五分制和a、b、c、d、e外，還有許多變形。

使用等級分的好處是避免了在同一分數等級上同學間的攀比，會減輕過分的分數競爭。但缺點在於，等級分比較粗略，不容易反映個體間細微的差別，評分尺度也較難把握。在評分時，教師要注意到自己對學生的看法可能會影響到評分過程。

和百分制相比，等級制能避免「分分計較」的學習心理，減輕學生的考試負擔。

(四)測驗分數的解釋

分數只有經過解釋具有實際意義。解釋分數時，既可以和其他同學的學習表現相比較，也可以和考核標準相對照。分數的意義是在比較中獲得的。

如同樣考85分的兩個同學，其分數值雖然相同，但反映出的水平和存在的問題並不完全相同。

第二節中小學教育評價

一、中小學教育評價概述

最早的有組織的教育評價可以回溯到中國的科舉考試。西方直到19世紀末期才開始實行正規的教育評價活動，早期評價研究主要集中在美國。賴斯的拼寫測驗是經典的評價研究，這項研究是在2023年到2023年的十年間在美國全面開展的。

20世紀初，教育評價和教育測驗發展很快，此期最有影響力的桑代克被稱為現代教育測驗之父。到了20世紀30年代，這一時期研究成為教育評價的里程碑。20世紀50年代，布魯姆建立了教育目標分類學。

直到現在，布魯姆的教育目標分類學仍然是測驗的重要指標體系。如果說測量給定了量的大小，評價則體現了價值判斷的過程。評價是一種較主觀的活動。

廣義的教育評價包括對於教育活動一切方面的評價，狹義的教育評價主要是對學生發展的評價，又稱為學生評定。廣義的評價較為籠統，狹義的評價關注教育效果而不看過程。

二、中小學教育評價的型別

從評價的嚴格程度上考慮，可以分成正式評價和非正式評價。從解釋評價結果的標準上考慮，可以分成相對評價和絕對評價。從評價的功能上區分，可以分成形成性評價和總結性評價。

(一)相對評價和絕對評價

對應於常模參照性測驗和標準參照性測驗，評價可分為相對評價和絕對評價。相對評價是在群體中進行對比，這時衡量標準是相對的，如「矮子裡拔高個」、「水漲船高」。絕對評價要和預定的標準相比較，只要達到了標準，就稱為合格，如某種資格認證考試。

(二)形成性評價和總結評價

對應於形成性測驗和總結性測驗，評價可分為形成性評價和總結性評價。形成性評價是指在活動過程中，以改進工作為目的而開展的評價。通過揭示問題和反饋資訊，這種評價對改進工作質量很有幫助。

總結性評價是對活動結果的評價，它的目的在於評判活動效果。形成性評價和總結性評價在評價技術上並沒有差別，只是實施過程不同。前者貫穿於活動的全過程，以改進工作為目標；後者要等到活動結束時才進行，目的是為了鑑定分等。

三、中小學教育評價的內容

在巨集觀範圍，教育評價涉及教育目標、教育結構、教育管理體制等方面。在中觀層面，包括教育隊伍、辦學條件、學校各項工作。微觀層面則關注學生的學習和發展。

在小學教育活動中，學生發展評定、教師授課質量評價、課程和教材評價是最主要的評價活動。此外，診斷學校中存在的特殊問題，評價教改實驗，評估學校的總體表現也較為常見。

(一)學生發展評定

學生發展是衡量學校辦學水平的關鍵指標。評定學生要考慮許多方面。最基本的有學業成就、行為表現和身體狀況三方面，即德育、智育和體育。

學業成就不僅包括學生在知識領域的學習成績，還包括技能和情意領域的學習表現。行為表現評價也就是操行評定，用以考察學生在道德品質和行為處事上的優點與不足。操作評定應考察學生在倫理道德、品德修養和性格特點三方面的特徵和表現。

身體狀況評價包括體質、體力、精力、衛生習慣和良好的生活方式等方面。

第七章教育測驗與評價

第七章油層改造與評價

第七章休息與活動

第七章小結與思考

第七章教育測驗與評價

第七章油層改造與評價

第七章休息與活動

第七章小結與思考

相關推薦