核心素養是全球教育界關注的焦點問題,也是當下教育改革的風向標。然而,如何合理測評學科核心素養成為教育改革和發展的重要議題,學科核心素養的測評需加關注各種新型評價形式[1]。認知診斷測評作為一種新的教育測評范式,旨在將嚴格的心理測量標準與形成性評估的目標相結合[2]。通過知識鏈間的關系獲取更恰當的學習路徑和學習進階,更好地指導教學實踐。本研究采用認知診斷測評理論,試圖為核心素養的測評提供新的視角和方法。
一 認知診斷用于核心素養測評的可行性分析 1 核心素養的本質特征決定了它的可測性 可測性是素養測評的前提,素養的本質決定了素養的可測性,如素養是知識、技能、態度的超越和統整,是一整套可以被觀察、教授、習得和測量的行為[3]。素養是完成某一情境工作任務所必需的一系列行為模式,這些行為與績效表現密切相關[4]。核心素養具有可測量性,可加以評價,核心素養的表現水平可經過推測得知,呈現出一個連續體的狀態,代表構成要素的高低水平[5]??梢?,核心素養是在繼承“三維目標”的基礎上發展出來的、更具有統整性的概念,它不能脫離知識而存在,是通過知識積累、技能發展、態度養成而形成的綜合行為能力。如歐盟核心素養框架就是將行為導向的核心素養分解成知識、技能和態度三個方面來進行評價的[6]。這種可分解性,對核心素養的認知診斷測評起著至關重要的作用。 2 核心素養與認知診斷技術都具有內隱性 核心素養具有綜合性、內隱性、情境性和適應性等特點,難以直接觀察,必須將核心素養依附于具體行為,通過觀察外顯的行為表現來間接了解內隱的核心素養狀況。如歐盟國家核心素養評價的一種思路是將核心素養轉換為可觀察的外顯行為,對核心素養開展評價[7]。認知診斷測評作為新型的測評手段,是高級潛變量模型,主要解決通過傳統測評無法測量的內部能力問題。利用認知診斷測評技術來測量學生的核心素養,可以較好地將核心素養內隱的特征外顯化,讓核心素養的測評從模糊狀態轉為清晰,為了解核心素養的內部特征及其結構化特點提供新視角。 3 認知診斷測評使素養測評更加可操作 認知診斷需要將核心素養所代表的行為能力分析成認知屬性,進而通過現代心理學和測量學的手段對核心素養的內部結構、認知規律及其在細粒度上的表現做出全面的診斷和評價。認知診斷測評不僅注重學生個性化的評價,而且關注群體的學習路徑和學習進階等整體狀態。因此,核心素養的認知診斷測評成為了評價學生學業成就、考量課標教材合理性、指導教學有效有序開展的依據。此外,認知診斷測評讓核心素養的計算機自適應測評也成為可能,如美國計算機自適應測驗已經以不同形式存在于州立K-12教育測評中[8]。核心素養的認知診斷測評更加具體,師生對核心素養的理解更加深刻,使得有針對性地培養學生核心素養有了可操作的依據。 二 核心素養測評的認知診斷體系建構 1 理論假設與基礎論證 核心素養的屬性層次界定是核心素養認知診斷測評的基石,它直接影響認知診斷測評的質量。屬性層次既要符合學科邏輯思維,又要遵循學生認知規律——這就要求屬性層次建構者在學科理解的基礎上,充分了解學生的認知規律,既要有豐富的學科經驗,又要有大量的學生知識。Leighton等[9]認為,目前認知診斷屬性在達到評估和診斷目的方面存在困難。為解決這一困難,國際上較為成熟的辦法是聯合學科專家、心理測評專家和一線教師,來開發認知診斷屬性層次。此外,還可以采用心理研究的方法來構建適合認知診斷的屬性層次,如口語報告法、眼動研究技術等。屬性的細粒度直接影響結果的解析深度,由于測評目的不同,其屬性的劃分也存在差異。但從數據的復雜性角度來考慮,一般屬性個數以6~9個為宜。若某一核心素養的屬性有6個,那么可能的屬性類型有以下5種[10],如圖1所示。 圖1 屬性層次關系的基本類型 2 認知診斷測評編制 在認知診斷測評編制中,Q矩陣起到了結構化統領的作用。Q矩陣理論將被試不可觀察的認知狀態轉化為在項目上可觀察的作答模式,以此來分析和推測被試的認知狀態[11]。以圖1中的C類分支型為例,用1表示考查該屬性,0表示不考察。這樣,一道試題總計可能的考查模式應有26個。本研究在圖1中C類屬性層次關系的限制下,計算出理想測量模式,如表1所示。 表1 C類分支型的理想測量模式屬性考查分布 在表1的理想測量模式中,排除學生做題過程中的猜測與忽視情況,可以推導出屬性掌握模式及其對應的理想反應模式,如表2所示。 表2 C類分支型屬性的掌握模式及其對應的理想反應模式 在表2中,屬性掌握模式(100100)表明學生只掌握了第一個和第四個屬性——在這種掌握模式下,排除猜測和忽視情況,學生只能夠做對T1、T4、T12、T15測試題。 3 認知診斷模型選擇與應用 認知診斷測評依據不同的測評條件開發出了多種模型。以RSM為例,該模型為了將測量得到的多維度數據降到二維空間進行分類,構建了一組序偶(θ,ζ),規則空間是以(θ,ζ)為參數的分類笛卡爾乘積二維空間。其中,θ表示項目反應理論中計算出的被試的能力值,ζ表示警戒指標,即能力為θ的被試實際反應模式偏離理想反應模式的程度[12]。因此,可以依據理想反應模式計算出標準的規則點(純規則點)(θRi,ζRi)和實際反應模式(θXi,ζXi)。定義ζ的值如公式(1)所示。其中,P(θ)=[P1(θ), P2(θ),…,Pi(θ)](i=1 ,2, 3, …, n),Pi(θ)指能力為θ的被試在第i個項目上作答正確的概率。 公式(1) 雙參數評估中P(θ)的計算如公式(2)所示,其中ai, bi指第i個項目的區分度和難度,D一般取常值1.7。T(θ)指正確回答項目概率的均值向量,其計算如公式(3)所示,其中t1(θ)的計算如公式(4)所示。 依據以上規則空間模型,計算出純規則點(θRi,ζRi)和實際反應模式(θXi,ζXi),一般采用馬氏距離判別法或貝葉斯方法,按照純規則點將被試分到不同的理想反應模式中,即可達到對被試進行分類診斷的目的[14]。 4 結果分析與診斷報告 認知診斷測評了解學生在多維、細粒度的潛在認知屬性上的差異,充分體現了學生診斷性、個性化的形成性評估特點;同時,也可以通過知識鏈間的關系獲取更恰當的學習路徑和學習進階,關注統整性的終結性評估。認知診斷測評模型的本質,就是通過心理測量學手段,按照實際反應模式和理想反應模式匹配的最大概率,將被試劃歸到不同的理想掌握模式中,進而依據被試在理想掌握模式所處的狀態對被試進行有針對性的屬性掌握策略與方法的補救。除此之外,認知診斷測評還可以獲得學生核心素養的學習進階。學習進階作為學生學習某一領域知識的認知過程和發展順序,涉及對發展學生相關認知活動的描述,對整個教育教學有奠基作用,也可為國家課程標準的修訂、教材的編寫、教學順序的安排以及學生學習效果的測評提供基礎性的理論支持。 三 核心素養的認知診斷測評的案例分析 認知診斷中屬性建構是整個測評的基礎。本研究以數感為例進行案例分析,將數感分為9個認知屬性[15]——A1:理解整數的基本含義;A2:理解分數和小數的基本含義;A3:數字的多元化表示;A4:理解整數的相對和絕對大??;A5:理解分數的相對和絕對大??;A6:整數運算;A7:分數、小數的簡單運算;A8:分數、小數的復雜運算;A9:整數的應用。數感的認知診斷屬性模型如圖2所示。按照理想測量模式對屬性考查的要求形成了測評工具,其部分測試樣題如表3所示。 圖2 數感的認知診斷屬性模型 表3 數感認知診斷測試樣題(部分) 本研究依據規則空間模型建立的序偶[(θ,ζ)]規則,計算出純規則點(θXi,ζXi);依據被試測量的實際數據,計算出實際反應模式對應的序偶(θXi,ζXi);使用馬氏距離衡量學生實際反應模式的點與理想反應模式的純規則點之間的距離,其主要的能力值θ和對應的掌握模式如表4所示[16]。 表4 數感的認知診斷分類結果 表4顯示,三年級學生主要掌握了A1、A2、A3、A4和A6屬性,并且這些掌握模式對應的能力值相對較低。四年級學生進一步掌握了A5和A9屬性,并且對應的能力值也有所增加。五年級學生幾乎掌握了所有的屬性,并且在θ=5.48、θ=3.62等高能力的掌握模式上占據較大的比例。針對不同水平的學生,可以制定個性化的補救方案,如對于只掌握A1和A2的學生,補救途徑可以是A3→A4→A5→A6→A9→A7→A8或A4→A6→A9→A3→A5→A7→A8。在第一種補救方法中,學生首先了解數字的大小,然后掌握整數的運算和應用,最后掌握分數和小數的運算;而在第二種補救方法中,學生首先提高對整數的數感,然后提高對分數和小數的數感。 四 啟示與討論 1 啟示 (1)認知診斷測評使核心素養的測評從理念性的描述轉化為實踐性的操作 到目前為止,學習測評的觀念發生了兩次重要改變:第一次是由“對學習的評價”到“為了學習的評價”;第二次是從“為了學習的評價”到“評價是學習的一種方式”[17]。評價理念的變化,要求核心素養的評價要突出學生本身在學習中的主體地位和作用,能夠制定個性化的評價方案和策略。然而,現有核心素養的評價標準僅停留在對認知水平的描述階段,是一種表現性的標準,這種標準是學生被劃入相應類別所需的特定表現(包括知識、技能和能力等)的最低水平描述[18],其評價的結果主觀性太強,故難以提出可操作的培養措施和補救措施。核心素養的認知診斷測評將評價的目標整合到測評體系中,依據學生行為能力表現推測學生素養水平,可實現通過外在表現推測內隱特征的目的。這種評價將學生的素養水平按照不同的理想掌握模式進行細分,并給每種掌握模式制定了個性化的補救方案??梢?,認知診斷測評技術可將籠統的核心素養評價更加清晰化,為核心素養評價并通過評價促進核心素養的培育起到了重要作用。 (2)核心素養的認知診斷測評兼具形成性評估和終結性評估的特點 核心素養是一個人在某個方面的關鍵能力和重要品質,具有高度的抽象性和綜合性,因此其評價需要關注整合性,不宜碎片化。但是,由于核心素養的內隱性和綜合性特征,在如何評價、培養學生的核心素養方面存在很大困難,因此核心素養的評價還需要進行形成性評估。如PIAS中核心素養的評價既能夠通過作答反映學生在思維品質上的差異,也可關注學生的個性化發展和創造性表現,有利于對學生進行個性化診斷[19]。核心素養的認知診斷測評可以得到每一個學生的診斷報告,發現學生在學習中存在的問題,以及在全體學生中所處的水平,從而有針對性地提出補救的方案和路徑。在終結性評估方面,通過測評可以得到核心素養的學習進階,進一步為培養核心素養提供合理的路徑和策略。學習進階是修訂課程標準、編寫教材、進行教學與學習評價的重要基礎,為整個教育教學的發展提供了有效支持。認知診斷精細的過程性、個性化測評特點,為核心素養的測評提供了抓手;認知診斷對整個認知規律和學習進階的把握,則為核心素養的測評指明了發展方向。 (3)認知診斷測評為核心素養的計算機自適應測評奠定了基礎 學習測評發展的趨勢是走向計算機自動化?!盎ヂ摼W+”時代的到來,給信息、通訊和技術(ICT)在學習測評中的應用提供了巨大的發展空間。美國的ICT測評技術已經開啟了從“明確考試的范式”到“嵌入式評價范式”的轉變。在“明確考試的范式”中,測評強調精準測查學生的學業表現;在“嵌入式評價范式”中,測評強調有針對性的及時反饋[20]??梢?,學習測評技術的自適應性具有傳統測評所缺乏的眾多優點,核心素養測評走向計算機自適應化是測評發展的必然趨勢。目前,PISA和NAP-SL測試都已全部使用計算機自適應測評進行學業測評。而認知診斷理論作為計算機自適應測評的重要理論,為計算機自適應測評起到了基礎性的支撐作用。核心素養的認知診斷測評,也為核心素養的計算機自適應測評提供了前提條件?,F有的學習測評分析工具可通過學生的在線學習和測評,將結果以可視化的形式呈現給學生,幫助學生分析學習過程中存在的問題,促進反思,調整學習策略夫[21]。未來核心素養測評可以通過數字化工具和大數據、云計算等技術,將心理測量模型和具體的學科核心素養無縫嵌入到學生的學習和測評過程中,對學生的學習過程進行動態監測,以促進學生更好地學習[22]。 2 討論 無論是個性化的學生特征分析、綜合性的學習進階制定,還是計算機自適應測評的理論準備,核心素養的認知診斷測評都具有明顯的優勢。與此同時,核心素養的認知診斷測評也存在有待改進的空間:①認知診斷測評理論強調的是對核心素養的具體化。由于核心素養的抽象性和內隱性,“個體所具備的核心素養及其水平,必須借助于他們在具體任務中的實際表現加以推測”[23]。但核心素養的具體化并不意味著測評只關注局部而不考慮整體,更不可將評價碎片化,應該在具體與抽象之間保持“精妙的平衡”[24]。②認知診斷的測評基本上都是以0或1的二元狀態評分,這使得測評試題的編制有較大的局限。核心素養的測評關注課程學習的“真實性學業成就”,而真實性學業成就不只是習得事實性的學科知識和概念,而是能夠運用這些知識或概念解決復雜的現實性問題[25],因此核心素養需要有一定情境化、整合性和開放性的評價任務——當然,隨著認知診斷測評的多級評分模式的成熟,這一問題可能會得到較好的解決。此外,認知診斷測評對技術的要求較高,故在測評的廣泛普及方面會受較多的限制,這就需要專業人員開發具有普適性的核心素養的認知診斷測試平臺,為更多人員參與測評提供技術服務。