心理測量學范例6篇

前言：中文期刊網精心挑選了心理測量學范文供你參考和學習，希望我們的參考范文能激發你的文章創作靈感，歡迎閱讀。

心理測量學范文1

論文摘要：事件相關電位測謊是在對信息加工腦活動的電生理顯示的基礎上，通過直接讀取案件相關的腦電位變化，來判別被測人是否與案件有關的心理測試方式。文章從心理測量學的角度分析此種測試方式的科學性、客觀性并認為該測試方式的指標選擇具有代表性，可測性和可接受的信度和效度。

事件相關電位測謊是在對信息加工腦電活動的電生理顯示的基礎上，通過直接讀取案件相關的腦電位變化，即得到無法偽裝和隱藏的腦電位的波幅、波的正負極性、潛伏期等參量變化為檢測依據的結果。這些參量的變化更不易偽裝的原因在于，當人的大腦辨認出重要信息的時候，比如說嫌疑人所看見的圖片刺激，與存儲在他大腦中的犯罪細節部分相吻合時，大腦就會產生一種異常的腦電圖反應具體來說也就表現出異常的P300，只有嫌疑人參與到這個案件當中，并且知道關于犯罪案件過程的特定細節，才會異常P300波的出現。如果他沒有參與到案件中，不掌握有關的信息，記憶中就不會存儲案件相關信息，也就不會產生異常的P300波，所以根據被測人是否出現異常的P300波，就可以證明其是否與案件有關。但該測試結論能否作為訴訟證據使用一直存在諸多的爭議，其根源就在于測試的客觀性一直受到質疑，所以本文擬從心理測量學的角度來探討事件相關電位測謊的客觀性和科學性。

美國心理測量專家阿娜斯塔西給心理測量所下的定義被廣泛接受，即測驗是對行為樣本的客觀和標準化的測量。這個定義構成了心理測量的五個要素：行為樣本、標準化、難度的客觀測量、信度、效度。故本文將從這五個方面進行分析。

一、行為樣本分析(sample of behavior)

(一)事件相關電位測謊的行為樣本一P300

事件相關電位測試主要是通過播放圖片刺激來引發被試者與犯罪行為有關的多參量腦電圖反應并加以記錄，而記錄下來的多參量腦電圖即為事件相關電位測謊的行為樣本。而在測謊過程中的多參量腦電圖就是指靶與非靶刺激所引發的P300，它是一種重要的ERP成分，是指在被試者或檢查對象辨認“靶刺激”時在其頭皮記錄到的潛伏期約為300ms的最大晚期正向波，其主要測量指標是潛伏期(ms)和波幅(LV)。P300是記錄頭皮振幅分布的正向波，在顱頂骨處達到最高峰，在前額骨處達到最低峰值，取頂骨的中間值。從刺激開始，它的波峰有一個典型300—1000毫秒的潛伏期，并且這個潛伏期會隨著刺激加工時間的不同而有所不同，這通常是由刺激的復雜性決定的。在給出記錄位置的P300波的振幅或大小是和刺激呈現的頻率呈反比，也就是說越是小概率出現的刺激越容易誘發較明顯的P300，此外有意義的刺激也容易誘發明顯的P300。

(二)P300的可測性

P300作為事件相關電位測謊的行為樣本具有可測量的屬性，主要表現在三個方面：首先，實驗研究的刺激設置大都是采用的oddball刺激序列，也就是需要兩種或兩種以上的刺激，按照一定的概率比例排列，通過對靶刺激和非靶刺激誘發的腦電波的對比分析來探測當靶刺激呈現時，被試的大腦皮層是否存在特異性反應，據此判斷被試大腦中是否儲存有目標信息、被試的反應是否為誠實反應。其次，在各種研究模式中，研究者將P300的波幅和波面積當作測量指標，并且認為在Pz這個頭皮電位上記錄到的P300是經典波形并能達到最大值。第三，電子科學技術的發展以及事件相關電位測謊儀的研制成功，使得P300的波幅和波面積測量成為可能。

(三)P300的代表性

1、指標的代表性

對于事件相關電位測謊來說，指標的代表性就是指P300波的波幅和波面積的數值變化能夠反應被測人對所測主題的認知情況。

國內外的諸多學者通過實驗研究已經證明了P300作為測謊指標的代表性，例如1987年，Rosen，feld首次報道了利用P300進行成功測謊的結果，他令受試者從裝有九件物品的盒子中任意取走一件，以所取物品名和其它物品組成刺激序列，結果前者引出P300波幅高，以此判定受試者所取物品。楊文俊等通過被試者熟悉和不熟悉的人物和環境照片為刺激，P300的波幅和波面積為指標進行測謊，獲得95～98％的陽性率，初步證明P300測謊的可行性。所以說P300作為事件相關電位測謊的行為樣本指標具有很強的代表性。

2、研究群體的代表性

在進行事件相關電位測謊的模擬研究時，一般在控制實驗條件下，由志愿者扮演犯罪嫌疑人的角色，按照設定好的情境進行模擬犯罪，然后再對犯罪者和無辜者進行事件相關電位測謊，通過比較被測人在P300波上的差異來認定犯罪人。此種研究方式與現場研究截然不同，其結果也不十分可信。Carroll指出，模擬研究中的無辜被試與現場研究中的無辜嫌疑人，相同的問題，對其在情感上有著完全不同的意義。而對實驗室研究得出的數據進行分析，從無辜者的角度，可能會顯著地過高估計事件相關電位測謊的準確性。從這個意義上來說，實驗室模擬研究的樣本群體，并不能典型地代表真正的實際犯罪群體，也就是說模擬研究中的群體樣本選擇并不具備代表性。

在進行現場研究時，也就是在實際的犯罪情境審訊過程中使用心理測試技術，此種研究方法更貼近現實，更具有實踐意義，因為可以直接將研究成果應用于真正的刑事犯罪偵查程序中。事件相關電位測謊由于起步晚，關于測謊的研究還停留在實驗室階段，很少見現場研究成果的相關報道，而筆者以犯罪嫌疑人作為樣本群體進行的部分現場研究證明，以犯罪嫌疑人作為被試取得了較高的陽性率，證明了事件相關電位測謊的準確性，從而說明以犯罪嫌疑人作為行為樣本群體具有一定的代表性。

(四)P300的穩定性

任何測量指標作為心理測量行為樣本的先決條件就是要具有一定的穩定性，而P300的穩定性使其可以成為事件相關電位測謊的指標。聽覺oddball序列記錄的P300，其潛伏期在不同時間的重復測試中保持有良好的一致性。Sklare比較了正常人聽覺P300的穩定性，結果發現立即重復的第2次測試P300得的潛伏期較第一次測試，平均縮短了4.7-+0.8毫秒，2～4周之后的重復測試P300的潛伏期縮短了6.3+-3.9毫秒。雖然重復測試使得P300的潛伏期縮短，但是這種變化甚小，與個體差異比較，不足以影響實驗結果。

為了證明P300的穩定性，美國六個實驗室以相同的儀器和記錄方法，以相同的聽覺刺激序列分別記錄了15名正常男性被試者的P300，結果發現不同實驗室記錄的P300在波幅、潛伏期和分布上并無明顯的差異。

所以說P300的穩定性足以用于成組的研究，并成為事件相關電位測謊的測量指標。

二、事件相關電位測謊的標準化分析

標準化是指測驗的編制、實施、評分及測驗結果的解釋程序都按照統一標準進行，并且這些程序對所有的被試都保持一致。標準化的實質是指測驗中通過對無關變量的控制，使所要測量的心理特質成為影響測驗分數的唯一自變量，標準化涉及到測驗的全過程。

(一)測試內容和物理形式的標準化

對于事件相關電位測謊來說，測試內容和物理形式的標準化就是指測試方法和程序的標準化，包括靶刺激與非靶刺激的選擇、刺激序列的安排和播放以及測后的評分都要遵循一定的規則，一般來說在選擇靶刺激時要選擇能夠給被測人留下深刻印象的情節或事物，而不能選擇被測人注意盲點的事物，否則將不會收到預期的效果。在刺激序列中，靶刺激的比例為30％，非靶刺激的比例為70％，它們隨機排列并播放給被測人看。然而筆者在已進行的研究中發現，靶刺激的選擇雖遵循一定的規則，但是在實際案例測試過程中，靶刺激的選擇是很難完全符合要求的，也就是說我們按照既定的規則和標準去選擇測試內容——靶刺激和非靶刺激，結果發現許多案例并不適合進行事件相關電位測試，即使勉強進行測試，也是有些方面并不滿足要求，所以說測試內容的所謂標準化也只是相對的標準化。

(二)測試實施的標準化

測試實施的標準化主要是指在進行測試的時候要遵從指導語的嚴格規定，指導語應對主、被試的行為及測試的時間、地點有統一要求。在進行事件相關電位測謊的時候，我們要對被測人宣讀測試指導語：“您好!您參與的是有關您所涉嫌案件的測試，測試員將根據您看一組照片后的腦波反應，判定您是否真正參與到本案件中。本測試對您無任何傷害，亦無痛苦，僅要求您：1、注意看由計算機控制，間歇一定時間出現在熒光屏上的照片；2、在實驗過程中盡量放松，不要動，不要眨眼；3、每當出現您曾經見過事物的照片時，請盡快按鼠標左鍵，其余照片不按鍵?！痹诒粶y人明確以上要求后，按測試要求給被測人接上測試電極，設定有關的參數。所以說在事件相關電位測謊實施過程中有明確的標準可以遵循，在這一點上具有較高的標準化程度。

(三)測驗的評分要按照事先規定的統一標準

對于事件相關電位測謊來說，目前的測謊儀還沒有給出一個自動評分系統，因此測后評分更需要豐富的經驗，雖然測謊軟件會自動計算出P300的潛伏期、波幅和波面積的數值，但是前提是要選準哪一個波形是我們賴以得出結論的P300，否則所有的數值都毫無意義；在選定波形之后，我們在對結果進行判定的時候主要依據靶刺激和非靶刺激所誘發的P300波幅和波面積的數值比是否超過50％，如果超過則判定結果為陽性，反之則為陰性。但是這個標準也是根據實驗室研究結果得出來的大致概率，并不是絕對的標準，所以說波形的選定和波幅、波面積的計算需要豐富的經驗，目前還沒有一個嚴格、統一的標準。

(四)測試結論的標準化

在實施心理測試技術之后，要給委托單位出具測試結論，也就是依靠心理測試報告的格式與文書內容來體現整個測試結果。而心理測試技術作為一種典型的過程測試，測試結果和專業表述是不同的實體，需要分別對待。測試結果是根據原始數據產生的，當個體的反應數據被記錄下來之后，測試結果也就形成了。而專業表述是對測試結果的說明，它代表了測試人員的能力和水平，因為專業表述除了依賴于測試結果，還必須對測試的整個過程進行說明，這對測試人員的綜合能力提出了很高的要求，也可以說專業表述能力的強弱，是測試人員能力水平高低的一個標志。

但是長期以來，國內對心理測試技術的結果報告形式并沒有認真對待，一般的情形是，測試結果出現之后，測試人員很快以口頭表述的方式將其傳達給委托部門，而委托部門會根據結果立即進行審訊或開展其它工作。如果案件有所突破，測試技術也僅是偵查過程中的一個環節，如果沒有突破，委托部門會尋找其他的線索或手段，而測試結果也就被擱置在一旁。而此種情形導致了對專業表述的要求不強，進而造成了目前在國內描述測試結果不統一的局面，有的稱為鑒定結論，有的稱為檢測報告等。而這樣的情形無疑導致了事件相關電位測試技術在結果表述上的不太規范。

另外，由于事件相關電位心理測試技術在實踐中應用得比較少，所以測試結論的出具還沒有明確規定的格式，而本研究在進行完測試之后，是以《事件相關電位測謊登記表》的形式向委托單位出具測試結論，在登記表中列出了測試所使用的靶刺激和非靶刺激以及測試結果。

三、測試難度的客觀測量

測試的客觀性往往與標準化密不可分，它涉及了測驗編制、實施和解釋的全過程。但測驗客觀性最重要方面是測驗項目難度水平的確定必須客觀，而難度確定的客觀方法又不同于其他的由命題者評估測題難度的主觀方法，而是通過試測并根據被試的答題情況而確定。這是測謊在心理測量學上遇到的最大問題。因為測謊可以說是一種最具個體化特征的研究，針對不同的被試，雖然在測試程序上可以保持一致，甚至評分標準上都可以保持相同的標準，但在激發被試生理反應的提問方面卻要具有鮮明的個體化，必須針對每個被試的特征設計不同的問題類型，而所測驗項目的難度就是根據被試的反應來進行評估的。

對于事件相關電位測謊來說，由于所設計的測試題目是以圖片刺激的形式播放給被測人，需要被測人能夠準確識記并做出按鍵反應，所以表面上看關于測試題目的難度測量比較簡單，甚至可以說沒有難度。但其實不然，正如上文所分析的那樣，在激發被試生理反應的圖片刺激選擇上存在相當的難度，到底哪些圖片可以適度地激發被試的生理反應，這對于測謊員來說是一個不小的挑戰。而且在測試刺激編制完成之后，到底在多大程度上發揮作用還取決于被試者的反應，也就是說要根據被試者的反應來評估測試刺激的成功與否。

因此說，根據被測人的文化水平和理解能力來評估問題的難度，就會在很大程度上受到測試者主觀因素的影響，很難做到完全依據被試的反應來進行評判，從而導致測試難度的測量很難做到客觀化。

四、事件相關電位測謊的信度分析

信度是指測驗的可靠性，即同一測驗多次測量同一團體所得結果之間的一致性程度。由于測量的是被試所有行為樣本中的一個，所選擇的測驗情景也只是所有可能的情景中的一種，因此測驗誤差的存在難以避免。

對于事件相關電位測謊來說，同一測驗對同一被試的測量一般只進行一次，最多兩次，所以按照上文信度定義，是無法衡量其信度的，根據前文的分析，我們知道如果被試者確實經歷過我們所調查的事件，就會在大腦中留下有關的痕跡，當再一次看到與該事件有關的情節圖片時，就會有相應的腦電反應。如果從來沒有經歷過此事件就不會有相應的反應。因此我們對被測人一般只進行一次測試，如果進行多次，就可能使無辜者因為多次接觸與犯罪情節有關的圖片而在大腦中留下痕跡，從而在下次測試時表現出異常的腦電反應，造成測試結果的誤差。所以對于事件相關電位測謊來說，上述的統計學信度對其并不適用。但并不是說事件相關電位測謊的信度就無法檢驗，筆者在進行研究時主要采用相同檢測者用相同方法對相同結果圖譜2次評定是否一致來探討其信度。結果發現前后結果的差異并不大。Barland和Raskin研究了多道心理測試中，相同檢測者在隔了6個月之后，對相同結果圖譜的重評，兩次評定間的相關在0.80至0.92之間。這個結果對于事件相關電位測謊來說是一個很好的參考。

五、事件相關電位測謊的效度分析

效度是指測驗結果的準確性和有效性，是一個測驗確實地測量到它所欲測量的心理特質的程度。很顯然，效度對一個心理測驗是最為關鍵的，因為它回答了測驗是否及在多大程度上達到了測驗的最終目的。

證明測驗存在效度的資料需要經過多次研究來收集，效度證據通常來自三個方面：與內容有關的證據、與效標有關的證據和與構念有關的證據，而關于測謊的效度研究多從內容方面開展。

由于測謊并不是經典的心理測量，所以在其效度的研究中存在許多問題。甚至Saxe等認為測謊、尤其是多道心理測試中的CQT缺乏結構效度，測謊所檢測的并不是謊言本身，而是引出并測量恐懼和焦慮，但由于沒有辦法確定被試恐懼或焦慮的原因，所以測謊的效度不可能測量。雖然此觀點過于偏激，但也指出了測謊效度測量中存在的問題。不過測謊作為一項刑事技術已廣泛應用于刑事案件的偵查過程中，有時對案件的偵破起著至關重要的作用，所以還是非常有必要研究測謊的效度，只有有效的測量方式才能得到不斷的改進和應用，否則就會逐漸萎縮。而為了研究測謊的效度就必須尋找合適的研究方法，分析對照標準并探討影響效度的因素。

(一)研究方法

目前研究測謊效度的方法主要有兩種：模擬研究和現場研究。本文將從這兩個方面來分析事件相關電位測謊的效度

1、模擬研究

在事件相關電位測謊的模擬研究中，楊文俊等人利用被試者熟悉和不熟悉的人物和環境照片為刺激，P300的波幅和波面積為指標進行測謊，獲得95～98％的陽性率，初步證明P300測謊的可行性。周亮等人設計模擬盜竊案件對20名被試進行事件相關電位測謊，在結果判別方面應用Fisher判別方法，以P300潛伏期波幅和波面積為指標建立判別方程，將模擬組和對照組每個受試者的數據代入方程，正確判別率為100％。所以說通過模擬研究證明事件相關電位測謊具有較高的準確性和有效性。

2、現場研究

當一項技術在模擬研究階段證明了其有效性和準確性之后，就要轉入現場研究，因為任何的刑事技術最終的目的還是為了服務于實踐工作。由于目前國內關于事件相關電位測謊的實驗研究報告還鮮有見到，所以筆者通過自己在實踐中已經開展的事件相關電位研究所得出的結論，證明了事件相關電位測謊在認定犯罪事實方面的準確性已經達到了95％以上，所以說在現場研究方面，事件相關電位測謊具有較高的準確性和有效性。

(二)比對標準

Patrick等認為測謊效度研究中樣本偏倚是一個潛在問題，事后的交待常作為說謊與否的標準，但這是一個缺乏獨立性的標準。因為被測人事后的交待也不一定就是真實的，也可能是他出于某種原因而做出來的虛假供述，所以這個比對標準并不具備唯一性。在這點上，事件相關電位測謊與多道心理測試是共同的，也就是說缺乏一個獨立的、客觀的對照標準。所以筆者認為將對照標準改成最終的司法審判結果可能會更具客觀性、獨立性，因為就目前的司法體制而言，法院的最終宣判是證實犯罪嫌疑人有罪與否的唯一客觀標準，在法院沒有宣判之前，沒有任何指標可以確定犯罪嫌疑人就是實施犯罪的人，從而提高對照標準的唯一性和獨立性。

(三)影響因素

測謊作為一項特殊的心理測試，其有效性總會受到各種因素的影響，而對于事件相關電位測謊來說，各種影響因素在影響測謊效度方面所發揮的效力是不同的，主要表現在如下幾個方面：

1、是否要求被試完成某項任務。在引出P3的實驗中，一般要求被試者執行某種任務，如對靶刺激作按鍵或計數反應，例如Polich J.曾經就任務效應對P3的影響效果進行了研究。結果表明任務難度可影響P3波幅，難度大者P3波幅明顯，反之P3波幅下降。所以在本研究中要求被試者做出按鍵反應，也就是“YES”或“NO”的按鍵，并在程序設定上將其每一次按鍵作為下一張圖片播放的指令，目的在于讓被測者對刺激的內容進行辨別，以引出較高的P3波幅。如果沒有給被測者任務，也就是不需要按鍵的話，就會使P3的波幅降低，影響測試結果以及對結果的評判。

2、靶與非靶刺激的出現概率

P3波幅與靶刺激出現概率有關，概率越低，P3波幅越大。ERP測謊時可以通過設定對照刺激克服概率影響因素。選定某一種非靶刺激為對照刺激，其出現概率與靶刺激相同。進一步研究發現P3波幅還受主觀概率的影響，與被試者對某一未來事件的期待心理有關。測試過程中被測者分散注意力，對刺激“漠不關心”將使P3波幅下降，甚至會使測試無法進行下去。我們在進行測試過程中，碰到一個被測人，眼睛有意地不注意屏幕所播放的圖片刺激，導致靶與非靶刺激產生的波形都沒有疊加。

3、電生理的干擾

進行事件相關電位測試時，受試者必須接受聲、光等形式的刺激，同步記錄其腦電。要求受試者配合測試，防止肌電干擾。如果受試者不配合，頸部肌肉緊張或者頻繁眨眼、身體亂動，將因為巨大肌電干擾而無法進行腦電的平均疊加。這一點對事件相關電位測試的影響是非常致命的，所以說取得被測人的配合是進行測謊的大前提，筆者在進行事件相關電位測謊研究時發現，一被測人過分緊張以至于按鍵的手都在發抖，導致腦電波根本無法疊加。

4、刺激內容的選擇和設置

根據實際情況設置不同內容的刺激物是事件相關電位測試的關鍵。除了刺激的信息內涵和容量外，刺激本身所帶有的情感性內容也會影響P3的波幅。Lang SF等發現，愉快或生氣的面部表情作刺激，引出較大幅值的P3波。因此以作案現場、工具、受害者的照片等作為靶刺激，容易引起被測者恐懼、憂慮、緊張等情感反應，將提高測謊的準確率。但對于情感反應強烈的無辜者來說它也可能引出較大幅值的P3波，可能會提高假陽性率。非靶刺激如果是被測者所熟悉的內容，可能會引出較高幅值的P3波，降低分辨率；相反，如果靶刺激是無辜者所熟悉的內容，則會導致假陽性。故必須綜合兩方面的因素，根據案情和被測者的不同情況，選擇適當的刺激物。

5、被試者記憶的影響

對事件相關電位測謊來說，目前腦電的分析技術有限，獲得滿意的P3波形必須經過多次的疊加，因此必須長時間的重復刺激。對照刺激的重復出現有可能造成被測者對此刺激的學習及強化記憶，多次反復之后其在腦內必然會形成一定的表征，場合更新過程將與靶刺激的接近，引出的P3波與靶刺激的相近，降低了分辨率。隨著腦電分析技術的發展，單掃描ERP提取已獲得成功，即從單個刺激引出的腦電中提取P3，若將其用于測謊可避免重復刺激的不良影響。

6、反測謊措施

心理測量學范文2

關鍵詞：計算機自動化項目生成，認知設計系統法，項目模型法，構念效度。

分類號：B841

隨著心理測驗在招聘選拔情境中的應用越來越普遍，測驗項目的曝光問題也逐漸引起人們的重視。測驗項目的曝光不僅會影響測驗的公平性，也可能會影響測驗的心理測量學屬性。計算機自動化項目生成被許多研究者認為是應對測驗項目曝光問題的很具前景的一項技術。自動化項目生成是指在測驗過程中，計算機根據項目編制者或者自適應施測程序的要求，在項目生成算法的指導下，即時自動生成符合指定項目參數的項目。盡管這個項目先前并不存在，也沒有經過試測，但項目參數可以通過基于項目刺激特征與項目屬性之間關系的心理測量學模型進行預測。因而自動化項目生成可以看作是認知心理學、心理測量學以及計算機技術三者有機結合的產物，是對傳統項目編制方法的革新。這種技術已經被應用到能力和成就測驗領域，還被用于對復雜技能的評估，如問題解決、臨床診斷和教學技能，因項目編制效率高、結構效度好而受到歡迎。

1　理論基礎

盡管早在20世紀70年代已經有研究者提出項目生成的思想，但真正利用項目生成方法編制測驗的實踐則是從80年代中期才開始的。其間Embretson對構念效度的重新闡述對促進自動化項目生成的發展起著關鍵作用。Cronbach和Meehl提出的構念效度已經指導能力測驗幾十年了，但Embretson認為他們的提法混淆了構念本身的含義以及與其他類似構念的關聯。由于相關數據的累積只能通過測驗編制完成之后的施測獲取，因此傳統的構念效度概念只能用來描述測驗當前的構念，卻不能為測驗設計提供指導。

為了將測驗設計結合進構念效度概念，Embretson提出一個兩部分分離的構念效度：構念表征(construct representation)和規則廣度(nomothetic span)。構念表征涉及鑒別任務表現潛在的認知成分，而規則廣度則關注測驗分數與其他構念之間的詳細關系。Embretson認為傳統構念效度的方法只包含后者，通過和其他測量相關聯給測驗分數賦予意義(規則廣度)：而認知心理學的新進展表明測量的意義也可以直接獲得，即通過對在單個項目的問題解決行為中所涉及的過程、策略和知識的理解來確立(構念表征)。構念表征的研究范式包含運用認知心理學的方法為測量任務建立心理加工模型，如操縱測量任務的刺激特征，從而改變對假定認知過程的影響。

這種兩部分分離的構念效度對測驗編制來說有很大優勢。最重要的是可以用認知理論指導測驗編制。因為測驗分數的意義在構念表征階段已經確立，因此可以設計測驗項目來反映特定的認知結構，進而根據那些已經得到實證性支持的影響目標過程、策略和知識結構的刺激特征來選擇項目；同時，規則廣度也受目標認知過程與重要外部變量之間關系的影響，對問題解決過程的認知分析可有助于它的提高。

2　具體方法

根據認知理論在項目生成中的影響過程和作用，Embretson等認為可將目前主要的自動化項目生成方法分成兩種：認知設計系統法和項目模型法。這兩種方法分別對應于Bejar等所提出的強理論(strong theory)和弱理論(weak theory)。強理論通過問題解決過程中隱含的心理學原理來精細地控制組成測驗的模型或生成模型的實例的難度，如Embretson的矩陣完成測驗和Beiar的心理旋轉測驗；弱理論以一組內容和難度上有廣泛代表性的校準好的測驗項目為起點，依據最佳實踐原則(best-practice guideline)而非心理學原理生成模型，如GRE數學測驗。這種分類方法對項目自動生成具有實踐指導意義，因此下面將對兩種方法的基本思想、步驟以及應用條件進行詳細介紹。

2．1　認知設計系統法

認知設計系統法的基本思想是通過實驗研究，發現項目刺激特征中的基本成分和隨機成分?；境煞只蚩刂瞥煞?radicals or controlling elements)是指對項目心理測量學特性(如難度)有顯著影響的項目刺激特征；隨機成分或非控制成分(incidentals or non-controlling elements)被定義為對項目的心理測量學特性(如難度)沒有顯著影響的項目刺激特征。一般認為，基本成分主要有以下兩類：第一類與工作記憶操作有關，如矩陣推理測驗項目中規則的數量，閱讀理解測驗中的單詞轉換等；第二類與知識操作有關，如閱讀理解測驗中的詞頻等。隨機成分都是些表層特征，如數學題目中涉及人物或物品的名稱等。

2．2　項目模型法

項目模型法，也稱模版法(template)，是指以具有良好心理測量學指標的項目為基準(原型或框架)，通過替換那些被認為與問題解決過程無關的特征，如物體名稱、具體數字等，形成多個新項目。雖然這些新項目看起來與原來的項目不同，但實質卻是類似的。實際上項目模型法也可看作是生成同構異形題多個實例的過程，這些項目在實質內容和心理測量學屬性上都相一致。如果正如假設的那樣，新項目繼承了項目模板的特性，在心理測量學特性上與原先模板的特性非常接近，則可以直接通過這些新項目估計測試者的能力，而不需要進行試測。

2．3　兩種方法的比較

這兩種方法的根本差別在于對認知心理學研究成果的倚重程度，認知設計系統法對認知心理學的依賴程度更高些。

對項目模型法來說，認知心理學的影響主要體現在兩個方面：(1)必須要限定那些與測量構念相關的變量允許替換的范圍，以免在很大程度上改變認知加工過程。如替代的速度和距離需要更復雜的計算，以改變問題的難度。(2)利用語義網絡來確定什么樣的替代變量的組合是有意義的。比如在交通方式及其相應的動詞上，飛機對應飛行，汽車對應行駛。項目模型法是期望通過最小限度地替換現存項目中的部分成分，去生成與原模板特性類似的大量項目。項目模型法因應用范圍廣、花費比較適中等優點，受到ETS等考試服務機構的青睞，如用于GRE中的數學測驗、數量推理測驗的項目生成。然而這樣的項目因變動較小，重復曝光，容易被測試者記住，進而導致心理測量學屬性的顯著差異。

對認知設計系統法來說，認知心理學的研究起重要作用，它直接影響項目類型的認知加工分析和

解決過程中認知模型的建立。這個模型對項目解決過程、刺激特征對過程的影響以及過程對成績的影響進行了詳細說明。因此，基于認知設計系統法建構的項目，允許替換所有項目表層特征，只是基本成分的隱蔽性要求更好些。通過這種比較，我們可以看出對于那些有堅固認知研究基礎的項目類型來說，認知設計系統法顯然是更合理的選擇。目前這種方法已經被用于非言語能力傾向測驗，如矩陣推理項目、圖形類推、空間折疊以及空間物品排列；正試圖應用于其他類型的項目，如言語類推、言語分類、字母序列、段落理解以及數學問題解決。

3　具體步驟

下面介紹認知設計系統法的具體步驟。其實在具體實施中，項目模型法也秉承類似的做法，只是對實驗控制和認知心理學實驗的倚重程度上有所不同。根據Embretson等的做法，認知設計系統法指導下的自動化項目生成主要包括以下4個階段：

3．1　為現存項目建立認知模型

在項目生成研究的最初階段，認知設計系統法需要為現存的能力測驗項目建立認知模型，目的是從整體上了解項目變異的來源。首先從文獻綜述出發，考察潛在的認知加工過程以及影響項目變異的刺激特征，即哪些刺激特征可能會對項目的難度、區分度等屬性產生影響。一般而言，實驗室研究中使用的任務通常會比真正的能力測驗上的項目更簡單，因此需要假設一個更復雜的模型來充分表征能力問題解決中的認知加工過程。然后采用多種研究手段(如眼動、計算機模擬)對所識別出的、可能影響項目屬性的刺激特征進行實驗驗證，求這些刺激特征與項目屬性之間的相關，或者比較操縱這些刺激特征引起項目屬性的變化來確定它們的影響。盡管一般而言，項目難度是研究者最關注的項目屬性，但反應時數據對認知加工模型的支持也很必要。

3．2　根據規則生成項目并修正認知模型

在項目生成研究的第二階段，認知設計系統法主要關注項目編制和測驗設計的問題，即項目刺激特征能否被單獨操縱來影響加工難度，這些項目刺激特征是基于上一步建立的認知模型中的變量。為操縱項目刺激特征，根據認知模型變量建構一套項目編制說明(項目生成算法)，然后在據此手工編制一批新項目進行試測，確定項目刺激特征是否影響項目難度以及被試在這些項目上的表現。雖然通過試測可以估計項目和被試參數，但這一階段的主要關注點仍是項目刺激特征。對于認知模型來說，項目刺激特征應當能充分預測項目難度、反應時以及其他一些心理測量學指標。另外，從實證的角度來說，具有相同刺激特征組合的項目在心理測量學指標上應該高度接近。

3．3　計算機自動化生成項目

在項目生成研究的第三階段，需要編制計算機程序實現項目自動化生成，即計算機自動化項目生成器。盡管編制出項目生成和呈現機制方面的程序很重要，然而為特定項目類型發展出項目結構則是成功的關鍵。項目結構基于第二階段修正的認知模型，是對所有影響項目認知復雜性的各種項目刺激特征特定組合的詳細說明。這樣，具有相同項目結構的項目攜帶有相同來源和水平的認知復雜性，并相應地具有相同的心理測量學指標。其他一些未納入認知模型的刺激特征，對項目認知復雜性不造成顯著的影響，是可以變動的。需要注意的是，不同項目類型(如測量空間能力與測量推理能力的項目)在項目結構上可能存在質的差異。

3．4　實證性地檢驗自動生成的項目

在這最后階段，還需要收集些實證數據來評估項目生成器的穩定性以及自動生成項目的質量。項目生成器的穩定性主要是檢視自動化生成的項目外觀上是否符合預期的設定。自動化生成項目的質量通過比較項目生成算法預測出的參數與項目的實際參數進行評估，若兩者非常接近，則表明設立的認知模型以及項目生成算法是有效的。

4　相關IRT模型

正如前面所提及的，自動化項目生成需要合適的心理測量模型以及實質性研究(認知基礎)。實質性研究很大程度上依賴于認知心理學，從而通過預測取代估計項目參數，而心理測量學模型則依賴于項目反應理論的發展。隨著測量模型和認知心理學理論的發展，研究者提出多種能將認知心理學理論和測量模型連接起來的拓展項目反應理論模型，如線性邏輯斯蒂模型(LLTM，Linear Logistic TestModel)、約束兩參數邏輯斯蒂模型(2PL-constrainedmodel)和項目結構的多層次IRT模型(HierarchicalIRT model for item structure)。其中前兩種模型特別適用于認知設計系統法，最后一種特別適合于項目模型法。這些模型的共同特征是將影響項目認知復雜性的變量進行量化，納入到測量模型，從而為項目自動化生成的參數預測奠定基礎。

5　優缺點評述

Embretson對自動化項目生成的優缺點進行了總結。她認為，與傳統項目編制方法相比，自動化項目生成有如下幾點優勢：(1)編制新的項目更容易，從而更好滿足自適應測驗對大量項目的需求；(2)生成指定難度水平與合適心理測量學特性的項目，避免了傳統測驗編制時有大量項目因試測中品質不合格而被拋棄；(3)如果項目生成算法足夠精準，則可不必經過試測而將新生成項目放入題庫；(4)結構效度存在于項目水平，即每個項目認知復雜性的具體來源都可以通過給模型變量賦以特定權重來確定；(5)可以重新設計測驗來表征項目難度的特定來源，即認知復雜性的某些來源的影響可以直接加以控制。而自動化項目生成的局限性主要體現在：(1)這種方法需要實質心理學的支持，即為特定的項目類型發展出合理的認知模型需要一些實證性研究來支持。然而對某種特定的測驗來說是否實際，還得在最初的研究花費與可以生成無限個的新項目的成果之間權衡。(2)盡管這種方法可以應用于新的項目類型，但還是對已經發展出來的項目類型最有效。因為對新項目類型來說，它們結構效度中的規則廣度還需要通過從該項目類型獲得分數的相關的研究來證實。

6　研究展望

從20世紀80年代中期開始，心理和教育測量領域的一些研究者對很多項目類型進行了認知分析并應用到新項目的編制，探討如何將認知理論結合到測驗編制中。到現在為止，已經在多個方面取得進展，如GRE的數量推理、分析性推理等。對于自動化項目生成，目前國外最新的研究趨勢主要集中在以下4個方面：

6．1　原有模型的修正

盡管先前的研究已經找到影響認知復雜性的一些因素，但隨著認知心理學研究的深入，一些研究者認為過去的認知模型不能覆蓋所有這些重要的影響因素，因此需要對以往的模型進行修正，以建立解釋率更高的認知模型來擬合相關問題解決過程，如Diehl在項目生成算法中納入干擾項的特性。

6．2控制機制的引入

對于自動化項目生成，如何在研究者不干預的情形下產生符合要求的測驗?Embretson自動化生成的抽象推理測驗項目，從知覺角度分析，大約有7％的項目不符合要求。將自動生成的這些項目直接呈現給測試者，這在高利害關系的測驗中顯然是不允許的。因此有必要引入項目質量控制機制，如Arendasy等人建議加入基于Rasch模型的校準機制。

6．3　內容領域的擴展

過去計算機自動化項目生成的一些測驗主要集中于有堅固認知基礎的領域(如心理旋轉、隱蔽圖形和抽象推理測驗)，很容易通過操縱相關刺激特征控制加工難度。言語測驗的自動化項目生成則涉獵較少。自然語言機制研究的進展，逐漸為言語測驗的自動化項目生成提供技術支持，如GRE的分析性推理測驗項目的生成。

6．4　測驗技術的革新

心理測量學范文3

關鍵詞：高校學生英語學習誤區心理因素正確心理的構建

在經濟發展的全球化趨勢下，各國之間的合作越來越緊密。英語作為一門重要的國際化語言，在各種交流中的地位不斷上升。高校學生是我國進行社會主義現代化建設的接班人，要更好的與國際接軌就必須擁有一定的英語水平。但是，目前我國高校英語學習還存在著一定的滯后性，學生學習英語的熱情基本不高與學生的內心需求形成很大的反差。

1.高校學生英語學習中心理構建的必要性

從某種角度上講，一種良好的心理學習方法，與個人乃至于社會的健康發展息息相關，同時，這也是對我國當前大學生英語學習的巨大考驗。因此，我們必須要認清不同心理在英語學習中的意義及其重要性，加強其在學習中的學習和應用。這樣，既可以充分發揮學生的積極性，便于大學生對積極的心理認知，使得他們永遠保持樂觀向上的積極學習態度，以樂觀的心態去面對學習中的困難和不足，以健康的心態面對生活的難題；也可以讓大學生清楚的認識到當前中國高校英語學習中的不足之處，引起學生及有關部門的共同關注，強化高校英語學習心理學建構的急迫性，利于學生進行自我心理調適，增強大學生心理承受能力，讓大學生在學習英語方面得到更多的關注，使得高校生能夠樹立良好的自信心和應有的學習積極性，用更加平和的心態去面對英語的學習。

2.高校學生英語學習中存在的誤區分析

2.1 誤區之一：認為大學的學習比高中輕松

2.1.1學生認知誤區

在高中學習期間，為了參加高考，為了能在高考中取得更好的成績，大多是采用“被動式”學習方式。只是一味的學習，有些根本沒想過怎樣去消化，也不知自己到底學到了什么，有著做不完的練習與作業。而到了大學，老師不留作業了，學生們便覺很輕松。到了期末考試才發現，自己的英語能力不但沒提高，反而下降了很多，有些最基本的單詞也忘了該怎樣拼寫。這是大一學生普遍存在的問題，等到大二要認真學了，卻又因大一時的貽誤而影響了學習效率，以至于很多高校學生到了大學畢業，最后英語四級還是沒有通過[1]。

2.1.2教師誤導

經歷過高考的我們都知道，在高中的時候老師總是對我們說“高中三年是最苦最累的，只要大家努力拼搏一下考上大學就輕松了”在這種誘導下，年輕的準大學生們對此也都深信不疑，當然老師的出發點還是好的。另外一方面，大學教師一般課后也都不布置作業，也似乎驗證了高中老師們的說法。此后，大學生的學習熱情也不再那么的高漲了。大一新生往往都是以放松的心態對待英語的學習。這也是各高校普遍存在大一新生英語考試不及格，掛科率較高的主要原因之一。

2.2 誤區之二：平時不注重積累，考試前搞突擊

2.2.1學習態度不端正

學習態度不端正，是指有些學生學習英語不是為了更好地掌握和應用這一語言，而是怎么用最簡單的方法通過英語四、六級考試，這種思想是很危險的。我們將之稱為，急功近利的英語應試學習思想所產生的“病患”。

2.2.2方法不當

在上述態度支配下，有相當一部分高校生平時浪費時間、不抓緊時間學習，不注重基礎的積累，而是等到期末考前的一個月突擊狂背英語單詞，其考試結果自然就可想而知了?？荚囌f明中要求通過四級有幾千個單詞的詞匯量，對于很多高校學生來說，只能說他們認識這些單詞，卻不能充分地理解和應用這些單詞。有很多學生反映，在做閱讀理解題時，所有的單詞幾乎都認識.但回答問題時總答錯。拼命的背英文單詞，在看到單詞的時候都認識，可是面對文章的理解卻是一頭霧水不知所以然。其實，他們所說的“認識”，只能說是簡單的認識這個單詞表面詞義，并不知道該單詞在此文章中的真實作用，所以茫然了……

3.高校學生影響英語學習的不良心理因素

3.1愛國心理

曾過一些英語學習差的學生做過調查，當和他們提及英語學習的時候，他們給我的理由既然是“愛國”。我一下子就茫然了，也許，這只是不想學習英語的借口，但我們有理由相信，還是有很多大學生會這么的認為的。這個所謂的愛國心理便成了他們的“護身符”，愚昧的思想也就成了他們埋葬英語的“理想”之所。而這種無知的思想是阻礙大學生英語學習的重要因素。

3.2害羞心理

眾所周知，大部分的大一新生，在高中的學習都是應對考試型，老師極少讓學生真正的開口去“秀”英語。怕說錯也是害羞的一種表現。追求完美，怕犯錯誤，讓大學生開不了口。害羞的心理會使得一個人越來越孤僻，是一種極其不健康的心理問題。

3.3應付心理

有些個別學生對英語不重視，沒有明確的學習動機，喪失自信心與進取心，當其他學生使用英語對話、做英語練習時，他們就處于觀望狀態，把自己當成局外人，一輪到自己說話、做題，要么抄襲別人，要么敷衍了事，把英語學習當成應付差事，不去用心。時間越久就對英語的學習越沒有興趣。

3.3 缺乏自信

對自己的價值和能力缺乏應有的信心也是一個很重要的心理因素。愛默生曾說：自信是成功的第一秘訣。由此可見，自信，在英語學習中的地位是不可忽視的。有很多人相信“語言天分”這回事。是不是必須擁有特殊的才能才可以流利運用一門外語呢？答案是否定的。沒有天生的天才也沒有天生的蠢材，只要有足夠的自信就可以翱翔于英語的殿堂。

3.4 自負自卑心理

自負就是自己過高地估計自己。人的自我意識主要包括三個方面，自我認知，自我意志，自我情感體現。一個人評價自己，要靠自我認知，有的人過高地評價自己，就表現為自負；有的人過低地評價自己，就表現為自卑。過于自負的人會產生自戀人格，而過于自卑的人往往貶低了自己。這些都是不可取的，也是英語學習中的一種弊病。

4.高校英語學習中心理學建構的方法

4.1 構建和完善心理機制：所謂心理機制的構建和完善，就是強化在校學生面對英語學習危機的意識，并對其進行正確的引導，便于大學生進行自我總結、反思及緩沖，從而進行有效的心理治療。站在專業心理學的角度進行分析，所謂的心理問題，其主要就是通過對心理學知識和方法的運用來實現心理教育、心理疏導和思想教育的有機結合。只有清楚的認識心理學在英語學習中的重要性，才能更好的提高大學生的英語學習激情。并且，在高校英語學習中，針對學習過程中學生的心理問題，需進行心理輔導、心理健康教育，有意識地提升大學生的心理承受能力，為學生建立心理機制奠定一個良好的基礎，避免不良心態的產生及其惡化，更好的學習、突破英語[2]。

4.2 了解自己真正的需求，大學生學習英語不是簡單的考四級、六級這么簡單的，更重要的是要面對這個多變的世界，更好的完善自己。未來的世界就像一個多彩的繽紛桶，不可能一成不變的。所以要正確的了解自己真正需求。這在自我認知的過程尤為重要。而合理、正確的學習心理是學好英語基礎、也是更好應用英語的必備前提。

4.3 正確的認識自己，明確認識學習的目的。沒有一勞永逸的方法，我們都相信好記性不如爛筆頭，愛迪生曾說，“天才是百分之一的靈感加上百分之九十九的汗水”說的就是這個道理。明白學好英語在今后發展道路上的重要性，使其增強克服學習中的心理障礙及消極心理，提高學習的主動性。做到大膽、大方、自信……（作者單位：1.莆田學院醫學院藥學系；2.莆田學院醫學院臨床醫學系）

參考文獻：

心理測量學范文4

追求一個美好的夢想，激發教師工作的激情

所有的青園人都擁有一個共同的樸素的教育理想：六年服務一生，為每一個孩子的幸福人生奠基。讓這六年的小學生活為每一個孩子奠定下一生幸福的基礎！讓青園小學成為中國未來人才的搖籃！十年后，百年后，將有無數優秀的青園學子會深情回顧說：青園小學的六年是我這一生最重要的六年！青園小學的老師是我人生中遇到的最棒的老師！

為了這個理想，我們一起制定學校的發展規劃，共同憧憬學校的發展藍圖和美好未來。在制定規劃的過程中，每一個老師都把自己的夢想傾注在了對學校發展的憧憬之中。我們一起讀了很多書，同讀的第一本書是《走進錢學森》，共同感受書中錢學森對北師大附中六年的深情回顧，深入了解那些令錢學森畢生難忘的教師！感悟什么樣的教育才是六年服務一生的教育，激勵所有的老師都努力去成為孩子一生中最重要的人！老師們紛紛寫下了《做孩子生命中的貴人》（萬愛群）、《做中國的安妮莎利文》（彭莎）、《心懷大愛做小事，胸有責任做大事》（曾嬋姣）等文章，所有的老師都凝聚在了同樣的教育理想之下。我們一起創辦?？冻砷L》，讓這一本《成長》成為我們追求夢想的見證！我們憧憬的不僅僅是青園五年后、十年后的發展與跨越，我們談得更多的是：當青園百年榮耀之時，我們的后來者翻閱《成長》，翻閱青園成長的歷史，他們將以多么崇拜的眼神來瞻仰我們這些創業者，我們為青園的發展做了多么了不起的事情！

在對百年青園的美好憧憬中，在同一個夢想的激勵下，每一位老師都更有使命感，更加充滿激情地工作！

搭建一個成長的舞臺，激發教師成功的自信

我們首先構建起有活力的教師發展制度。引領教師在自身成長中找到坐標，燃起自主發展的激情，讓他們得到成長的激勵。我們搭建了“三格”培養層次：新教師“入格”培養，青年教師“升格”培養，骨干教師“風格”培養。實施藍青工程，為新青教師配備骨干師傅，為骨干教師請來專家師傅，促進每一位教師盡快升格。我們構架了專業發展“三維空間”：學習空間，實踐空間，展示空間。學校的各級開放活動、“青園杯”賽課、“德澤講壇”、“青園夜校”、?？冻砷L》等，給教師提供了學習、實踐和展示的舞臺，為青園教師卓越文化的形成營造了氛圍，打下了基礎。

同時通過特色活動推動文化建設。我們倡導讀書文化，豐富教師專業知識：各種形式的讀書活動、讀書沙龍，掀起了一輪又一輪的讀書熱潮，讀書文化的興起，讓老師們漫步書林，與圣賢牽手、與經典為伴，用優秀的文化充盈自己的心靈，豐厚人文底蘊。我們營造學堂文化，厚實教師專業素養：“青園教師學堂”系列活動的開展在學校里營造了濃郁的學堂文化，全體教師積極參與的“德澤講壇”、針對新青教師素質提升的“青園夜校”、寒暑假的“專家講壇”、提升國際化視野的“教師英語社團”、關注教師身心健康的“心靈瑜伽”“籃球俱樂部”“羽毛球俱樂部”等，讓教師在“學堂文化”的引領下實現專業發展，快樂工作，優雅生活。

以制度精細管理，用文化潤澤心靈，使得讀書、學習和創造性的工作成為了老師們的一種習慣，一種自覺的行為。文化以它特有的同化作用讓青園變成了一個快樂成長的大搖籃，新加入團隊的老師迅速地融入到集體中，都變得積極進取，勤奮好學，樂于創新。

給予一份真誠的欣賞，激發教師創造的潛能

秋季開學上班的第一天，四位新調入的教師結伴而來找我報到，我微笑著叫出她們的名字。看著她們訝異的表情，我說：“你們早已在我的心里。”近三年來，學校每年都要調入和聘用幾十位教師，不管是聘用還是調入，對于每一位即將加入的新成員，我都會事先做深入的了解，并為他們找到最適合的崗位。學校180余名教職員工，每一個我都能準確地叫出名字，熟知他們的家庭狀況、個性特長，因為只有深入的了解才會產生真誠的欣賞。

體育教師劉老師歷經周折調入青園小學，他的桀驁不馴我早有耳聞，但我也知道有個性的人必有所長。于是我大膽地將體育組的“金剛”交到了他手里。擔任組長的他精神煥發，充滿激情地帶領一幫小伙子埋頭苦干，用他原來同事的話說，劉老師到青園是脫胎換骨了。他很快就用優異的成績回報了我對他的信任和欣賞，省體委羽毛球訓練基地掛牌了，省體委足球訓練基地掛牌了，長沙市田徑傳統運動項目學校申報成功了，區冬運會團體第一，長沙市八運會少年組團體第一……各種運動賽事捷報頻傳。

校聘的美術教師小璐，因為入編的問題，心理壓力很大。我非常欣賞她的創意手工，多次在老師們當中對她大加贊賞，并請她給青園夜校的青年教師們上手工課。沒想到小璐呈現給學校一個巨大的驚喜：在五周年校慶之際，她帶領青園夜校的全體學員，整整一個星期晚上連續加班，一針一線地縫制出了一個巨大的精美生日蛋糕！這個凝聚著心血與熱愛的蛋糕成了五周年校慶最隆重的獻禮和最閃亮的飾物！也讓小璐在贊美聲中找到了自信，看到了自己的價值！她跟美術組的老師們一起經營創意美勞社團，帶領著一幫孩子進行創作，挖空心思琢磨各種可用的材料，紙卷筒、廢報紙、扣子、襪子、熱縮片……在他們手里都成了精美的工藝品。孩子們的思維能力、動手能力、審美能力都得到了發展，在本屆全國DI大賽中，她指導的參賽隊獲得了全國一等獎的好成績！

這樣的例子在青園不勝枚舉。

我們所期望的是，在青園這個團隊里，每一位老師都感受到自己是重要的;每一位老師都能相互欣賞，隨時都能聽到鼓勵與贊美;每一位老師都感受到學校因他的成長而驕傲。實際上每一位老師都有相當大的潛能，這個潛能最大程度上的發揮，取決于校長對每一位老師的態度。我們的老師是淳樸的，如果我們心里能時時裝著他們，在乎他們，遇到困難幫助他們，取得成績欣賞他們，他們就會發揮出最大的潛能，不待揚鞭自奮蹄。

賦予一份主人翁的責任，激發教師創新的熱情

一個人一旦有了主人的感覺，他的態度就會積極許多，潛能就會被激發出更多。我們很多時候會強調執行力，而我現在更喜歡跟老師們談管理，談領導力。在行政例會上我們開展“頭腦風暴”，暢談治校理念;在教師例會上，我跟老師們講“微笑的魔力”，教老師們用情感管理的方式引領孩子和家長;在教研組長、年級組長和辦公室主任中間，我把他們領導的集體比作學校，稱贊他們能像校長一樣思考問題，帶好隊伍。在某種程度上說，培養執行力的最好方法是培養他的領導力，讓老師們主動地、積極地、創造性地把他自己感興趣的工作做得出色，在工作的過程中享受樂趣和成果。

在不違反基本原則的基礎上，我把管理的權力盡可能地交到老師們手里。

在學校的行政管理上，責任下放，民主管理。學校的重大事件、重要決策職代會共同商討，集體決策;學校文化建設、設施設備的完善添置、評優評先，方案都由各部門自己拿;外出培訓人選、活動經費安排、學科獎勵計劃、個人年度考核，教研組自己定。學校民主之風催開了和諧之花。

在學科課程管理中，劃分責任區，“我的地盤我做主”。語數外學科教師按年級學科分組，辦公室與班級教室相鄰，功能教室都與該學科教師辦公室相鄰或者相連，讓所有的老師都便于打理自己的教室，使教室真正成為老師們的工作室。這里的設計擺放、功能使用、設備添置都凝聚了老師們的心血，老師們就像經營自己的家一樣經營自己的教室。學校到處都閃爍著青園人創造性思維的火花，每一處都在詮釋著青園人苦心經營、傾心奉獻的教育情懷，他們是青園真正的主人！

陶行知先生說：“國家把整個的學校交給你，要你用整個的心去做整個的校長。”我用這句話鞭策自己，也用它來激勵每一位老師成為學校的主人。校長一旦把學校交給了老師，老師也就把整個的心交給了學校。

培育一份家的情懷，激發教師生活的熱忱

我認為學校就是一個大家庭，她應該具備“家”的特質：安全、溫暖、包容，讓每一個身處其中的成員都更有幸福感。在這個家園里，他的精力能夠很好地集中在他喜歡的工作上，并在工作中感受到快樂與價值，他能夠很好地享受這里的一切。這樣，老師就能對生活充滿熱忱，智慧與潛能就能得到充分發揮。

在青園，大家都以兄弟姐妹相稱，不論工作多忙，我總是鼓勵學校行政走進老師中間，傾聽老師的聲音，解決老師的困難。每一周我會輪流跟一個辦公室的老師共進晚餐，在融洽的氛圍里，談工作，談生活，在如家的溫馨氛圍中增進了解，加強溝通。我們為女教師開設“心靈瑜伽課程”，請來專業瑜伽教練，調節身心，追尋健康與美麗;為男教師成立“籃球俱樂部”，揮灑青春的活力，每當有校際賽事，美女老師們就成了球場旁最靚麗的風景，讓老師們的業余生活七彩斑斕。三月三的地菜煮雞蛋，冬至香甜的糯米飯，元旦包裹著驚喜的新年餃子……都飄出青園家的味道。三八婦女節，男教師為我們精心準備的大餐，全情投入的表演，和那浪漫溫情的點點燭光，處處洋溢著家的情感。校慶日，全校教職工和家屬歡聚一堂，真情流露，感恩工作，感恩生活，人人都為青園大家庭倍感驕傲！

我一直認為學校管理的核心就是激發，以情感帶動情感，以心靈觸動心靈，像我們的老師在文章中所抒發的那樣：

在青園這樣一個家園中，即便是累了，困了，倦了，也有真善美筑就的溫暖的棲息之所，牽引著高尚靈魂沿著美夢成真的方向不斷地前行。

在青園這樣一個家園中，我們每個老師都過得非常的充實、快樂而幸福。即便有時真的可能很累，也是累并快樂著！即便是流淚，當淚水滑進嘴里，也能品出幸福的滋味。

青園——早已成為我們心靈的依靠……

心理測量學范文5

關鍵詞　Raseh模型；潛在特質模型；客觀測量

分類號　B841

Rasch模型(Rasch，1960)是由丹麥數學家和統計學家Georg Rasch(1901～1980)提出的一個潛在特質模型。這一模型以自然科學領域內的客觀測量為標桿，為社會科學領域內的測量建立起一套客觀標準，以確保測量所提供的信息更為客觀和可靠(Bond&Fox，2007)。經過半個世紀的發展，Rasch模型已在心理科學領域得到了廣泛應用(例如，Merrell&Tymms 2005；Mok，Cheong，Moore，&Kennedy，2006；Waugh，2002，2003；Weave，2005)。在國內，雖然早在上世紀80年代就已經有了關于Rasch模型的介紹和研究，但很長一段時間內，這一領域并未贏得學術界足夠的重視。筆者作過一個簡單的統計，在“中國知網”(1915至2008年)和“中國期刊全文數據庫”(1915至2009年)中以“Rasch”為主題進行搜索，總共只找到93篇非重復中文文獻(搜索日期為2009年11月10日)。文獻數量按年份分布如表1。

在2000年之后，尤其是最近5年，Rasch模型得到了越來越多的重視，研究也日益增多，研究所涵蓋的領域包括心理、教育、考試研究、統計、醫學、康復等學科。但在已發表的文獻中，系統性介紹Rasch模型特點以及其發展趨勢的仍然很少。少數幾篇綜述文章多發表于上世紀90年代初(例如，Keats，陳富國，1990；羅冠中，1992)，并未反映出Rasch模型在近20年的發展?；诖?，本文將從基本理論、數學表述、以及主要特點幾個方面對Raseh模型的進行了討論，探討其如何幫助心理科學研究者實現客觀測量，并介紹其最新的發展趨勢。

1　Rasch模型的基本理論

作為一種潛在特質模型，Raseh模型通過個體在題目上的表現(通常表示為原始分數)來測量不可直接觀察的、潛在的變量。根據Rasch模型原理，特定的個體對特定的題目作出特定反應的概率可以用個體能力與該題目難度的一個簡單函數來表示。個體回答某一題目正確與否完全取決于個體能力和題目難度之間的比較。

IRT模型或其他統計方法傾向于使用不同的參數來以適應數據的特點，而Rasch模型則要求所收集的數據必須符合模型的先驗要求(Andrich，2004)。這正是Rasch模型所強調的“客觀測量”的一個關鍵點。我們可以舉一個例子來看一看用參數來適應數據這種方法的不足。有不少研究對體能測驗結果進行了因子分析，試圖確定體能這一潛在變量的結構(例如，Fleishman，1964；Marsh，1993；Ponthieux&Barker，1963)。而無論是探索性因子分析，還是驗證性因子分析，在試圖建立客觀測量時均有明顯缺陷。Marsh(1993)指出，探索性因子分析使研究人員無法控制最終所得出的因子結構。研究人員無法測試任何先驗因子結構，數據所產生的結果便是最終結果。至于驗性因子分析，盡管它可以讓研究人員測試其先驗因子結構，并提供指標來判斷先驗因子結構與實證因子結構之間匹配的程度，但也未能達到客觀標準。因為數據作為一個“現實”，而因子模型只是用來“解釋”這些數據。當模型無法正確地解釋數據時，就必須對模型進行修改，對參數進行修訂，直到修訂后的模型和參數可以很好地解釋數據。因此，在上述以數據為本的研究中，要想取得一個穩定的體能因子結構幾乎是不可能的，因為各研究中體能測試的樣本不同，所使用的體能指標也不同。從這個意義上講，如果沒有建立起一個獨立于數據的、客觀的尺度，在不同情境所得到的測量結果就不可能進行有意義的比較。有鑒于此，Rasch模型設定了客觀測量中數據必須滿足的先驗要求。如果數據不適合Rasch模型，首先應該做的是審視數據本身可能存在的問題，而不是改變模型自身參數設置來適應不同的(可能存在問題的)數據。在Rasch模型下，不同的研究結果(因子結構、測驗量尺等等)可以適用到其他情境下，因此，在不同情境下進行的測量可以在一個穩定和一致的框架內進行解讀和溝通。有研究者(Al-Owidha，2007)比較了Rasch模型和三參數IRT模型在同一套學業測驗數據上的表現。結果發現，雖然三參數IRT模型對數據的擬合度高于Rasch模型(這不難理解，因為三參數模型的方法是使用更多參數去使“模型適應數據”，而Rasch模型卻要求“數據符合模型”)，但Rasch模型卻能提供更穩定、更精確的題目難度參數，以及更好的題目和測驗信度。

4　Raseh模型的主要特點

4.1個體和題目共用同一把尺

Rasch模型通過對數轉換，將個體和題目在同一單維度尺上進行標定(Wright&Masters.1982)?；诟髯栽诖藛尉S度連續體上的位置，個體與個體之間、題目與題目之間、個體與題目之間可以方便地進行直接比較。這是Rasch模型區別于傳統測量方法的一個顯著特征，也是實際應用當中最有意義的一個方面。例如：在傳統測量方法下，如果A題目沒有對某學生施測，那么即使該學生回答過類似的另一題目B，也很難預測其在A題目上的表現。然而，Rasch模型可以解決這一問題。依據各自的能力或難度水平，個體和題目被標定在同一量尺的不同位置上。根據這種相對位置所提供的信息，即使沒有真正施測，也可以預測學生在該題目上的表現。

4.2數據的線性特質

任何觀測值都來源于原始數據，但原始數據所提供的卻往往并非有效的“量度”，因為從原始數據人們很難作出有價值的推論(Wright，1997；Wright&Mok，2000)。Bond和Fox(2007)指出，原始數據很多時候表示的僅僅是個體或題目的次序，而并非是關于“多少”的問題，也就是說，無法得知不同分數之間的距離，更無法提供分數在比例上的意義，而這恰恰是有效測量的關鍵所在。心理測驗經常使用李科特量表(例如：非常不同意，不同意，同意，非常同意)。學生在此類量表上的原始分數看起來是等距的，但這并不意味

著原始分數所代表的心理特質水平也具有等距的意義。因為等距的量度意味著分數每增加一個單位，所代表的特質水平也相應地有一個同等大小的增量。然而事實并非如此?！胺浅２煌狻迸c“不同意”之間的距離，未必等于“不同意”與“同意”之間的距離。

數據的線性是任何統計方法――比如因子分析――的一個基本假設(Wright&Masters，1982)。然而，很多數據，就象學業考試的原始分數，實質上并不符合線性數據的要求。因此，嚴格來講，大部分統計方法并不適用于這種非線性(或非等距)數據。只有將這種數據轉換為線性的、等距的數據，才可應用統計方法(Wright，1997)。Rasch模型可以將非線性數據轉換成為具有等距意義(對于所測量特質而言)的“logit scale”數據，從而使客觀的測量成為可能(Linacre，2006)。有些學者(例如，Fischer，1995)甚至認為Rasch模型是唯一可行的將次序數據轉換為線性數據的方法。

4.3參數分離

由于個體所得到的原始分數依賴于所施測的題目，而對分數的解讀又依賴于特定施測樣本，因此傳統測量方法很難用來比較或預測個體在不同測驗之間的表現。這是傳統測量理論的一個重大缺陷。假設有兩份測量同一心理特質的心理測驗問卷A和B，一名學生在A卷中得到80分，那么他在B卷中可以得到多少分?很難預測。即使是同一學生，題目測量的是同一特質，只要題目不同，分數也可能有不同。再舉一例：學生甲在A卷中得到80分，學生乙在B卷中也得到80分。哪一位學生所對應的心理特質水平更高?很難直接作出判斷，因為雖然他們分數相同，但卻是在不同測驗中得到的，其分數所代表的含義也不同。

為了避免直接對原始分數進行解讀所造成的困難，有時會用標準化分數(如z分數和t分數)代替原始分數來比較在不同測試上的得分。然而，標準分數的計算依賴于所選取的樣本。由于不同樣本的平均數和標準偏差都不同，意味著基于標準分數的比較只適用于來自同一樣本的個體。百分數也有類似的問題。相同的成績，在不同的常模中所對應的百分數也會不同。

Wright和Stone(1979)指出了客觀測量兩個相輔相成的要求。一個是題目難度的標定必須獨立于被試樣本的分布，另一個要求是對個體能力的測量必須獨立于題目的難度分布。此一特點稱為“參數分離”或“參數恒定”(Embretson&Reise，2000；Wright&Masters，1982；Wright&Mok，2000)。在前文述及之方程(1)中，正確反應的概率只由個體的能力(θm)和題目的難度(δi)所決定。這意味著Rasch模型所提供的個體能力和題目難度參數，是完全獨立樣本分布或題目難度分布的。因此，Rasch模型符合客觀測量對于參數分離的要求。

然而，需要特別指出的是，在實際應用當中，運用Rasch模型對個體能力和題目難度進行標定時，其數值往往會隨著題目難度和個體能力的不同組合而改變。這豈不是和“參數分離”的要求不一致嗎?其實不然，“參數分離”并非要求每次標定的絕對估值都一樣，而是要求個體與題目之間的差異(在潛在特質量尺上的相對位置)保持不變，也就是保持一種相對的恒定。從這個意義上來說，Rasch測量提供的是關于個體能力和題目難度的等距分數，而不是等比分數。

5　Rasch模型擬合度

如前所述，Rasch模型是一個理想的數學模型，在現實的測量中不大可能得到完美的實現。因為再簡單的測試，都可能受到無關因素的干擾。例如數學考試，學生的表現除了受數學能力影響之外，還有可能受學生的閱讀理解能力(能否讀懂題目)的影響。心理測驗的成績主要由所測特質決定，但也可能受施測當時學生的身體狀況和意愿，以及其他不可預測的因素影響。雖然測量的復雜性和不完善性是客觀存在的，但測量工具開發者和使用者應該知道所收集的數據在何種程度符合測量模型要求。Rasch分析提供的擬合度指標可以檢驗實證數據與Rasch模型的擬合程度。題目的擬合度指標不好，說明可能存在目標特質之外的其他變量，或者對所測量特質的定義不恰當。

很多運行Rasch分析的計算機程序(例如，WINSTEPS，ConQuest)提供兩種形式的卡方擬合指標：Outfit Mean Square(Outfit MNSQ)和InfitMean Square(Infit MNSQ)。這些擬合指標都是由殘差計算而來。Outfit MNSQ是殘差的均方。InfitMNSQ則是加權(以方差為加權系數)后的殘差均方。Outfit MNSQ對極端值(異常數據)比較敏感，因為極端值會產生的較大的殘差。而Infit MNSQ對題目難度與個體能力水平相當的數據較為敏感，因為此類數據方差(加權系數)較大(smith，2002)。Outfit MNSQ和Infit MNSQ的取值范圍介于0到正無窮大。理想值為1，意味著實際數據完全與Rasch模型相擬合。大于1(underfit)表示實證數據的變異數多于Rasch模型的預期；小于1(overfit)表示實證數據的變異數少于Rasch模型的預期。從測量的角度來看，underfit(大于1)的數據對測量客觀性的負面影響要大過overfit(低于1)的數據。Underfit是由雜亂無章的答案所造成，會直接損害測量的質量。而overfit雖然可能會降低測量的效率，但對測量質量的影響反而不大(Bond&Fox，2007)。Infit MNSQ和Outfit MNSQ可接受的取值范圍在很大程度上取決于研究目的。Linacre(2006)建議取0.5至1.5的范圍，但很多研究選取了更為嚴格的標準，例如，0.7至1.3(Mok et al.，2006；Zhu&Cole，1996)或0.8至1.4(Wolfe&Chiu，1999)。Infit和Outfit指標也有標準化的形式，分別表達為Infit ZSTD和Outfit ZSTD。Infit ZSTD和Outfit ZSTD服從t分布，理想值為0，標準差為1。

不過，在Rasch分析中對于擬合指標的使用必須謹慎。Wright和Panchapakesan(1969)指出，在測驗發展過程中，簡單地刪除擬合指標不好的題目并非值得提倡的做法。測驗設計者應該仔細審查這些擬合指標不好的題目，找出可能對其產生影響的其他因素，如區分度和猜測效應的影響。Bond和Fox(2007)也建議利用擬合度指標來查找表現異常的題目和個體，而不是將它們作為決定是否刪除某個題目的簡單標準。smith(2002)指出，應該把實證數據對測量模型的擬合程度看作是一個連續體，而不是一個簡單是或否的問

題。換句話說，“擬合”與“不擬合”之間并沒有森然的壁壘，應該根據不同情況選擇合適的標準。

6　Rasch模型的發展趨勢

如何真正實現測量的客觀性一直是困擾心理科學，乃至所有社會科學研究者和實踐者的問題。Rasch模型在解決這個問題上實現了很大的突破，其堅實的理論基礎，簡單的數學表述也確保了它廣泛的應用前景。Rasch模型在諸多方面與IRT模型相類似，但卻從根本上避免了多參數IRT模型在應用上所固有的缺陷。除了心理科學領域，關于Rasch模型的研究和應用還大量出現于教育領域(例如，Ito，Sykes，&Yao，2008；Liu&Wilson，2009；Tong & Kolen，2007)，衛生和醫學領域(例如，Hsueh，Wang，Sheu，&Hsieh，2004；Strong，Kahler，Ramsey，&Brown，2003；Tesio，2003)。體育和運動科學領域(例如，Bowles&Ram，2006；Hands&Larkin，2001；Heesch，Masse，&Dunn，2006；Zhu，200 1；Zhu&Cole，1996)，等等。

Rasch模型從產生至今已有半個世紀，但仍保有旺盛的生命力，并處于持續不斷的發展之中。多維度Rasch模型(Multidimensional Rasch Model)是其中一個很重要的趨勢。比如運用多維度Rasch模型對“國際學生評價項目”(Programme for International Student Assessment，PISA)數據的分析(例如，Liu&Wilson，2009)；對包含不同分量表的測驗數據進行分析(例如，Cheng，Wang，&Ho，2009)；等等。這里的多維度并不是對Rasch模型單維度要求的一種顛覆，而是一種發展。在多維度Rasch模型里，對同一維度的個體能力和題目難度的標定仍然固守單維度原則，但與此同時，它充分利用相關維度特質(或相關分量表)所提供的有用信息，以提高測驗的效率和對目標特質測量的精確度。多維度Rasch模型在某種程度上解決了單維度模型分析多維度測驗數據時遇到的信、效度問題(Rost&Carstensen。2002；Yao&Schwarz，2006)，也使測驗在涵蓋較為廣闊范圍內容的同時，也有較高的測驗精確度(cheng et al.，2009)，從而極大地延伸了Rasch模型的應用空間和前景。

測驗的等值和鏈接(Test equating and linking)是Rasch應用的另一個熱點研究領域。測驗的等值與鏈接是指將不同測驗中取得的分數轉化為可以互相替換或比較的分數的統計過程。等值主要處理內容相同而難度不同的測驗，而鏈接則用來處理內容和難度都不相同的測驗(Kolen&Brennan，2004)。越來越多的研究著眼于運用Rasch模型建立一把垂直量尺(vertical scale)(例如，Custer，Omar，&Pomplun，2006；Hanson&Beguin，2002；Ito et al.，2008；Pomplun，Omar，&Custer，2004；Tong&Kolen，2007)。比如，常識告訴我們小學二年級學生的數學能力應該比一年級學生高，但要想確切知道他們之間的數學能力差距，卻很困難。因為不同年級的考卷題目所測量的內容和，或題目的難度水平不同，因此所得到的分數無法直接比較。如果構建一把可以測量不同年級水平的數學能力的垂直量尺，將在不同試卷上得到的分數放在同一把量尺上進行比較，就可以知道不同年級學生的數學能力差異，跟蹤學生在數學能力上的發展。然而，構建這種垂直量尺的嘗試受到許多因素的影響，比如數據收集方案(通用題目設計或逐級共用題目設計)、建尺方法(同時標定或分級標定)、甚至所使用的電腦程序(WINSTEPS、BILOG-MG、或其它程序)。是否存在所渭“最佳方法”，還沒有達成一致。

基于Rasch模型的計算機自適應性考試(Computer Adaptive Testing，CAT)已成為當今教育測量研究與實踐的一個重要發展方向。傳統考試方法要求所有考生作答完全一樣的題目。背后的一個假設是，任何題目對全體考生提供的評價信息是一樣的。而事實并非如此，對某一水平考生有用的題目，對另一水平的考生來說可能完全沒有意義。CAT則根據考生不同的能力水平，提供不同的測驗題目，以一種最有效、最經濟的方法來標定考生的能力。Rasch模型在實現CAT的各個方面，包括試題庫的建設，測驗題目難度的標定，題目或測驗之間的等值，對“作弊策略”的偵測，以及最后的評分，都扮演著重要角色(例如，Gershon&Bergstrom，1995；Scalise，2004；Styles&Andrich，1993)。

心理測量學范文6

【關鍵詞】認知情緒調節；大學生；信度；效度；心理測量學研究

中圖分類號：B842.1 文獻標識碼：A 文章編號：1000-6729(2008)004-0281-04

情緒調節是決定個體幸福和成功的一個重要因素［1］。情緒調節是指所有減少、維持或增強情緒的策略。它包括各種有意識和無意識的生理、行為和認知過程［2］。研究表明，個體運用不同的情緒調節方式會影響其具體的情感、認知和社會功能，繼而影響到其積極情緒、良好人際關系以及主觀幸福感的發展［3，4］。對情緒調節起關鍵作用的在于個體的認知，因此，如何從認知的角度關注情緒調節成了近年來情緒調節研究的一個熱點。

認知情緒調節，也可稱為認知應對，是指個體在處理來自內部或外部的、超過自身資源負擔的生活事件時，所做出的認知上的努力［5］。荷蘭學者加尼弗斯蒂（Garnefski N）從情緒調節和應對兩個研究領域對認知情緒調節進行了深入的研究［6］，并于2001年編制了認知情緒調節量表（Cognitive Emotion Regulation Questionnaire,CERQ），獨立地考察個體在經歷負性生活事件之后傾向于運用的不同于“行為”應對的“認知”應對策略，以及它如何影響個體在經歷負性生活事件之后的情緒發展進程。CERQ是以青少年和成年人為被試進行修訂的，現有荷蘭、英語、法語等版本，都顯示出良好的心理測量學特征［7］。

本研究旨在修訂中文版本的CERQ，為研究我國大學生的認知情緒調節策略運用及其與情緒、行為問題的關系提供科學的工具，同時為更好地開展大學生情緒調節策略訓練提供依據。

1 對象和方法

1.1對象整群選取長春4所高校的在校本科大學生。共發放問卷800份，獲得有效問卷744份。男、女生分別占總人數的45.7%和54.3%，文、理科學生分別占總人數的55.9%和44.1%，大一至大四學生分別占總人數的32.1%、29.9%、22.7%、15.3%。被試的年齡16-26（20±1）歲。間隔3個月后對其中的260名被試進行CERQ后測。

1.2工具

1.2.1認知情緒調節量表（CERQ）中文版

加尼弗斯蒂（N.Garnefski）的CERQ ［6］是專門用于測量個體經歷負性事件之后的感受與想法，包括36個項目的自我報告量表，分9個維度：自責（Selfblame）、接受（Acceptance）、沉思默想（Focus on thought/rumination）、積極調整（Positive refocusing）、關注計劃（Refocus on planning）、積極重評（Positive reappraisal）、自我安慰（Selfcomfort）、災難化（Catastrophizing）及責備他人（Blame others）。采用5點記分法，從1（從不）-5（總是）。各子量表得分即為相應維度的4個項目之和。子量表的得分越高，表示個體越經常采用此種認知情緒調節策略。該量表在荷蘭施測，Cronbach α系數大多數超過0.70，有的子量表甚至超過0.80，且具有良好的結構效度。

認知情緒調節中文版量表的翻譯先由4位精通英文的心理學工作者，將量表項目由英文版譯為中文，然后再請4位精通英文的心理學工作者，將中文回譯成英文，修改后確定CERQ的中文版問卷，并征得CERQ編制者加尼弗斯蒂（N.Garnefski）的同意。

1.2.2 Rosenberg自尊量表（SES）［8］

自尊量表是對個人總體自尊情況的自我報告。由10個項目組成，采用4點記分法（1很不同意，2不同意，3同意，4很同意）。分值越高，自尊程度越高。在本研究中，自尊量表的α系數為0.88。

1.3統計方法進行探索性因素分析、驗證性因素分析、描述性統計、信效度檢驗及Pearson分析。

2 結果

2.1 探索性和驗證性因素分析

將總樣本隨機分成兩樣本，對樣本一的368名被試數據進行探索性因素分析。首先利用項目分析剔除不能較好反映心理特征的19和25兩個項目，對剩下的34個項目進行探索性因素分析。采用主成分分析中的方差最大化正交旋轉，結果顯示，Bartlett球形檢驗顯著(χ2=4428.34,P＝

對樣本二的376個數據進行驗證性因素分析，結果顯示，8因素模型的擬合指數良好：χ2/df=3.28，GFI=0.81，NNFI=0.90，CFI=0.92，RMSEA=0.08。

2.2 信度、效度檢驗

2.2.1 內部一致性信度與重測信度

認知情緒調節量表總分及其自責、容忍、沉思默想、積極調整、積極設想、自我安慰、災難化和責備他人8個子量表的Cronbach α系數分別為：0.89、0.72、0.68、0.70、0.66、0.81、0.60、0.81、0.76。3個月后總量表及其8個維度上的重測信度分別為：0.82、0.69、0.72、0.68、0.79、0.60、0.71、0.76、0.67。表明問卷的內部一致性及穩定性較好。

2.2.2效標關聯效度

認知情緒調節方式與心理健康關系密切，而自尊又是心理健康的核心因素，國內學者李虹的研究表明，Rosenberg的自尊量表更有效［9］。因此，本研究使用自尊量表作為指標，考察CERQ的效標關聯效度。CERQ與自尊量表之間的相關見表2。結果顯示，CERQ量表除自我安慰維度外與自尊量表評分均有相關性，其中災難化策略與自尊總分和自我肯定維度呈負相關，與自我貶低量表呈正相關；積極設想與自尊總分和自我肯定維度呈正相關，與自我貶低量表呈負相關，且相關均有統計學顯著性。

表3顯示男、女大學生的積極設想策略評分均較高，災難化、責備他人評分均較低。女大學生的自責與災難化評分低于男大學生，積極調整評分高于男生。

3 討論

CERQ主要測量個體在經歷負性生活事件之后的想法和感受，即個體所運用的認知情緒調節策略。CERQ可用于診斷和預測個體是否存在抑郁癥狀［6，7］，并為抑郁的預防與干預訓練提供有價值的參考。荷蘭版CERQ共36個題項，9個維度。本研究結果表明，剔除不能較好反映心理特征的2個題項，以及存在雙負荷的2個題項，中文版CERQ共有32個題項；修訂之后的中文版CERQ包括自責、容忍、沉思默想、積極調整、積極設想、自我安慰、災難化和責備他人8個維度，這與荷蘭版的9因素結構稍有不同。以早期青少年、晚期青少年、成人、老年人和臨床病人為被試，荷蘭版CERQ都發現“關注計劃”和“積極重評”這兩個因子的題項有些是重疊的，但加尼弗斯蒂（Garnefski N）認為兩者的概念是不同的，“關注計劃”主要是指為了應對負性生活事件采取何種行動的想法，而“積極重評”主要是指根據個人的發展經歷給負性生活事件賦予積極的含義，因而堅持將其劃分為兩個維度［6］。而在本研究中，上述兩個維度中的各題項很好地聚合在一個因子上，因此將其劃分為一個維度，并命名為“積極設想”，它包含著對負性生活事件積極計劃與重新評價兩層含義。這可能是中西方文化差異造成的,也可能是樣本抽樣誤差所造成的，有待進行深入的研究。8因素模型的驗證性因素分析結果表明，各項擬合指數均達到心理測量學的要求。顯示中文版CERQ的32個項目，8維度結構對于中國大學生是適用的。

CERQ在荷蘭、法國都具有良好的心理測量學特性。中文版信度分析顯示，CERQ的內部一致性及穩定性較好。此外，本研究以自尊量表來推斷CERQ的效標關聯效度，并預期，積極調整、積極重評將與自尊總分、自我肯定量表呈正相關，而沉思默想、災難化、責備他人、容忍、自我安慰和自責將與自尊總分和自我貶低分維度呈負相關。本研究結果符合預期，中文版的CERQ具有良好的心理測量學特性。

此外，值得注意的是，本研究結果顯示，我國男、女大學生較不常運用災難化、責備他人的認知情緒調節策略，這與加尼弗斯蒂（Garnefski N）研究結果一致［6］。但在自責、積極調整與災難化策略的運用上存在著顯著的性別差異，與以往的研究結果不一致［10，11］。加尼弗斯蒂（Garnefski N）等學者的研究顯示：對于18-65歲的成年人，女性始終是比男性更經常地運用除自責之外的大多數策略；男性比女性更經常地運用自責策略。這在某種意義上顯示出認知情緒調節策略在性別表現方面存在著文化差異?？赡艿慕忉屖?，在中國的文化背景下，個體的情緒比較內隱、含蓄，而且愛面子，羞恥心較強。與女大學生相比，男大學生承載著來自社會及家庭較高的期望，因而其所承受的心理與社會壓力更大，當其在學業及活動中遇到負性生活事件或挫折時，男大學生在觀念上可能會表現出更多的灰心喪氣、一蹶不振及自我挫敗、自我遣責等，表現為較多地運用自責及災難化等認知情緒調節策略。據社會對性別角色的期望研究［12］表明：多數人認為適合女性的人格特質多與情感、人際關系有關，女性比男性情感細膩、敏感，擁有更多的情緒知識和更敏銳的情緒調節技巧，以適應社會環境的變化，因而，在成長過程中女大學生比男大學生更好地發展、形成了更有效的認知情緒調節策略。

本研究僅以大學生為被試，因此，上述結果是否適用于其他成人群體及臨床病人，還有待進一步證實。

參考文獻

1 Thompson RA. Emotion regulation and emotion development. Educ Pschol Rev, 1991,3: 269-307.

2 Gross JJ. Emotion regulation in adulthood: Timing is everything. Curr Direct Psychol Sci, 2001, 10(2):348-362.

3 Parkinson B, Totterdell P. Classifying affectregulation strategies. Cogn Emot, 1999,13: 277-303.

4 Gross JJ. Individual Differences in Two Emotion Regulation Processes: Implications for Affect, Relationships, and WellBeing. J Pers Soc Psychol, 2003, 85(2):348-362.

5 Garnefski N, Kraaij V,Spinhoven Ph. Negative life events, cognitive emotion regulation and emotional problems. Pers Individ Differ, 2001，30：1311-1327.

6 Garnefski N, Kraaij V,Spinhoven P. CERQ: manual for the use of the cognitive emotion regulation questionnaire. Leiderdorp, The Netherlands: DATEC,2002.

7 Garnefski N, Kraaij V. Cognitive emotion regulation Questionnaire: Development of a short 18item version (CERQshort).Pers Individ Differ, 2006，41：1045-1053.

8 季益富.Rosenberg. 自尊量表（The selfEsteem Scale,SES）. 見:汪向東，王希林，馬弘，編著. 心理衛生評定量表手冊.中國心理衛生雜志,1999,（增刊）:318-320.

9 李虹.心理健康的測量：自尊量表和情感量表的比較.心理發展與教育.2004，(2):75-79.

10 Kraaij V, Garnefski N, de Wilde EJ, et al. Negative life events and depressive symptoms in late adolescence: Bonding and cognitive coping as vulnerability factors? J Youth Adolesc, 2003,32(3), 185-193.

11 Garnefski N, Kraaij V. Relationships between cognitive emotion regulation strategies and depressive symptoms:A comparative study of five specific samples. Pers Individ Differ, 2006，40：1659-1669.

心理測量學范文1

心理測量學范文2

心理測量學范文3

心理測量學范文4

心理測量學范文5

心理測量學范文6

相關文章

相關論文

相關期刊

校園心理

校園心理

心理研究

校園心理

相關精選