2013年4月4日 星期四

研究方法-信度(reliability)與效度(validity)


一、信度(reliability):
(一)信度的意義:

o意義: 測量的可靠性 trustworthiness
n一致性(consistency)─表示測驗內部試題間是否相互符合
n穩定性(stability)─不同的測驗時點下,測驗分數前後一致的程度
o信度的數學原理
n凡測量必有誤差,誤差由機率因素所支配,為一隨機誤差(random error
n測驗分數=真實分數+誤差分數
n測驗總變異量=真實分數的變異+隨機誤差變異
n信度係數介於0+1之間,數值越大,信度越高 

1、定義:信度即可靠性,指測驗結果的一致性或穩定性。一個測驗的信度在於表示測驗內部問題間是否相互符合與兩次測驗分數是否前後一致。誤差越小,信度越高。
2、信度的分析涵義:
(1)測量工具的穩定性、可性賴性或可預測性。
(2)測量工具精確性。
(二)信度的基本原理:
1、從受試者內在的變異加以分析,用測量標準誤說明可靠性的大小。
2、從受試者相互間的變異加以分析,用相關係數表示信度的高低。
(三)信度的類型與求法:
(一)穩定性即使用再測法test-retest reliability, 在不同時間使用同一測量對同一群樣本施測若兩次分數之相關係數高表示該工具有穩定性但此法易受記憶與成長學習因素影響(即受試者會因為成長或記憶因素在第二次施測時獲得較高的分數使測量不具有reliability).
1、再測信度(test-retest)(r>0.7表示有信度):
(1)定義:用同一種測驗,對同一群受試者,前後測驗兩次,在根據受試者兩次測驗分數計算其
相關係數。係指以同一種測量工具,對同一群受試者,前後測驗兩次的相關係數。又稱穩定係數
(2)兩次測驗相隔的時間應適宜,隨測驗的題目和性質而不同,少者2週,多者半年,甚至會到1~2年之久。
(一)等質性即使用複本效度parallel reliability, 若同一個測驗有兩種以上之複本可以交替使用則對同一群受試者連續或距一段時間施以兩種複本再根據得分計算相關係數係數越高, parallel reliability越高.此法雖可避免再測法之缺點但複本的設計需要具一致性難度高如語法使用句型題數難易度等都要經過謹慎設計.
2、複本信度(alternate forms):
(1)定義:如果一套測驗有2種以上的複本,即可交替使用,根據一群受試者接受2種複本測驗的得分,計算相關係數。同一群受試者接受兩種複本測驗的得分之相關係數。

(2)用不同的語詞(把題目問題重新用語或改變次序,有兩套複本,相似但不同),測量相同特質,對同樣的人,在不同的時間測。
consistency:即用折半信度庫李信度內在一致信度與觀察者評分信度來測量一個工具(尤其是問卷)的內在一致性.
3、折半信度(split-half):測驗題目依題目的單雙數或其他方法分成兩半,計算受測者在兩半測驗上的分數的相關係數。
(1)樣本分兩半:樣本夠大可以把樣本分為兩半,再用複本下去測,但兩方的背景要接近。
(2)題目分兩半:沒有複本,但把題目分兩半去測,再根據所得分數,去算相關。
4、庫李信度:用一個量表去測量一個概念,比用一個題目測量一個概念有效。
5、評分者間信度(inter-rater reliability):給許多評分者做題目,再去分析其中的相關。不同的評量者間分數的相關係數。
內在一致性信度internal consistency reliability又稱Cronbach’s α reliability: (It is used to judge the consistency of results across items on the same test.) 檢定一個量表每個題目之一致性或關聯性如果Cronbach’s α值很低(可用spss計算), 則表示題目和題目之間的關連性很低其測量出的結果自然也就無法一致性量表就不具reliability.
o內部一致性係數(coefficient of internal consistency
n反映測量工具內部同質性、一致性或穩定度。同質性越高,代表量表試題是在測量相同的特質。KR20適用於二分變數的測量,Cronbach’s α適用於多元尺度變數的測量

二、效度(validity):有效度一定有信度:
效度的意義:

n測量的正確性,指測驗或其他測量工具確能測得其所欲測量的特質或功能之程度
n測量的效度愈高,表示測量的結果愈能顯現其所欲測量對象的真正特徵
n測驗的效度通常以測驗分數與其所欲測量的特質之間的相關係數表示之

1、表面效度(face validity):把設計的問卷,拿給親朋好友填,並問他們問卷好不好。指測量工具在外顯形式上的有效程度 
2、內容效度(content validity):找一群有相關經驗的人來看題目,問他們設計的好不好,有沒有哪裡要修改。n反映測量工具本身內容廣度的適切程度,強調測量內容的廣度、涵蓋性與豐富性 
3、效標效度(criterion validity):把測量工具和其他可測量的工具,算他們之間的相關n以測驗分數和特定效標(criterion)之間的相關係數,表示測量工具有效性之高低。 
(1)同時效度(current validity):把設計好的題目,和標準工具(同樣的觀念,相同的變項),去算之間的相關。
如:測疼痛忍受度,有四題一分鐘可測完的題目,和另一份標準工具的題目,45題1小時可做完的題目去測,如果R=0.92(高相關),表示原題目有同時效度。
(2)預測效度(predictive validity):一個調查,可以預測未來的事件、行為、態度、結果。
如:手術後,病人對止痛藥的需求,看24個病人的分數,分數越高,手術忍受度越高。把24的分數算出,和拿止痛藥量求相關,R=-0.82,表示高忍痛程度,低止痛藥量。
SAT(可以預測大學第一學期的平均成績)成績,和大學第一學期的平均成績求相關,R=0.42,表示沒有預測效度。但是R如果逐年增加,則表示有預測效度。
4、構念(建構)效度(construct validity):
* 構念:抽象,且假設性的概念。
多特質多方法矩陣(multitrait-multimethod matrix)
        (1)收斂效度(convergent validity):對某一特質、觀念,用不同的方法去測量,會有有相同的結果。(來自相同構念之項目,彼此之間相關應該要高)
(2)區別效度(寸discriminant validity):和其他測量不同構面的測驗或量表,是低相關。(來自不同構念之項目彼此相關應該要低)
信度與效度之間的關係:

o信度代表測量的穩定性與可靠性,效度為測量分數的意義、價值與應用性
o實際效度(rxy)≦信度(rxx)的平方根
o信度的平分根是效度係數的上限。當信度越高,效度係數即可能越大。 



如:機械性向的測量分數和在校機械科目的成績算相關,如果是高相關,表示有符合效度。而和語文測驗的成績是低相關,則有區辨效度。

3 則留言: