首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 卡方獨立性(或稱齊一性)檢定

卡方獨立性(或稱齊一性)檢定
Chi-square test of independence or homogeneity
由英國統計學家皮爾生(Karl Pearson, 1857-1936)提出,為分析類別型資料的統計方法。

方法 卡方獨立性(或稱齊一性)檢定 (Chi-square test of independence or homogeneity)
別稱 列聯表(contingency table)檢定
目的 檢定兩個類別型變數間是否存在關聯性
適用於 資料中樣本數較大時(以樣本筆數≧30為區分標準)
備註
  1. 稱"列聯表檢定":由於資料整理過後的表格稱為列聯表;表格左邊的變數為列變數,表格上方的變數為行變數。
  2. 稱"獨立性檢定":此方法被用來檢定列變數與行變數是否獨立。
  3. 稱"齊一性檢定":若列變數與行變數獨立,表示不同列具有相同的機率分配。
  4. 若資料中樣本數較小時(樣本筆數<30),可使用費雪精確檢定 (Fisher's exact test)進行分析。

本方法使用之R相關套件與參考文獻:
相關套件:stats、base
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
範例B-1:收入與保險的相關性研究

隨著時代的進步,現代人已經逐漸接受買保險的觀念,且隨著人口的增加,保險市場可以說是欣欣向榮、蓬勃發展。為了分食廣大的保險市場利益,某壽險公司想分析市場以了解民眾購買保險的習性,希望了解民眾所得收入的高低是否會影響到其參加壽險保障的意願,隨機調查了200人,搜集資料中包含有參加壽險及沒參加壽險,並將每個人的所得收入區分為高收入與低收入兩組,列於表中。

表:有否參加壽險與收入高低之列聯表。
收入高 收入低
有參加壽險 78 49
無參加壽險 31 42

Q1:壽險公司想了解所得高低是否會影響到參加壽險的意願來決定市場決策的方向,此處想了解所得高低是否會影響到參加壽險的意願?
問題解析:此處想了解是否較高所得的民眾會有較多的人參加壽險,而較低收入的民眾則參加壽險的人數較少,當有此關係時表示兩者之間是有相關的,此即為討論問題"收入高低與是否參加壽險是否有相關性?"。
統計方法:此問題中有兩個變數,分別是參加壽險情形及所得收入(兩個變數,不探討因果關係,建議選擇雙變數分析I);變數皆為類別變數,分別有兩種類別,可採用分析方法:費雪精確檢定(Fisher's exact test)或是卡方獨立性(或稱齊一性)檢定(chi-square test of independence or homogeneity),檢定"收入高低與是否參加壽險是否有相關性?"。

解析:
1. 此題可建立虛無假設為"收入高低與是否參加壽險無相關"
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果: chi-square test of independence or homogeneity
卡方獨立性(或稱齊一性)檢定 - 分析結果
  • 分析方法:卡方獨立性(或稱齊一性)檢定
  • 資料名稱:範例B-1
  • 變數名稱:有無參加保險, 收入高低
  • 顯著水準:0.05
  • 計算時間:

  • 列聯表(有無參加保險*收入高低)I
    收入高低 合計
    Total
    01
    有無參加保險0
    78
    39.00
    61.42
    71.56
    49
    24.50
    38.58
    53.85
    127
    1
    31
    15.50
    42.47
    28.44
    42
    21.00
    57.53
    46.15
    73
    合計 Total10991200
    I:列聯表內容為觀察值個數 / 百分比 / 列百分比 / 行百分比

  • 卡方獨立性(或稱齊一性)檢定I
    虛無假設:兩變數之間無關聯
    卡方檢定統計量
    chi-square statistics
    自由度
    d.f.
    p-值II
    p-value
    5.9715 1 0.014539 *
    I:使用葉氏連續性校正 (Yate's correction)
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 分析結果建議:由於檢定結果P-值為(0.014539) < 顯著水準0.05,因此可拒絕虛無假設。
[重新分析]
範例B-2:機位種類的選擇和旅途距離相關性的研究

工商發達,跨國之間經常衍生出必要的生意往來,對於航空交通的需求也相當龐大。此外,出國旅遊更是成為國人每年的必安排的行程。有鑑於此龐大的商機,某航空公司想對市場民眾的需求加以了解,在機場隨機調查了300名收入較高的旅客,將民眾購買飛機票的類型分為頭等艙、商務艙與經濟艙三種,旅行的類型分為國內與國外兩種,分析購買飛機票的種類是否會受到旅行的類型影響;資料記錄於表中。

表:旅行類型與購買機票類型之列聯表。
頭等艙 商務艙 經濟艙
國內 50 49 63
國外 60 42 36

Q1:在長途旅行中常常會使得人產生很嚴重的疲累感,因此在搭乘交通工具時的舒適性就顯得非常重要,但由於飛機上的空間有限,較舒適的乘坐空間必須犧牲一些載客的人數才能達成,航空公司為了能妥善的規劃飛機上的不同艙等的座位數,想透過了解飛行的距離的差異(國內航線與國外航線)是否與乘客選擇不同的艙等有影響來決定,該如何訂定決策呢?
問題解析:此問題中想了解搭乘較遠距離的國外線是否會選擇較舒適的商務艙或頭等艙呢,而搭乘較近距離的國內線則會選擇便宜的經濟艙,此即是討論問題"飛行距離的長短與座艙的選擇是否有相關性?"。
統計方法:此問題中有兩個變數,分別是購買飛機票的類型及飛行類型(兩個變數,不探討因果關係,建議選擇雙變數分析I);變數皆為類別變數,可採用分析方法:費雪精確檢定(Fisher's exact test)或是卡方獨立性(或稱齊一性)檢定(chi-square test of independence or homogeneity),檢定"飛行距離的長短與座艙的選擇是否有相關性?"。

解析:
1. 此題可建立虛無假設為"飛行距離的長短與座艙的選擇無相關"
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果:
卡方獨立性(或稱齊一性)檢定 - 分析結果
  • 分析方法:卡方獨立性(或稱齊一性)檢定
  • 資料名稱:範例B-2
  • 變數名稱:旅行類型, 購買機票類型
  • 顯著水準:0.05
  • 計算時間:0.006秒

  • 列聯表(旅行類型*購買機票類型)I
    購買機票類型 合計
    Total
    1_頭等艙2_商務艙3_經濟艙
    旅行類型1_國內
    50
    16.67
    30.86
    45.45
    49
    16.33
    30.25
    53.85
    63
    21.00
    38.89
    63.64
    162
    2_國外
    60
    20.00
    43.48
    54.55
    42
    14.00
    30.43
    46.15
    36
    12.00
    26.09
    36.36
    138
    合計 Total1109199300
    I:列聯表內容為觀察值個數 / 百分比 / 列百分比 / 行百分比

  • 卡方獨立性(或稱齊一性)檢定:
    虛無假設:兩變數之間無關聯
    卡方檢定統計量
    chi-square statistics
    自由度
    d.f.
    p-值I
    p-value
    6.9356 2 0.031186 *
    I:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 分析結果建議:由於檢定結果P-值為(0.031186) < 顯著水準0.05,因此可拒絕虛無假設。
[重新分析]
範例B-3:該選擇哪一種飲料?

炎炎夏日中清涼解渴的飲料一解人們的煩躁,街上冷飲店林立,各式冷飲琳瑯滿目,讓人不知如何選擇。有一廠商想加盟某飲料店,但不知哪個品牌較受顧客的喜愛且有較大的獲利可能,於是他精選了5家較知名的品牌並委請市調公司調查。市調公司舉辦街頭試喝活動,隨機請顧客試喝1種飲料並調查顧客的喜愛程度;資料記錄如下表:

表:飲料種類與顧客喜愛度之列連表
顧客喜愛的程度\飲料的種類 ABCDE
1_No 5565621935
2_Mod 4055383931
3_Yes 7540506630
飲料的種類:A、B、C、D、E
顧客喜愛的程度:1_No(不喜歡)、2_Mod(普通)、3_Yes(喜歡)
Q1:這些飲料品牌受到顧客的喜愛程度是否有差異呢?
問題解析:此問題中想了解調查中的5種品牌受到顧客喜愛的程度是否有所差異,此即是討論問題"飲料的種類與顧客的喜愛程度是否有相關性?"。
統計方法:此問題中有兩個變數,分別是變數一:飲料的種類,變數二:顧客喜愛的程度(兩個變數,不探討因果關係,建議選擇雙變數分析I);變數一與變數二皆為類別變數,適合費雪精確檢定(Fisher’s exact test)或是卡方獨立性(或稱齊一性)檢定(chi-square test of independence or homogeneity)。

解析:
1. 此題可建立虛無假設為"飲料的種類與顧客的喜愛程度無相關"。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果:
卡方獨立性(或稱齊一性)檢定 - 分析結果
  • 分析方法:卡方獨立性(或稱齊一性)檢定
  • 資料名稱:範例B-3
  • 變數名稱:顧客喜愛的程度, 飲料的種類
  • 顯著水準:0.05
  • 計算時間:0.006秒

  • 列聯表(顧客喜愛的程度*飲料的種類)I
    飲料的種類 合計
    Total
    ABCDE
    顧客喜愛的程度1_No
    70
    9.56
    25.45
    47.30
    35
    4.78
    12.73
    24.14
    50
    6.83
    18.18
    34.01
    75
    10.25
    27.27
    51.72
    45
    6.15
    16.36
    30.61
    275
    2_Mod
    33
    4.51
    15.49
    22.30
    50
    6.83
    23.47
    34.48
    35
    4.78
    16.43
    23.81
    45
    6.15
    21.13
    31.03
    50
    6.83
    23.47
    34.01
    213
    3_Yes
    45
    6.15
    18.44
    30.41
    60
    8.20
    24.59
    41.38
    62
    8.47
    25.41
    42.18
    25
    3.42
    10.25
    17.24
    52
    7.10
    21.31
    35.37
    244
    合計 Total148145147145147732
    I:列聯表內容為觀察值個數 / 百分比 / 列百分比 / 行百分比

  • 卡方獨立性(或稱齊一性)檢定:
    虛無假設:兩變數之間無關聯
    卡方檢定統計量
    chi-square statistics
    自由度
    d.f.
    p-值I
    p-value
    45.5241 8 2.9271e-07 ***
    I:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 分析結果建議:由於檢定結果P-值為(2.9271e-07) < 顯著水準0.05,因此可拒絕虛無假設。
[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「雲端資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為:
  
以列聯表型態直接輸入資料 列聯表共列*行