首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 使用自然對數(ln)連結函數的廣義線性模式

使用自然對數(ln)連結函數的廣義線性模式
Generalized Linear Model with nature log link
本方法係GLM的一種特例;係當連結函數用自然對數(ln)I連結函數時經常用的分析方法。假設依變數的期望值為μ,則ln連結函數為g(μ)=ln(μ),使用此種連結函數的GLM有卜瓦松迴歸模式(Poisson regression model)與對數線性模式(log-linear model)。 兩者的差異主要在資料服從的分配與解釋變數上,卜瓦松迴歸模式假設服從卜瓦松分配, 解釋變數型態沒有限制,而對數線性模式則可服從卜瓦松分配或是多項式分配(依據資料抽樣的方法而定), 解釋變數必須為類別變數時,常見的列聯表(contingency table)資料即適用此模式,此種資料稱為記數(count)資料II。 (使用本方法前請先行參考資料型態說明)

I:自然對數ln係指log以指數(exponential)為底數的情況,故有人會簡稱為log轉換。
II:記數資料係指在不同的條件(變數值)下計算發生次數的資料型態,常以列聯表形態表現,表的左邊及上面為不同的條件(變數值),表內則是在各條件下的發生次數。

廣義線性模式-方法簡介

本方法使用之R相關套件與參考文獻:
相關套件:stats、base、MASS、speedglm
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
  2. Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
  3. Marco ENEA (2013). speedglm: Fitting Linear and Generalized Linear Models to large data sets.. R package version 0.2. URL:http://CRAN.R-project.org/package=speedglm
範例F-4:

根據警政署統計,近十年的交通事故中死亡人數達二千人以上,其中酒駕肇事致死人數達三百人以上,為所有肇事原因中的首位。某交通研究部門想了解影響道安的重要因素,第一個考慮的就是酒駕,此外仍有其他影響因素,例如乘客是否繫上安全帶。研究員收集了去年12個月某大城市發生的交通事故傷亡人數資料,共有278人,整理後的資料列於下表

表:交通事故肇事因素與傷亡資料
傷亡狀況
是否酒駕 是否繫安全帶 死亡 受傷
15 40
43 66
3 37
22 52


Q1:研究員想了解交通事故發生時傷亡狀況與是否酒駕及繫安全帶的關聯性,哪些因素有較大的影響?
問題解析:此份資料可使用的分析方法不僅一種,其一種看法為將傷亡情形視為依變數,酒駕及繫安全帶視為解釋變數,以邏輯斯迴歸分析。另一種則視所有變數皆為類別變數,故資料呈現方式為列聯表型態,此類資料分析方式適合對數線性模式,此處以廣義線性模式(使用自然對數(ln)連結函數)中的對數線性模式分析。
統計方法:此問題中的資料為列聯表型態,假設列聯表中在不同條件(變數值)下的記數(count)資料服從卜瓦松分配並使用自然對數(ln)連結函數。可採用的分析方法:使用自然對數(ln)連結函數的廣義線性模式。
廣義線性模式 - 分析結果
  • 分析方法:廣義線性模式
  • 資料名稱:範例F-4
  • 連結函數:自然對數(ln)
  • 依變數名稱:個數
  • 自變數名稱:酒駕, 安全帶, 傷亡
  • 計算時間:0.245秒

  • 變數訊息I
    數值變數(numerical)
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    個數834.7538.536620.4782

    類別變數(categorical)
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    酒駕n04
    y14
    安全帶n04
    y14
    傷亡n04
    y14
    I:變數訊息皆不包含遺失值

    列聯表獨立性卡方檢定
    虛無假設:自變數無相關性
    卡方統計量
    Chi-square statistic
    自由度
    d.f.
    p-值
    p-value
    14.8828 4 0.005
    表內總個數:278
    表內自變數個數:3

  • 模型效用分析:
    變數名稱
    Variable
    自由度
    d.f.
    離差
    Deviance
    殘差自由度
    Resid. d.f.
    殘差離差
    Resid. Deviance
    p-值
    p-value
    NULL7100.7965< 1e-04
    酒駕19.0419691.75450.0026
    安全帶128.341563.4135< 1e-04
    傷亡146.4299416.9836< 1e-04

  • 變數選取:
    變數選取方法:Stepwise AIC法
    變數選取準則:min AIC(Akaike Information Criterion)
    使用者指定模式:個數 = (截距項) + 酒駕 + 安全帶 + 傷亡
    AIC準則選取之較佳模式:個數 = (截距項) + 酒駕 + 安全帶 + 傷亡
    模式選取I,II,III
    變數 自由度 Deviance AIC值
    僅含截距項模式 7 100.7965 143.6914
    系統選取較佳模式 4 16.9836 65.8786
    I:AIC與Deviance欄位中數值越小表示模式越佳
    II:由Deviance比較兩模式,P值(< 1e-04) < 0.05,表示系統選取較佳模式較為合適
    III:在飽和模式(Saturated model)下的參數個數會隨樣本數而改變的情況下,模式中的P值將可能不正確,不建議使用

  • 模式適合度檢定:
    檢定方法
    method
    卡方統計量
    Chi-square statistic
    自由度
    d.f.
    p-值
    p-value
    概似比(Likelihood Ratio) 16.9836 4 0.0019
    皮爾生(Pearson) 14.8828 4 0.005

  • 使用者指定模式係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    Z檢定統計量
    z-statistic
    p-值II
    p-value
    (截距項)3.96340.110335.927<2e-16 ***
    酒駕(y)0.36370.12192.98230.0029 **
    安全帶(是)-0.65560.1265-5.1846<2e-16 ***
    傷亡(1)-0.85420.1311-6.5174<2e-16 ***
    I:依變數為個數
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • AIC準則選取之較佳模式係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    Z檢定統計量
    z-statistic
    p-值II
    p-value
    (截距項)3.96340.110335.927< 2.22e-16 ***
    酒駕(y)0.36370.12192.98230.0028605 **
    安全帶(是)-0.65560.1265-5.18462.1653e-07 ***
    傷亡(1)-0.85420.1311-6.51747.1536e-11 ***
    I:依變數為個數
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1
[重新分析]
範例F-8:

紅豆是一種具有高營養價值的豆類食品富含鐵質、蛋白質、膳食纖維及多樣維生素,為了培育出更好的紅豆,某一農業機構委託植物學家研究不同的土壤、肥料、 氣候及地區下對於紅豆發芽的影響。植物學家設計了一個實驗,考量了六種不同性質的土壤(編號1至6),使用兩家市面上大廠牌肥料或是不使用肥料(編號1、2,不使用肥料編號為0),氣候則紀錄當地當月所測得月均溫度(攝氏),並選擇於宜蘭及屏東兩地栽種來了解氣候差異的影響。兩地各選了50處符合六種土壤條件的農地栽種,每塊農地播種數目依農地大小不一會有差異,研究執行後資料記錄於下表中。

表:
編號 發芽數 土壤 肥料 溫度 氣候 播種數
1 1756 1 1 18 宜蘭 2300
2 1505 1 1 21.3 宜蘭 2150
3 1344 2 3 19.4 宜蘭 1820
. . . . . . .
98 2847 1 3 28.1 屏東 3550
99 2666 6 2 26.7 屏東 3200
100 2467 6 2 30.9 屏東 2800


Q1:想了解紅豆發芽比率的高低是否受土壤、肥料、溫度及氣候的影響,哪些因素有較大的影響呢?
統計方法:此問題中的資料為想了解土壤、肥料、溫度及氣候對於紅豆發芽比率的影響,依變數可用發芽數(為記數資料I)或是發芽比例(發芽數/播種數),此類型依變數適合使用自然對數(ln)連結函數的卜瓦松迴歸。可採用分析方法:使用自然對數(ln)連結函數的廣義線性模式。
I:以此形態資料為依變數,因資料可能取出的樣本數不同,須考慮補償值(offset),此處補償值變數即為播種數。
廣義線性模式 - 分析結果
  • 分析方法:廣義線性模式
  • 資料名稱:範例F-8
  • 連結函數:自然對數(ln)
  • 依變數名稱:發芽數
  • 自變數名稱:土壤, 肥料, 溫度, 氣候
  • 補償值(offset):播種數
  • 計算時間:1.185秒

  • 變數訊息I
    數值變數(numerical)
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    發芽數1001418.121364.58002510316.7212
    溫度10024.09923.516.430.74.8587
    補償值(offset)1002257.932302.514583550396.3562

    類別變數(categorical)
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    土壤1014
    2119
    3215
    4315
    5419
    6518
    肥料1027
    2142
    3231
    氣候宜蘭050
    屏東150
    I:變數訊息皆不包含遺失值

    列聯表獨立性卡方檢定
    虛無假設:自變數無相關性
    卡方統計量
    Chi-square statistic
    自由度
    d.f.
    p-值
    p-value
    3160174.0076 2127 0
    表內總個數:141812
    表內自變數個數:4

  • 模型效用分析:
    變數名稱
    Variable
    自由度
    d.f.
    離差
    Deviance
    殘差自由度
    Resid. d.f.
    殘差離差
    Resid. Deviance
    p-值
    p-value
    NULL992156.6594< 1e-04
    氣候12035.932598120.7269< 1e-04

  • 變數選取:
    變數選取方法:Stepwise AIC法
    變數選取準則:min AIC(Akaike Information Criterion)
    使用者指定模式:發芽數 = (截距項) + 土壤 + 肥料 + 溫度 + 氣候
    AIC準則選取之較佳模式:發芽數 = (截距項) + 氣候
    模式選取I,II,III
    變數 自由度 Deviance AIC值
    僅含截距項模式 99 6739.5487 7648.7184
    系統選取較佳模式 98 120.7269 1031.8967
    I:AIC與Deviance欄位中數值越小表示模式越佳
    II:由Deviance比較兩模式,P值(< 1e-04) < 0.05,表示系統選取較佳模式較為合適
    III:在飽和模式(Saturated model)下的參數個數會隨樣本數而改變的情況下,模式中的P值將可能不正確,不建議使用

  • 模式適合度檢定:
    檢定方法
    method
    卡方統計量
    Chi-square statistic
    自由度
    d.f.
    p-值
    p-value
    概似比(Likelihood Ratio) 847184.5659 2127 0
    皮爾生(Pearson) 3160174.0076 2127 0

  • 使用者指定模式係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    Z檢定統計量
    z-statistic
    p-值II
    p-value
    (截距項)-0.61420.0428-14.3624<2e-16 ***
    土壤(2)0.0050.00960.51830.6042
    土壤(3)0.00580.01040.55540.5787
    土壤(4)-0.01480.0104-1.43340.1517
    土壤(5)-4e-040.0099-0.03640.9710
    土壤(6)0.01250.011.25010.2113
    肥料(2)-0.00170.0069-0.24920.8032
    肥料(3)0.00440.00720.61410.5392
    溫度0.0010.00220.44910.6534
    氣候(屏東)0.23070.021110.9082<2e-16 ***
    I:依變數為發芽數
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • AIC準則選取之較佳模式係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    Z檢定統計量
    z-statistic
    p-值II
    p-value
    (截距項)-0.59290.004-147.9346< 2.22e-16 ***
    氣候(屏東)0.24050.005444.9547< 2.22e-16 ***
    I:依變數為發芽數
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1
[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「雲端資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: