首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 使用機率單位(probit)連結函數的廣義線性模式

使用機率單位(probit)連結函數的廣義線性模式
Generalized Linear Model with probit link
本方法是GLM的一種特例;係當連結函數為機率單位(probit)連結函數時經常用的分析方法。probit是probability-unit的簡寫。假設依變數的期望值為μ,則probit連結函數為g(μ)=Φ-1(μ),式中Φ-1為累積標準常態(cumulative standard normal)分配的反函數(inverse function),使用此種連結函數的GLM概稱為機率單位模式(probit model)。此模式中的依變數限制使用類別(categorical)資料,可為順序(ordinal)尺度或名目(nominal)尺度,資料所服從的分配可為二項式或多項式,而自變數部分則無限制,可為任何種類。

廣義線性模式-方法簡介

本方法使用之R相關套件與參考文獻:
相關套件:stats、base、nnet、MASS
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
  2. Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
範例F-3:

21世紀的電子業為眾多求職者理想的工作,電腦、PDA及智慧型手機等科技產品的高使用率,造就電子產業的榮景並創造許多高收入的職缺,然而朝九晚五之景也已消失在電子業。因此,如何在報酬與工時取得平衡是現階段求職者最關心的議題。某人力銀行為提供求職者此相關訊息,隨機從4家公司抽出共100名電子產業工作者,其調查資料包括薪資、職位、性別、學歷、工作年資與工作時數,記錄如下表,資料說明列於表後

表:電子公司員工調查資料
編號 薪資 職位 公司別 性別 學歷 工作年資 工作時數
1 24970 1 1 0 1 19 50
2 26270 1 1 1 1 29 50
100 43340 2 4 1 2 68 62

薪資:月薪(單位:元)
職位:現場作業人員(1)、工程師(2)、主管級(3)、經理級(4)
公司別:(1)、(2)、(3)、(4)
性別:女性(0)、男性(1)
學歷:高中職(1)、大學含專科(2)、研究所以上(3)
工作年資:以月為單位計算
工作時數:每週平均工作時間,以小時為單位計算

Q3:若將薪資依月收入區分成4群,區間為3萬(含)以下、3萬以上4萬(含)以下、4萬以上5萬(含)以下及5萬以上,且此區間有順序關係(由小至大),試問影響此4類薪資水準的因素為何?
問題解析:資料中依變數薪資被定義為類別變數且資料型態屬於順序尺度;同時,可能影響的解釋變數有公司別、性別、學歷…等;故適合廣義線性模式分析。
統計方法:依變數薪資為類別變數且資料型態屬於順序尺度,可假設其資料服從多項分配並使用機率單位(probit)連結函數。可採用的分析方法:使用機率單位(probit)連結函數的廣義線性模式。
廣義線性模式 - 分析結果
  • 分析方法:廣義線性模式
  • 資料名稱:範例F-3
  • 連結函數:機率單位(probit)
  • 依變數名稱:薪資4類
  • 自變數名稱:公司別, 性別, 學歷, 工作年資, 工作時數
  • 計算時間:0.7秒

  • 變數訊息I
    連續變數(continuous)
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    工作年資9074.4222731017433.378
    工作時數9056.28895648827.6764

    類別變數(categorical)
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    薪資4類1012
    2144
    3223
    4311
    公司別1023
    2124
    3221
    4322
    性別0023
    1167
    學歷1021
    2160
    329
    I:變數訊息皆不包含遺失值

  • 變數選取:
    變數選取方法:Stepwise AIC法
    變數選取準則:min AIC(Akaike Information Criterion)
    使用者指定模式:薪資4類 = (截距項) + 公司別 + 性別 + 學歷 + 工作年資 + 工作時數
    AIC準則選取之較佳模式:薪資4類 = (截距項) + 學歷 + 工作年資 + 工作時數
    模式選取I
    變數 Deviance AIC值
    僅含截距項模式 220.3329 226.3329
    系統選取較佳模式 99.6309 113.6309
    I:AIC與Deviance欄位中數值越小表示模式越佳

  • AIC準則選取之較佳模式係數估計I,II
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    t檢定統計量
    t-statistic
    p-值III
    p-value
    學歷(2)0.8170.3782.16130.033557 *
    學歷(3)1.63510.68882.37390.019909 *
    工作年資0.03780.00755.02792.8159e-06 ***
    工作時數0.19920.04094.86595.3509e-06 ***
    1|212.0372.22065.42065.7104e-07 ***
    2|314.86922.41076.16812.4062e-08 ***
    3|417.81032.78916.38589.3183e-09 ***
    I:依變數為薪資4類
    II:係數中i|j為常數項表示該係數估計時將資料二分為兩部份(將i之前合併及將j之後合併)
    III:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 預測 v.s. 觀察分類表(訓練樣本):
    薪資4類 預測次數
    1234總和
    觀察次數1840012
    20386044
    30815023
    40001111
    總和850211190
    正確預測比例(對角線元素總和/所有觀察值總和):80 %

  • 預測 v.s. 觀察分類表(測試樣本):
    薪資4類 預測次數
    1234總和
    觀察次數121003
    205106
    300101
    400000
    總和262010
    正確預測比例(對角線元素總和/所有觀察值總和):80 %
[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「雲端資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: