首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 使用對等(identity)連結函數的廣義線性模式

使用對等(identity)連結函數的廣義線性模式
Generalized Linear Model with identity link
本方法是GLM的一種特例;係當連結函數為對等(identity)連結函數時經常用的分析方法。假設依變數的期望值為μ,則identity連結函數為g(μ)=μ,即是連結前與後的值並無改變。使用此種連結函數的GLM模式經常假設依變數為數值(numeric)資料且分配假設為常態(normal)分配,此即為一般人熟知的線性模式。依據自變數的差異,模式又可分為迴歸(regression)模式與變異數分析(anova)。此處提供此類型模式,方便使用者分析。

廣義線性模式-方法簡介

本方法使用之R相關套件與參考文獻:
相關套件:stats、base、car、speedglm
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
  2. John Fox and Sanford Weisberg (2011). An {R} Companion to Applied Regression, Second Edition. Thousand Oaks CA: Sage. URL:http://socserv.socsci.mcmaster.ca/jfox/Books/Companion
  3. Marco ENEA (2013). speedglm: Fitting Linear and Generalized Linear Models to large data sets.. R package version 0.2. URL:http://CRAN.R-project.org/package=speedglm
範例F-3:

21世紀的電子業為眾多求職者理想的工作,電腦、PDA及智慧型手機等科技產品的高使用率,造就電子產業的榮景並創造許多高收入的職缺,然而朝九晚五之景也已消失在電子業。因此,如何在報酬與工時取得平衡是現階段求職者最關心的議題。某人力銀行為提供求職者此相關訊息,隨機從4家公司抽出共100名電子產業工作者,其調查資料包括薪資、職位、性別、學歷、工作年資與工作時數,記錄如下表,資料說明列於表後

表:電子公司員工調查資料
編號 薪資 職位 公司別 性別 學歷 工作年資 工作時數
1 24970 1 1 0 1 19 50
2 26270 1 1 1 1 29 50
100 43340 2 4 1 2 68 62

薪資:月薪(單位:元)
職位:現場作業人員(1)、工程師(2)、主管級(3)、經理級(4)
公司別:(1)、(2)、(3)、(4)
性別:女性(0)、男性(1)
學歷:高中職(1)、大學含專科(2)、研究所以上(3)
工作年資:以月為單位計算
工作時數:每週平均工作時間,以小時為單位計算

Q1:求職者想了解電子產業的薪資高低受何種因素影響較大?
問題解析:此處想了解影響依變數薪資高低的因素,其可能影響的解釋變數為職位、公司別、性別…等;適合廣義線性模式分析。
統計方法:由於依變數薪資為連續變數,可假設其資料服從常態分配並使用對等(identity)連結函數。可採用的分析方法:使用對等(identity)連結函數的廣義線性模式。
廣義線性模式 - 分析結果
  • 分析方法:廣義線性模式
  • 資料名稱:範例F-3
  • 連結函數:對等(identity)
  • 依變數名稱:薪資
  • 自變數名稱:公司別, 性別, 學歷, 工作年資, 工作時數
  • 影響點下載:另存CSV檔
  • 計算時間:0.4秒

  • 變數訊息I
    連續變數(continuous)
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    薪資10039469.935132.5249608315012681.9821
    工作年資10073.36731017433.3347
    工作時數100565648827.4182

    類別變數(categorical)
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    公司別1025
    2126
    3224
    4325
    性別0027
    1173
    學歷1025
    2166
    329
    I:變數訊息皆不包含遺失值

  • 模式訊息:
    變數名稱
    Variable
    自由度
    d.f.
    離差
    Deviance
    殘差自由度
    Resid. d.f.
    殘差離差
    Resid. Deviance
    p-值
    p-value
    NULL9915922434441< 1e-04
    學歷24322149936.97419711600284504.0259< 1e-04
    工作年資17738809432.0668963861475071.9591< 1e-04
    工作時數12496108582.0162951365366489.9429< 1e-04

  • 變數選取:
    變數選取方法:Stepwise AIC法
    變數選取準則:min AIC(Akaike Information Criterion)
    使用者指定模式:薪資 = (截距項) + 公司別 + 性別 + 學歷 + 工作年資 + 工作時數
    AIC準則選取之較佳模式:薪資 = (截距項) + 學歷 + 工作年資 + 工作時數
    模式選取I,II
    變數 自由度 Deviance AIC值
    僅含截距項模式 99 15922434441 2176.3702
    系統選取較佳模式 95 1365366489.9429 1938.7396
    I:AIC與Deviance欄位中數值越小表示模式越佳
    II:由Deviance比較兩模式,P值(< 1e-04) < 0.05,表示系統選取較佳模式較為合適

  • AIC準則選取之較佳模式係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    t檢定統計量
    t-statistic
    p-值II
    p-value
    (截距項)-28286.09953378.178-8.37324.8941e-13 ***
    學歷(2)2270.6913939.85952.4160.017604 *
    學歷(3)7457.65051677.31124.44622.3700e-05 ***
    工作年資155.624914.801910.5139< 2.22e-16 ***
    工作時數967.312773.400313.1786< 2.22e-16 ***
    離勢參數
    Dispersion parameter
    14372279
    I:依變數為薪資
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 共線性診斷:
    變數名稱
    variable
    廣義變異數膨脹因子
    GVIF
    自由度
    Df
    GVIF^(1/(2*Df))
    學歷1.31321.0704
    工作年資1.67711.295
    工作時數2.042211.4291
[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「雲端資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: