雲端資料分析暨導引系統

首頁 » 分析方法 » 使用對等(identity)連結函數的廣義線性模式

使用對等(identity)連結函數的廣義線性模式
Generalized Linear Model with identity link

方法簡介
範例F-3(1)
影音教學
維基百科(英文)

本方法是GLM的一種特例；係當連結函數為對等(identity)連結函數時經常用的分析方法。假設依變數的期望值為μ，則identity連結函數為g(μ)=μ，即是連結前與後的值並無改變。使用此種連結函數的GLM模式經常假設依變數為數值(numeric)資料且分配假設為常態(normal)分配，此即為一般人熟知的線性模式。依據自變數的差異，模式又可分為迴歸(regression)模式與變異數分析(anova)。此處提供此類型模式，方便使用者分析。

廣義線性模式-方法簡介

本方法使用之R相關套件與參考文獻：
相關套件：stats、base、car、speedglm
參考文獻：(依套件名稱排序)

R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL：http://www.R-project.org/.
John Fox and Sanford Weisberg (2011). An {R} Companion to Applied Regression, Second Edition. Thousand Oaks CA: Sage. URL：http://socserv.socsci.mcmaster.ca/jfox/Books/Companion
Marco ENEA (2013). speedglm: Fitting Linear and Generalized Linear Models to large data sets.. R package version 0.2. URL：http://CRAN.R-project.org/package=speedglm

範例F-3：

21世紀的電子業為眾多求職者理想的工作，電腦、PDA及智慧型手機等科技產品的高使用率，造就電子產業的榮景並創造許多高收入的職缺，然而朝九晚五之景也已消失在電子業。因此，如何在報酬與工時取得平衡是現階段求職者最關心的議題。某人力銀行為提供求職者此相關訊息，隨機從4家公司抽出共100名電子產業工作者，其調查資料包括薪資、職位、性別、學歷、工作年資與工作時數，記錄如下表，資料說明列於表後

表：電子公司員工調查資料

編號	薪資	職位	公司別	性別	學歷	工作年資	工作時數
1	24970	1	1	0	1	19	50
2	26270	1	1	1	1	29	50
：	：	：	：	：	：	：	：
100	43340	2	4	1	2	68	62

薪資：月薪(單位：元)
職位：現場作業人員(1)、工程師(2)、主管級(3)、經理級(4)
公司別：(1)、(2)、(3)、(4)
性別：女性(0)、男性(1)
學歷：高中職(1)、大學含專科(2)、研究所以上(3)
工作年資：以月為單位計算
工作時數：每週平均工作時間，以小時為單位計算

Q1：求職者想了解電子產業的薪資高低受何種因素影響較大?
問題解析：此處想了解影響依變數薪資高低的因素，其可能影響的解釋變數為職位、公司別、性別…等；適合廣義線性模式分析。
統計方法：由於依變數薪資為連續變數，可假設其資料服從常態分配並使用對等(identity)連結函數。可採用的分析方法：使用對等(identity)連結函數的廣義線性模式。

廣義線性模式 - 分析結果

分析方法：廣義線性模式
資料名稱：範例F-3
連結函數：對等(identity)
依變數名稱：薪資
自變數名稱：公司別, 性別, 學歷, 工作年資, 工作時數
影響點下載：另存CSV檔
計算時間：0.4秒

變數訊息^I：

連續變數(continuous)

變數名稱
Variable 樣本數
Count 平均數
Mean 中位數
Median 最小值
Minimum 最大值
Maximum 標準差
Std. dev.
薪資 100 39469.9 35132.5 24960 83150 12681.9821
工作年資 100 73.36 73 10 174 33.3347
工作時數 100 56 56 48 82 7.4182

類別變數(categorical)

變數名稱
Variable 變數值
Value 編碼
Coded 個數
Count
公司別 1 0 25
2 1 26
3 2 24
4 3 25
性別 0 0 27
1 1 73
學歷 1 0 25
2 1 66
3 2 9
I：變數訊息皆不包含遺失值

模式訊息：

變數名稱
Variable 自由度
d.f. 離差
Deviance 殘差自由度
Resid. d.f. 殘差離差
Resid. Deviance p-值
p-value

NULL 99 15922434441 < 1e-04
學歷 2 4322149936.9741 97 11600284504.0259 < 1e-04
工作年資 1 7738809432.0668 96 3861475071.9591 < 1e-04
工作時數 1 2496108582.0162 95 1365366489.9429 < 1e-04

變數選取：

變數選取方法：Stepwise AIC法
變數選取準則：min AIC(Akaike Information Criterion)
使用者指定模式：薪資 = (截距項) + 公司別 + 性別 + 學歷 + 工作年資 + 工作時數
AIC準則選取之較佳模式：薪資 = (截距項) + 學歷 + 工作年資 + 工作時數
模式選取^I,II：

變數 自由度 Deviance AIC值

僅含截距項模式 99 15922434441 2176.3702

系統選取較佳模式 95 1365366489.9429 1938.7396

I：AIC與Deviance欄位中數值越小表示模式越佳
II：由Deviance比較兩模式，P值(< 1e-04) < 0.05，表示系統選取較佳模式較為合適

AIC準則選取之較佳模式係數估計^I：

係數
coefficient 估計值
estimation 標準差
std. err. t檢定統計量
t-statistic p-值^II
p-value

(截距項) -28286.0995 3378.178 -8.3732 4.8941e-13 ***
學歷(2) 2270.6913 939.8595 2.416 0.017604 *
學歷(3) 7457.6505 1677.3112 4.4462 2.3700e-05 ***
工作年資 155.6249 14.8019 10.5139 < 2.22e-16 ***
工作時數 967.3127 73.4003 13.1786 < 2.22e-16 ***
離勢參數
Dispersion parameter 14372279

I：依變數為薪資
II：顯著性代碼：‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

共線性診斷：

變數名稱
variable 廣義變異數膨脹因子
GVIF 自由度
Df GVIF^(1/(2*Df))
學歷 1.313 2 1.0704
工作年資 1.677 1 1.295
工作時數 2.0422 1 1.4291

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「雲端資料分析暨導引系統」!

變數名稱 Variable	樣本數 Count	平均數 Mean	中位數 Median	最小值 Minimum	最大值 Maximum	標準差 Std. dev.
薪資	100	39469.9	35132.5	24960	83150	12681.9821
工作年資	100	73.36	73	10	174	33.3347
工作時數	100	56	56	48	82	7.4182

變數名稱 Variable	變數值 Value	編碼 Coded	個數 Count
公司別	1	0	25
	2	1	26
	3	2	24
	4	3	25
性別	0	0	27
性別	1	1	73
學歷	1	0	25
	2	1	66
	3	2	9

變數名稱 Variable	自由度 d.f.	離差 Deviance	殘差自由度 Resid. d.f.	殘差離差 Resid. Deviance	p-值 p-value
NULL			99	15922434441	< 1e-04
學歷	2	4322149936.9741	97	11600284504.0259	< 1e-04
工作年資	1	7738809432.0668	96	3861475071.9591	< 1e-04
工作時數	1	2496108582.0162	95	1365366489.9429	< 1e-04

變數	自由度	Deviance	AIC值
僅含截距項模式	99	15922434441	2176.3702
系統選取較佳模式	95	1365366489.9429	1938.7396

係數 coefficient	估計值 estimation	標準差 std. err.	t檢定統計量 t-statistic	p-值^II p-value
(截距項)	-28286.0995	3378.178	-8.3732	4.8941e-13 ***
學歷(2)	2270.6913	939.8595	2.416	0.017604 *
學歷(3)	7457.6505	1677.3112	4.4462	2.3700e-05 ***
工作年資	155.6249	14.8019	10.5139	< 2.22e-16 ***
工作時數	967.3127	73.4003	13.1786	< 2.22e-16 ***
離勢參數 Dispersion parameter	14372279

變數名稱 variable	廣義變異數膨脹因子 GVIF	自由度 Df	*GVIF^(1/(2Df))**
學歷	1.313	2	1.0704
工作年資	1.677	1	1.295
工作時數	2.0422	1	1.4291