雲端資料分析暨導引系統

首頁 » 分析方法 » 多元迴歸分析

多元迴歸分析
Multiple regression analysis

方法簡介
範例D-2(2)
影音教學
維基百科(英文)

方法	多元迴歸分析 (Multiple regression analysis)
條件	1. 依變數為連續型變數，自變數無限制。 2. 迴歸模式中包含一個依變數及多個自變數。
說明	迴歸一詞最早由英國優生學家高騰(Sir Francis Galton, 1822-1911)提出，主要是用來幫助了解變數間的線性因果關係。變數區分為依變數(dependent variable)與自變數(independent variable)，利用線性關係模式，了解自變數的改變對依變數造成之影響；因此，迴歸模型亦可進行資料預測。於醫學研究依變數經常稱為結果變數(outcome variable)；自變數則為風險因子(risk factor)。
備註	當依變數為類別型變數，可使用多元邏輯斯迴歸分析 (Multiple logistic regression analysis)進行分析。

範例D-2：適當的BMI指數

現代人的生活富裕，大眾的飲食習慣已經與以前差異很大，大魚大肉與暴飲暴食再加上外國高熱量食物的引進，在這麼多的不健康食物與不良的飲食習慣下，隨之而來的是造成許多肥胖的身材，不管是兒童或是年輕人或是中老年人，肥胖所占的人數的比例已經較以前大大的提升。肥胖從醫學的觀點出發涉及到健康的問題，許多的疾病已經證明與肥胖有很大的關係，在肥胖者體內過多的脂肪組織可能是導致疾病的危險因子，據研究肥胖與多種疾病有關，如糖尿病、心臟病、脂肪肝與中風等。在測量是否為肥胖的工具中，最常利用的方法是身體質量指數(BMI)，此方法考慮每個人體型的差異，將身高與體重同時納入衡量，適當的BMI介於18.5至24之間，當BMI高於27則有輕度肥胖的可能，當BMI大於35則是重度肥胖了，國防部規定BMI大於33即可免役。由此可知BMI的正確性相當高。在與肥胖有關的疾病中，第二型糖尿病算是比較常見的，此種糖尿病的盛行率隨著地區的差異而有所不同，即是此種並可能受到環境或是種族等因素影響，但是隨著肥胖人口的增加，各地方的盛行率也同時增加，因此普遍認為肥胖是依個重要的因素。某醫院研究單位為了解該市的居民身體健康狀況並了解肥胖與糖尿病的關係，特別為該市天居民男女各40人進行健康檢查，其中男女各有部份人員患有第二型糖尿病，測得資料如表中，共有性別、年齡、BMI、收縮壓及是否患有糖尿病。

表：受測市民健康資料

市民編號	1	2	3	...	79	80
性別(註一)	1	0	0	...	1	0
年齡	45	52	50	...	38	33
BMI	19.9	26.5	23.5	...	24.6	20.1
糖尿病患病情況(註二)	0	1	1	...	1	0

註一：0表女性、1表男性。
註二：0表未患病、1表患病。

Q2：一個人的BMI指數是由身高與體重換算而來的，但是對於不同性別與年齡，是否會使得BMI指數有所不同呢?研究單位想了解性別與年齡對於BMI指數的影響?是否有關聯呢?
問題解析：此處欲討論影BMI指數的的因素，且討論因素共有兩個，分別是年齡與性別，想了解此兩個因素對於BMI指數的影響，可探討問題"年齡與性別會影響BMI指數嗎?"。
統計方法：此問題中有三個變數，分別是性別、年齡及BMI指數(三個變數，探討因果關係，建議選擇多變數分析)。此問題中想了解性別與年齡(因)等不同條件是否對BMI指數(果)有影響，故自變數有兩個為性別與年齡，依變數是BMI指數。依變數為連續變數，可採用分析方法：多元迴歸分析(multiple regression analysis)，分析"年齡與性別影響BMI指數嗎?"。

解析：
1. 此題可利用多元迴歸分析探討幼兒性別差異(自變數一)與年齡(自變數二)是否會影響BMI指數(依變數)。
2. 建立資料檔上傳，檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果：

迴歸分析 - 分析結果

分析方法：迴歸分析
資料名稱：範例D-2
依變數名稱：BMI
自變數名稱：性別, 年齡, 糖尿病患病情況
顯著水準：0.05
計算時間：0.756秒

樣本敘述統計量^I：

變數名稱
Variable 樣本數
Count 平均數
Mean 中位數
Median 最小值
Minimum 最大值
Maximum 標準差
Std. dev.
BMI 80 23.385 23.45 17.6 30.1 2.5337
年齡 80 44.3125 44 25 68 10.6979
I：樣本敘述統計量皆不包含遺失值

數值變數交叉配對散佈圖：
皮爾生相關係數矩陣^I：

BMI 年齡
BMI 1.000
0.000
80 0.042
0.709
80
年齡 0.042
0.709
80 1.000
0.000
80
I：表格內容為皮爾生相關係數 / P-值 / 樣本數

變數選取過程：

變數選取方法：向後選取法(Backward method)
變數選取準則：排除值 α 為 0.1
完整模式：BMI = (截距項) + 性別(1) + 年齡 + 糖尿病患病情況(1)
最終模式：BMI = (截距項) + 糖尿病患病情況(1)
步驟0：

模式
model

變數
variable 係數
coefficient 標準差
std. err.
(截距項) 22.1746 1.0806
性別(1) 0.1751 0.494
年齡 0.0037 0.0233
糖尿病患病情況(1) 2.7389 0.5174

模式內的變數
variables in the model

變數
variable 判斷移除的準則
criterion to remove

F統計量
F statistic P-值
p-value
性別 0.1256 0.724
年齡 0.0254 0.8738
糖尿病患病情況 28.0214 < 1e-04

模式外的變數
variables not in the model

變數
variable 判斷進入的準則
criterion to enter

F統計量
F statistic P-值
p-value

判定係數(R-square)：27.15 %
調整判定係數(adjusted R-square)：24.27 %
步驟1：

模式
model

變數
variable 係數
coefficient 標準差
std. err.
(截距項) 22.335 0.3903
性別(1) 0.18 0.4899
糖尿病患病情況(1) 2.7429 0.5135

模式內的變數
variables in the model

變數
variable 判斷移除的準則
criterion to remove

F統計量
F statistic P-值
p-value
性別 0.135 0.7143
糖尿病患病情況 28.5264 < 1e-04

模式外的變數
variables not in the model

變數
variable 判斷進入的準則
criterion to enter

F統計量
F statistic P-值
p-value
年齡 0.0254 0.8738
判定係數(R-square)：27.13 %
調整判定係數(adjusted R-square)：25.23 %
步驟2：

模式
model

變數
variable 係數
coefficient 標準差
std. err.
(截距項) 22.425 0.3021
糖尿病患病情況(1) 2.7429 0.5107

模式內的變數
variables in the model

變數
variable 判斷移除的準則
criterion to remove

F統計量
F statistic P-值
p-value
糖尿病患病情況 28.8463 < 1e-04

模式外的變數
variables not in the model

變數
variable 判斷進入的準則
criterion to enter

F統計量
F statistic P-值
p-value
年齡 0.0334 0.8554
性別 0.135 0.7143
判定係數(R-square)：27 %
調整判定係數(adjusted R-square)：26.06 %

迴歸模式的變異數分析：

虛無假設：迴歸模式不顯著

來源
source 平方和
sum of squares 自由度
d.f. 均方和
mean square F檢定統計量
F-statistic 臨界值
F(d.f.1,d.f.2,1-α) p-值^I
p-value

迴歸
regression 136.9234 1 136.9234 28.8463 3.9635 < 1e-04 ***

誤差
error 370.2386 78 4.7466

總和
total 507.162 79

I：顯著性代碼：‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

迴歸係數估計^I：

係數
coefficient 估計值
estimation 標準差
std. err. t檢定統計量
t-statistic p值^II
p-value 參數的 95% 信賴區間
95% C.I. for estimations

下界
lower 上界
upper
(截距項) 22.425 0.3021 74.2234 < 1e-04 *** 21.8235 23.0265
糖尿病患病情況(1) 2.7429 0.5107 5.3709 < 1e-04 *** 1.7262 3.7596
I：依變數為BMI
II：顯著性代碼：‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

殘差分析：

殘差常態分配假設檢定

虛無假設：殘差服從常態分配

W 檢定統計量^I
W-statistic p 值
p-value

0.9853 0.4919

I：Shapiro-Wilk常態性檢定法

殘差變異數齊一性假設檢定

虛無假設：殘差變異數具齊一性

卡方檢定統計量^I
Chi-square statistic 自由度
d.f. p 值
p-value

0.4351 1 0.5095

I：Breusch-Pagan檢定法

殘差獨立性假設檢定

虛無假設：殘差之間互相獨立

一階自我相關
1st order autocorrelation D-W 檢定統計量^I
D-W statistic p 值
p-value

0.2261 1.5161 0.026

I：Durbin-Watson檢定法

殘差分析圖

Box-Cox 最佳轉換圖^I：

I：最佳 lambda 值：0.4646、對應的最大 Log-Likelihood：15.3441

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「雲端資料分析暨導引系統」!

變數名稱 Variable	樣本數 Count	平均數 Mean	中位數 Median	最小值 Minimum	最大值 Maximum	標準差 Std. dev.
BMI	80	23.385	23.45	17.6	30.1	2.5337
年齡	80	44.3125	44	25	68	10.6979

	BMI	年齡
BMI	1.000 0.000 80	0.042 0.709 80
年齡	0.042 0.709 80	1.000 0.000 80

虛無假設：迴歸模式不顯著
來源 source	平方和 sum of squares	自由度 d.f.	均方和 mean square	F檢定統計量 F-statistic	臨界值 F(d.f.1,d.f.2,1-α)	p-值^I p-value
迴歸 regression	136.9234	1	136.9234	28.8463	3.9635	< 1e-04 ***
誤差 error	370.2386	78	4.7466
總和 total	507.162	79

係數 coefficient	估計值 estimation	標準差 std. err.	t檢定統計量 t-statistic	p值^II p-value	參數的 95% 信賴區間 95% C.I. for estimations
係數 coefficient	估計值 estimation	標準差 std. err.	t檢定統計量 t-statistic	p值^II p-value	下界 lower	上界 upper
(截距項)	22.425	0.3021	74.2234	< 1e-04 ***	21.8235	23.0265
糖尿病患病情況(1)	2.7429	0.5107	5.3709	< 1e-04 ***	1.7262	3.7596

虛無假設：殘差服從常態分配
W 檢定統計量^I W-statistic	p 值 p-value
0.9853	0.4919

虛無假設：殘差變異數具齊一性
卡方檢定統計量^I Chi-square statistic	自由度 d.f.	p 值 p-value
0.4351	1	0.5095

虛無假設：殘差之間互相獨立
一階自我相關 1st order autocorrelation	D-W 檢定統計量^I D-W statistic	p 值 p-value
0.2261	1.5161	0.026