實務上作迴歸分析的注意事項晨晰統計顧問林星帆整理 (1)  在作任何迴歸分析之前,記得先對所有資料對相關分析(1對1的相關),以及畫出任兩變數之間的相關矩陣,先對於變數之間的關係作初步確認。 (2)  實務上常遇見的就是變數之間相關很高,也就是有「共線性」的問題,如果遇到自變項之間相關太密切,可考慮挑選較有代表性的變項放入迴歸分析,或者用主成分分析(principle component analysis)縮減變項,並得出每個樣本在該主成分的因素得分,然後再放進迴歸模型作分析,就不會有共線性問題了(因為各個主成分之間是獨立的),值得注意的是SPSS無法得出主成分分析的正確因素得分,需改用其他統計軟體(例如SAS)咖啡機。 (3)  除了做出相關圖之外,應該還要畫各自變項與依變項的「散佈圖」,或許某自變項跟依變項的關係並非「直線關係」,可能是二項式或logistic曲線的關係,進而修正迴歸方程式。 (4)  確認樣本的同質性,舉醫學統計為例,不應該把病人的資料與正常人的資料混合在一起作迴歸分析,應該分別作分析。 (5)  在進行分析之前,應該對所有變項作「極端值」檢驗,在迴歸分析裡頭Outlier對結果的影響甚大,可用盒型圖或直方圖作檢查,檢驗是否有不合理的離群值出現。 (6)  開始分析後,如果有好幾個預測變數,不應盲目地選擇「逐步法」,逐步程序法是最沒有理論邏輯性的方法,每個變數在放入迴歸模型之前冷凍冷藏冰箱最好都有一定的理論基礎,如果非得要用「逐步」法,那最好是挑選Forward(向前選取)或Backward(向後選取)法,它們相對於Stepwise(逐步法)是較具有邏輯性的。 (7)  有達「顯著」的迴歸係數(Β或β)不代表就有「強的預測力」,如果解釋力(R平方)只有0.02,那就代表這個自變項只能解釋2%的依變項,所以除了解釋迴歸係數的顯著性之外,也要注意看解釋能力高不高。 (8)  還有一個常見的問題,就是用很少的樣本數,但卻放很多的自變項,例如只有100個樣本數卻放進20個自變項,這樣會造成各個變項的「預測效率」低落,也就是整體的F檢定達顯著(代表至少有一個自變項有預測力),但是每一個變項的迴歸係數卻都不鼎曜顯著,這就是因為用太少的樣本數但卻放入太多的自變項的後果。一般建議樣本數跟自變項數目的比例是10:1。 (9)  為嚴格起見,做完分析之後要作「異常點」與「殘差」檢驗,有幾種常見的檢驗方法:偏迴歸圖、t化去點殘差(辨認依變項離群值)、槓桿值(辨認自變項離群值)、DFFITS、Cook距離、DFBETAS、Tolerance及VIF(辨認共線性) (10)  迴歸分析的推薦讀物:Neter等人原著Applied Linear Regression Models,劉應興翻譯的應用線性迴歸模型,全書翻譯流暢且校正精確,非常值得推薦。


.msgcontent .wsharing ul li { text-indent: 0; }



分享

Facebook
Plurk
YAHOO!

花店
arrow
arrow
    全站熱搜

    eb10ebxsjr 發表在 痞客邦 留言(0) 人氣()