經驗分享:如何有效地分析一份數據

文章來源:“小白學統計”公眾號。
如何有效地分析一份數據。這個題目很大,然而也正是很多非統計學專業(可能也包括一些統計學專業人員)不知如何下手的問題。當拿到一份數據,到底從哪兒入手開始分析。什麽是第一步?有沒有固定步驟?或者說,數據分析到底有沒有什麽寶典?我們就來談談這個問題。


首先,數據分析絕對沒有一個固定的步驟,一定要先幹什麽,再幹什麽,等等。沒有這回事。具體在軟件操作上,我們可能並無差別,我會用SAS做t檢驗,你會用SPSS做t檢驗,本質上並無差異。真正差別的,不是軟件操作,而是軟件操作之前的思路。


我下麵要說的內容,隻是個人的十多年分析經驗總結,但你千萬不要把它看做是一個放之四海而皆準的分析套路。所謂思路,那就是沒有什麽固定套路,隻是參考和借鑒。而且,我介紹的這些,肯定也不全,幾乎不可能一篇文章麵麵俱到,把所有的分析思路都介紹清楚。隻希望能對各位朋友在不同角度上有所幫助。


第一步要考慮的,我個人認為,一定是研究目的。


所有的統計分析都是圍繞目的而執行,偏離了研究目的,分析的方法再高級,那也是南轅北轍。不同的目的,需要考慮不同的方法。


例如,你要做兩組比較(例如,兩種藥物的血糖變化值有無差異),還是要做兩個變量有無關聯(比如血糖值和血壓值的關聯),或者想做綜合評價(如根據多個指標評價哪家醫院更好)。這都需要選擇不一樣的方法,組間比較可能最簡單的方差分析就可以,綜合評價可能需要用到主成分分析等更為複雜的方法。


第二步,要考慮指標的類型。


這裏的指標包括分析指標因變量,也包括影響因素自變量。當然,並非所有分析都這麽劃分為因變量和自變量。有的可能隻有分析指標,而無影響因素。


如果你有明確的結局,然後有一個或多個可能跟結局有關的指標,那就可以按因變量和自變量的方法來分析。大多數的這種情形都可以考慮廣義線性模型。它包含了幾乎絕大多數的有結局和影響因素的分析場景。例如,結局是連續資料,可以考慮線性回歸等;結局是分類資料,可以考慮logistics回歸等。


可能有人會說,那t檢驗、卡方檢驗這些在哪兒呢?其實這些都可以看做是單因素分析而已。t檢驗,隻是一個自變量是二分類、因變量是連續變量的回歸模型而已。比如比較男女之間身高有無差異,身高就是因變量(結局),性別就是自變量(因素),所謂比較男女之間有無差異,實際上就是說,性別對身高有無影響。其實一回事。卡方檢驗亦是如此。


所以,幾乎所有的統計分析方法,都跟變量類型有關,都需要根據變量的類型來選擇不同的方法。比如,如果結局指標是連續變量,那可以考慮的方法包括(但不限於):t檢驗、方差分析、協方差分析、線性回歸、秩和檢驗、中位數回歸等等,根據自變量的類型、因變量是否服從正態分布等多個因素來考慮選擇。


但是還有一些分析數據,是不區分所謂的因變量和自變量的,都是分析指標,比較常見的如主成分分析、聚類分析、相關分析、因子分析等等。這些分析方法不是為了研究某些因素對結局的影響,而隻是針對分析指標根據不同目的進行一定的分析。
例如,主成分分析通常是為了把多個分析指標綜合成較少的幾個指標;聚類分析通常是為了根據幾個指標把人群歸為幾類;因子分析通常是為了尋找支配表麵指標的背後因素。這些方法一般稱為多元方法,“元”一般是指因變量,這些都是多因變量的方法。
而前麵說的線性回歸、logistics回歸等,通常都是單個因變量,多個自變量,因此算不上多元方法,更確切地說是多因素的分析方法。


第三步,具體問題具體分析。


可能你會說,這算什麽步驟。然而,實際的情況是,真正到了數據分析過程中,往往就是具體問題具體分析。


根據前麵提到的目的和數據類型,你基本上可以確定一定範圍的幾種方法。有時可能就確定了某一種方法了。然而再利用這種方法進行分析的時候,仍需要一些思路的指導。


根據我個人的分析領域和分析經驗,在醫學統計學中,大多數的分析方法(並非全部)可以歸為兩大類:一是有結局也有影響因素的;二是隻有結局沒有影響因素的。這裏麵又以有結局有影響因素的更為常見。


對於有結局有影響因素的這類數據,大多數的目的都是為了尋找結局主要受哪些因素影響。因此這裏主要是基於這種目的再來說一下分析思路。


想要說明某一自變量是否對結局有影響,至少需要回答三個問題:


(1)是不是有影響?


(2)有什麽樣的影響?(線性影響,還是非線性的)


(3)影響有多大?


某一自變量是不是對結局有影響(例如,收縮壓的高低是不是對血糖值有影響),這是個定性問題,要回答這個問題,基本上P值可以說明一些問題。P值可以告訴我們,這種影響是不是偶然造成的,還是一種真實存在的現象。


然而,僅回答“是不是有影響”,這是遠遠不夠的。比如,你可以說,吸煙有害健康,這是定性問題。然而,吸煙對健康的危害到底有多大,這是個定量問題。這才是大家更關心的。因此還需要考慮這種影響到底有多大。


影響有多大,可以通過統計軟件中的“參數估計值”來說明。比如,我們常說的回歸係數、兩組比較的均值差值,這都是參數估計值,他們可以說明這種影響有多大。例如,體重對收縮壓的參數估計值是0.1,說明體重每增加一公斤,收縮壓增加0.1;男女的身高差值是0.2,說明性別從女到男之間的差異是0.2。這可以定量說明影響有多大。


現在看來,似乎定性和定量都回答完了。事實上,很多人也就做到這一步就完了。然而,其實還有更重要的一個要回答的問題是:“有什麽樣的影響”。


回答影響因素的模型,大多數是回歸模型,而回歸模型中,大多數又都是基於這樣一個假設:自變量和因變量(或者因變量的變形)是線性關係。不得不說,很多人根本無視這個假設,從而導致很多分析結果其實都是錯誤的。畢竟,現實中有多少關係是線性的呢?其實很多可能都是非線性的。這就是要回答的重要問題“有什麽樣的影響”,到底是線性的影響,還是非線性的影響。


遺憾的是,關於這個至關重要的問題,卻隻有少數人能回答。根據我個人的經曆,大多數人(包括很多統計學家)是不考慮這個問題的。也許,不是不考慮,而是沒有考慮到,或者,不知道該怎麽考慮。


關於“有什麽樣的影響”,有些可以通過簡單的散點圖就可以發現,有的則更為複雜,一眼看不出來,可能需要像廣義可加模型、樣條回歸、核平滑等多種技術協助探索。這可能需要專業的統計學家才能完成。然而,這也是體現專業和非專業的非常關鍵的一點:能不能真正幫你找到數據規律。


總的來說,要真正形成自己的分析體係,一定要先掌握各種方法,然後把這些方法之間的關係搞清楚,抽絲剝繭,提煉升華。這是一個由粗到細,再到粗的一個過程。隻有細致深入,真正理解,才能把握重點,提煉出粗略的枝幹。
隻有了解足夠多的方法,在考慮方法選擇的時候才能做到“胸有成竹”,從多種方法中選擇最合適的,否則你隻會一種方法,就隻能局限於這種方法,無法進行選擇。雖然可能最後的結果都一樣,都用了同一種方法,但是過程卻不同。你可能是不會別的方法,隻能用這種;而我是考慮了多種方法後,認為這種最為合適,主動選擇了這種方法。
蘇州J9.COM