統計的謬誤--因果關係

在很多研究報告上面,我們常常可以看到「根據統計報告顯示,XX與YY在統計上面有/沒有關係…」等等的論述。因為這是用非常嚴謹的文字所寫出來的,所以會讓人有種「他是很可信的,我們可以依據他推論出其他的結果」這種感覺。

事實上,統計數據的價值,遠遠沒有如此的高。

統計學上面常常講一個小故事,讓人們理解統計的偏差性。這故事叫做「腳大的學生數學比較好」的故事。

某研究團隊到了一間小學,量度學生的腳長度以及他們的數學表現,發現腳的大小與數學表現呈現正相關。因此得到結論「根據統計結果,一個學生腳的長度與他的數學能力呈現正相關。換句話說,腳大的學生數學會比較好」。

理由是什麼呢?因為這兩個數據都跟另一個數據有關連:孩童的年紀。在一間小學裡面,年紀大的小孩,當然平均來說腳會比起年紀小的孩童大一些。而年紀大的小孩在學校念到比較高的年級,自然而然數學能力當然也會比較好(這裡的題目不因應年紀做改變。也就是說讓小六生跟小四生考一模一樣的題目,當然是前者表現比較好)。

這故事看起來很好笑,但是他給了我們一個啟示:當兩個數據看起來有關連性的時候,很有可能其實是他們同時跟另一個數據都有關聯性罷了。因此,統計數據上的關聯性並不能用來說明因果關係。就像我們不會因此說腳的大小跟數學能力之間有因果關係一樣。

舉個比較有爭議性的例子:套用到牛奶與骨質疏鬆症的關聯也是如此。根據統計,我們知道牛奶消耗量比較高的國家,國內有骨質疏鬆症的比例比較高,但是我們也不能因此斷定引用牛奶會導致骨質疏鬆症。

而且事實上這個因果關係是很可能存在的:牛奶喝的比較多的歐美國家,生活一般比較富裕。而生活富裕的國家一般比較容易因為運動不足而有骨質疏鬆症。

既然統計數據並不見得能證明兩個事情有因果關係,那麼為什麼很多書籍總是使用這個方式來說明因果關係呢?

第一個是如果不接受這個方式,很多因果關係會難以證明。真正在醫學上要證明兩個東西有因果關係,最有說服力的作法必須要做控制的生物實驗,依據學理的變化才能說這兩者有因果關係。次者是根據一個國家層級的單一改變(本來這個國家都不喝牛奶,在其他條件沒有明顯改變的狀況之下喝了牛奶同時骨質疏鬆變多)才是比較具有說服力的說法。

再者,是使用此種方式,可以讓生硬的統計數據變得比較有趣,像是多吃巧克力可以幫助得諾貝爾獎 這個說法就相當有趣。如果報導只是說「這兩者有正相關」,我們就很好推論出來原因:如果跟民眾大多沒有收入吃巧克力的諸多國家相比,民眾較為富裕,有錢能買巧克力的國家,當然也比較有財力能資助研究計畫,提高國民得諾貝爾講的機率,那麼這個統計結論,就變得一點都不有趣了。

results matching ""

    No results matching ""