機器學習 vs 經濟學 Part 1

12 min readMar 27, 2023

關於更白話的機器學習 vs 經濟學的關聯，我非常推薦閱讀白經濟的文章。

Part 1 Part 2 Part 3

截至目前網路上提及機器學習用於經濟因果關係的中文科普文其實非常少，因此在這一篇文章我將說明，機器學習會如何協助應用個體經濟學中非常重要的概念 — 因果關係推論 (causal inference) 以及反事實模擬 (counterfactual outcome)。

我會先介紹機器學習不能解決的問題，接著介紹潛在結果模型以及平均處理效果。再來我會介紹計量經濟中如何用傾向分數計算我們感興趣的變數，最後將機器學習帶回來，說明他如何幫助我們。

不過，我自己的研究領域比較接近總體貨幣與國際金融，對於應用個體計量的知識有限，如果有任何邏輯上有誤的，歡迎隨時糾正。

經濟學不只在於預測

直覺上提到經濟與 machine learning，對大部分的人來說，首先跳出來的就是「預測」這件事。

的確，機器學習很會預測 — 總體上預測房價、預測匯率、預測股價等等，個體上也可以應用在預測個人信用、投保人風險等等。提到預測時，很自然會想要用機器學習。

不過，對於經濟學研究來說（尤其是勞動經濟學與健康經濟學），更引人入勝的是對於因果關係的判斷，以及一些反事實的推論，一些像是「如果他當初不做A而改做B，會影響多少」。我們稱之為「處理效果 (treatment effect)」，他可以回答「因為做 A 而造成的影響」。

舉例來說，選擇讀理科 (STEM) 對於未來薪資有無影響、或是孕婦抽菸到底對於嬰兒體重會不會有負面影響。

上面兩個看似不明而喻，但仔細思考這答案卻沒這麼顯然。以孕婦抽菸的研究為例，對於健康較不注重的人，比較容易抽菸。而這些對健康不重視的人，也很自然地造成出生嬰兒體重的下降。那究竟抽菸這件事，會不會直接影響到嬰兒體重呢？又，如果抽菸的孕婦當時不抽煙，那出生嬰兒體重會增加多少百分比？

好…那機器學習沒辦法知道嗎？

好的機器學習演算法，背後都是一個黑盒子。

例如，決策樹 (decision tree) 可能出來一個有道理的分類，但是合在一起（我們稱做 bagging）的隨機森林模型 (random forrest) 就很難給予一個整體的變數影響程度，遑論因果推論。而 XGBoost 這類演算法的黑盒子程度更大，一般很難解讀每一個 weak learner 所代表的意涵是什麼。

機器學習可以想像成是，給一連串因子，他會提供你一個預測值。例如一張照片，他會說出他是什麼物體，或是給一串個人的消費行為歷史，他會告訴你下一季他可能的消費金額。

再強調一次，雖然機器學習吐出的結果通常很準，但這對於「為什麼這會是一台車」、「為什麼他會比上一季多消費 $10,000元」這類的問題，是沒有辦法提供見解的。他就是個黑盒子。（不過，後續有一些工具，例如Shapley value，可以幫助解讀結果，但他終究只能回答一個變數對預測的貢獻度，對於因果推論的幫助，還是有限。例外，還有Double machine learning，有機會再介紹）

讀者現在應該可以大致上理解為什麼機器學習沒辦法直接幫助我們回答一些經濟學感興趣的問題，並且量化很多「如果當初」的反事實結果。

我們還是會需要一個計量的理論模型，來釐清楚我們觀察到的數字，到底是如何產生的。

但機器學習沒辦法回答的，憑什麼計量經濟就可以回答？

計量經濟怎麼回答？

哈佛統計學家 Donald Rubin 在 1974 年的一篇文章中說明，把我們觀察到的資料Y，看成是兩個情況：選擇做某件事的結果 Y(1)，以及選擇不做某件事的結果Y(0)。當然，我們這些資料搜集者只看得到其中一個，另一個就會是一個反事實的結果。

舉例來說，如果孕婦抽菸， Dᵢ = 1，他嬰兒的體重就變成 Yᵢ(1)。我們永遠觀察不到假如她不抽煙的平行世界中，嬰兒的體重 Yᵢ(0)，除非可以時光旅行。這樣的簡單概念，可以被寫成以下的式子，經濟學家稱它叫做「潛在結果模型」potential outcome framework

稍微解釋一下這個式子。如果孕婦抽菸，也就是 Dᵢ=1，那 (1-Dᵢ) 就會是 0，因此這條式子變成 Yᵢ = Yᵢ(1)。儘管平行宇宙中也有一個他不抽煙時，嬰兒體重的結果 Yᵢ(0)，但我們永遠觀察不到。反之，如果這位孕婦沒抽煙，也就是 Dᵢ = 0，那我們觀察到的就只剩 Yᵢ = Yᵢ(0)。

經濟學家想知道什麼？

對經濟學家來說，感興趣的問題可能有

整體來說，孕婦抽不抽煙，平均而言對嬰兒體重到底影響多少。這對於政策制定者攸關重要。
對於已經在抽煙的孕婦，如果當時制止他抽煙的話，那他的小孩體重平均而言可以上升多少？這對說服戒菸很有幫助

第一點我們稱它叫做平均處理效果， average treatment effect，簡寫為 ATE，用剛剛潛在結果模型的語言，就是在計算

E 代表期望值

這個的詮釋為：對於所有人，我們都知道有一個做與不做的後果。平均每一個人而言，做與不做之間，結果究竟會差多少？

用更科幻的角度，就是在看，對於每一個個體，在平行宇宙中觀察做與不做兩種情況的結果，記錄每一個個體的差異，再將每一個個體的差異做平均，來得到這一個「平均而言，做與不做的差異」

第二點我們稱之為受處理者之平均處理效果，average treatment effect on treated，簡寫為 ATT：

跟 ATE 很像，不過現在我們將觀察的對象限定在那些當時已經選擇要做的那些人身上，所以會多一個「條件在 Dᵢ=1 之下」。

不能直接平均嗎？

要看有做跟沒有做的結果，難道不能直接從樣本做平均嗎？這似乎是很多新聞媒體或政府研究會出現的作法。

以孕婦抽菸的例子，這個問題相當於：想知道抽不抽煙有沒有影響，那就把抽煙孕婦的嬰兒平均體重，減去沒抽煙孕婦的嬰兒平均體重，不就可以了嗎？

這是很多人會陷入的一種謬論，正是鼎鼎大名的「選擇性偏誤 (selection bias)」。簡單用剛剛的 potential outcome framework 解釋就是：

首先，因為本身觀察結果就已經是條件下的平均，所以沒辦法觀察到 ATE。而他也不會是 ATT，因為根據上面的運算，最後還有紅色那一串無法消掉，因此出現 selection bias。

總結來說，透過樣本平均來取得的 ATT 或是 ATE，會有嚴重的選擇性偏誤。直觀而言，就像前面提到的，會選擇抽煙的孕婦 ( Dᵢ = 1 )，本身就可能不注重健康，使得這群人就算不抽煙，嬰兒體重也還是比較低，相較於本來就注重健康的孕婦。正因為「選擇不是隨機的」，所以我們無法直接取平均的差異。

如果我們可以做實驗，這個問題很好解決。只要把一群孕婦隨機分組，一群人抽煙，一群人不抽煙，那這樣兩組之間的選則就是隨幾的，不會出現選擇性偏誤。這種做法較隨機控制實驗 (randomized controlled trial, RCT)。

但當然，我們不可能做這些殘酷的實驗（對…吧？）

那是不是我們永遠都無法算出 ATE 以及 ATT 了呢？

經濟學家長久一來都在這種無法做實驗的情況之下研究因果，我們自然有一套有統計理論支持的作法。

傾向分數 Propensity Score

Rosenbaum 與 Robin 在 1983 年提出了一個叫做「傾向分數」的概念，簡單來說他就是代表著「個體做某一個選擇的機率」

這裡的 Xᵢ 稱作共變數 (covariate)，總之就是各種影響選擇的因素。在孕婦抽菸的例子中就是一個女性，在控制了各種因素之後，選擇要抽菸的機率。

讓我們先做個假設：每一個人選擇與不選擇的結果，在控制了某些條件之後，跟我們得潛在結果是沒有任何關係的：

這個假設稱作「條件獨立假設」conditional independent assumption，或是更成被稱作「無混淆性」unconfoundedness （其實這個好像沒有標準中文翻譯）。

回到孕婦抽菸的例子，也就是假設孕婦的抽菸與否，不會直接影響出生嬰兒體重的兩種潛在結果的值。你可能會覺得「那難道不會有孕婦為了讓嬰兒健康而戒菸嗎？選擇會使得出生嬰兒體重增加吧？」要特別注意，這句話題及的「出生嬰兒體重」已經是選擇後的結果，也就是 Yᵢ，並不是這裡提到的「潛在嬰兒體重」，Yᵢ(1) 與 Yᵢ(0)，中間有很大的差別，但常常對人類而言會不太直覺，我自己有時候也要想很久。

潛在嬰兒體重，是在決定要不要抽煙之前就決定的了，抽菸只是讓抽菸時的潛在嬰兒體重顯現出來而已。

ATT 的計算 — 傾向分數匹配

Rosenbaum 與 Robin 在 1983 的論文中證明，給定上面的假設，也就是潛在的結果跟選擇無關之下，如果不同結果的兩個人選擇做一件事的機率一樣（傾向分數一樣），則他們的差異的期望值，就會是 ATT。

這樣的做法叫做「傾向分數匹配」，propensity score matching

用白話就是，如果兩個孕婦給定條件後抽菸的機率一樣，但是最後一個抽了，一個沒抽，而我們現在有好幾組這樣的孕婦對，則這些嬰兒出生體重的差異的平均值，才會是 ATT — 如果一個抽菸的孕婦當初不抽菸的話，平均而言嬰兒出生體重的差異。

ATE的計算 — 逆機率加權

剛剛用 propensity score 可以算出 ATT，但如果想知道，不只是對已經抽菸的孕婦的出生嬰兒體重差異，更想知道對所有人而言，不管現在他是不是有在抽菸，他們如果抽菸之後，對嬰兒出生體重的差異。

Rosenbaum 在 1987 又提出了一種稱作 Inverse Probability of Treatment Weighting，簡稱 IPTW 的做法。

假設孕婦抽菸的傾向分數（propensity score，也就是他會抽菸的機率）是 Pᵢ，那我們只要把

抽菸孕婦的嬰兒體重除上 Pᵢ，選擇抽菸的機率
無抽菸孕婦的嬰兒體重除上 ( 1 — Pᵢ)，選擇不抽菸的機率

得到兩筆新的數據之後，再把這個數據相減做平均，就可以得到 ATE，用 potential outcome framework 的語言就是：

看起來很複雜，但其實如果一個孕婦選擇抽菸，此時 Dᵢ = 1，那第二項就消失了，反過來如果一個孕婦抽菸，則第一項消失，最後就相當於上面所說明的，各自乘上權重之後，相減取平均。

這是一個很神奇的操作，有興趣的可以自行看證明，中間會有一些用到雙重期望值定理，建議有統計基礎的再研究。

回到機器學習

我現在還有一件事沒有解決。那這個傾向分數，到底是如何計算的？

傳統上的文獻，都是用邏輯斯回歸 (logistic regression)，來得到傾向分數。然而有沒有發現，這個其實就只是一個很單純的預測問題！

無論是預測一個孕婦抽菸與否的機率、預測一個勞工投保的機率、預測…，其實都不完全是重點，畢竟最後經濟學家在意的，很多時候只是這個反事實的平均處理效果， ATE, ATT, ATU等等。那何不把預測機率的事情交給機器學習呢？

的確，引用 Peter C. Austin (2011) 有關傾向分數應用的文獻回顧：

Although logistic regression appears to be the most commonly used method for estimating the propensity score, the use of bagging or boosting (Lee, Lessler, & Stuart, 2010; McCaffrey, Ridgeway, & Morral, 2004), recursive partitioning or tree-based methods (Lee et al., 2010; Setoguchi, Schneeweiss, Brookhart, Glynn, & Cook, 2008), random forests (Lee et al., 2010), and neural networks (Setoguchi et al., 2008) for estimating the propensity score have been examined.

經濟學家很早其實都有在使用機器學習的方式，來從高維度的龐雜資料中，預測具有異質性的個體的行為。

結論 — 機器學習會不會取代計量經濟學

在求職季，看到越來越多的徵才文案都在要求要有 ML 經驗，甚至要會深度學習的技能；更多的是標榜數據分析師的其他企業徵才，充其量也只是要進行簡單的 BI 來說故事。而經濟系的大本營 — 銀行界，卻又似乎只看中經濟系最淺層的總體概念。

看上去計量經濟學在業界幾乎無用武之處，甚至幾乎要被機器學習所取代。

這曾是我最真摯的擔憂，認為經濟所的學生花這麼多時間學習嚴謹的計量理論，最終卻敵不過一個無腦的 model.fit(X_train, y_train) 。

不過我寫完這篇之後，總算有點找回經濟系身為科學的起點。這是一門有演繹(deduction )，有歸納(induction)的學問。計量理論起始於經濟理論架構，終於一個結合數據的公式，在有限數據中竭盡各種工具來驗證一個經濟直覺。這不是其他機器學習可以取代的工作，反而可以更加應用機器學習的優勢來補足準確性，又不失經濟學家所關注的人本議題。

但事實的確是現在業界對於這種統計工具的嚴謹與知識價值，還沒有一種共識，所以求職者會有所擔憂真的在所難免。只希望越來越多的人，渺小如我也好，偉大如諾貝爾獎得主也好，讓更多人認識計量工具對於數據思維以及決策分析的重要性。

參考資料

白經濟 — 機器學習 vs 經濟學（下）
https://talkecon.com/ml_c/

Austin, P. C. (2011): “An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies,” Multivariate Behavioral Research, Informa UK Limited, 399–424.

Rosenbaum P.R., Rubin D.B. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika. 70:41–55.

Imbens, G. W. (2004). Nonparametric estimation of average treatment effects under exogeneity: A review. Review of Economics and statistics, 86(1), 4–29.