資料搜集與視覺化 — 運動中心人數 Part1

陳家威
Mar 7, 2021

這一個系列紀錄我是如何抓取個台北市各個運動中心的人數資料,以及台大綜合體育館的人數資料,並且用R來初步視覺化這些 panel data.

最後結果
最後資料的呈現

這一個part 主要還是針對緣起跟數據的功能做介紹,技術細節我打算留到Part 2。

緣起

過年吃下了太多罪惡之後,決定在三月初開始游泳減重。對於上次游泳是高中集體玩水課的我來說,游泳池的「生態」跟「潛規則」完全不熟悉。市立運動中心在平日8:00~10:00 以及 14:00~16:00 是福利時段 (aka 老人免費入場)這件事也是一無所知,第一次的游泳體驗就是水道比連假最後一天北上的車潮還要擠。

回到家之後在網路上得知原來官方有提供當下各個運動中心的健身房與泳池人數。這或許可以讓我決定當下要不要去,但對我來說,比較有用的應該還是一整天下來各個時段的人數統計。

我上網查了台北市資料大平台,也查了運動中心官網,上面都沒有看到一整天下來的時間序列資料,只有剛剛提到的個運動中心即時人數統計,如圖:

既然網路上沒有找到相關的統計,我決定自己搜集包含台大新體的13個游泳池與健身房的各個時間的時間序列,建立一整年的panel data。

資料用途

除了很簡單的能夠拿來視覺化每個時段的人數之外,我認為這些資料還有其他用處。

  • Regression 迴歸
    不用多說。能對Panel data 做的迴歸都能用在這筆資料上
  • Instrumental Variable 工具變數
    修過計量經濟學對我最大的震撼就是經濟學家想像的工具變數。聽到最扯的是用河川數量來作為教育的工具變數。
    大概為對於沒有計量經濟基礎的人解釋一下工具變數是什麼。有時候你想知道的數字(反映變數 ex 薪水),跟你想拿來解釋的數字(解釋變數 ex 教育程度),中間有密不可分的因素共同影響著(ex 努力程度),所以這樣如果一般高中教的線性迴歸來做的話會產生所謂內生性(endogeneity),這時候經濟學家的解決方法就是透過一個跟數來「繞過」這個內生性,這種變數就稱為工具變數。
    這次的數據我覺得有潛力變成某種迴歸的工具變數。現在還沒想到而已。

總之,我覺得這些資料不拿白不拿,通常要做分析的時候才想得到某些資料已經太遲了,反正資料量可以不用很大很大,就姑且先搜集吧。

--

--

陳家威

Graduate student in Economics. Aficionado of data science & causal inference