好,那根據前面的那個模型的設定,我們知道說这个回歸基本上
是一支股票一支股票來跑的,那所以我們在做資料的處理的時候
也是朝著這個方向來前進,也就是說我們希望把資料整理成到最後我們在跑回歸的時候是可以
一支股票一支股票地拿過來跑。
那所以就是這邊寫的就是我們是用所謂的 stock-year 的 這個說法來說這件事情。
那這個其中我們會需要所謂的这个 market return,market
return 就是是所謂的市場報酬,那在台灣用的是所謂的台灣加權股價指數的這個報酬。
那這個東西也是人家有做好的,你可以直接去下載。
那另外就是所謂的 stock return 就是個股的報酬
那個股的報酬也是有現成人家做好的資料,我們可以直接拿來用。
那我們使用的這個資料來源是台灣經濟新報,那當然也有別的資料來源 比如說你可以去
Yahoo 或者是證基會的網站上面應該也可以看得到,那不過就是說
這個經濟新報這邊資料整理得是比較完整的,而且它歷史比較長。
那所以我們就是直接使用這個台灣經濟新報的資料。
那我們使用的是這個日資料,那而且我們有經過所謂的除權息的調整,就是說有些時候
股票除了這個價格的波動之外,它還會發股息 有時候會發現金股息,有時候會發股票的股利之類的
那另外它可能會做股票的分割,那這些事情都會影響你這個報酬 的計算。
那我們這個部分我們就直接使用已經調整好的資料。
那我們涵蓋的股票就是所有的 普通股,所以大概會有八百多家的股票。
那所以這個畫面就是是台灣經濟新報的執行的畫面,那
基本上你如果是在管理學院的話,你可以在管理學院的 這個 IP 下面執行就可以直接做資料的下載。
那在 台大的網域不是非常的確定,那在其他地方的話你可能就是要透過別的,看看其他
有什麼學校有買,就可以去那個地方去使用。
那這個所以我們使用的是這邊這個 是除權息調整之後的這個日 報酬。
那它的這個資料,你如果點它的話你會在這邊看到這個 資料大概的樣子。
那我們在這邊因為我們要把所有的資料都下載好,所以我們就用一個
所謂的這個特殊轉檔的這個功能,所以如果點它的話它就會跳出一個
長得像這個樣子的視窗,那就可以在這邊把你想要 抓的股票全部都選過來。
那我們這邊選的是所有的 上市的普通股。
然後我們只有選這些欄位,有報酬率、 市值跟收盤價
那事實上我們只會用到這個報酬率的這個部分而已。
那我們會 我們到時候會在起始跟結束的時間我們會一次設定一年,就是從
比如說從 2015 年 1 月 1 號到 2015 年的 12 月 31 號這樣子的方式來
抓取,然後所以你一次的話就會把所有的普通股 一年的所有的日報酬全部都抓回來。
那所以你如果選好之後,你這邊 設好存檔的位置之後就可以轉檔,轉檔之後就是它就會把它下載到你指定的位置。
那下載完之後 你如果去把這個檔案用
Notepad 打開,它大概是長這個樣子
所以它資料看起來是還蠻乾淨的,對不對?它第一 個這個
row 是中文的這個 資料名稱,第二個
row 是英文的資料名稱,然後後面就是是每一筆每一筆的資料。
那大概看一下資料就會發現說,這個資料它排序的方式事實上是用 交易日做排序的,它是用交易日做
排序的,然後每一個交易日就會把所有的股票 的這個資料把它列出來。
那所以呢,看了一下這個資料的樣子,那它距離我們
可以使用的這個格式那事實上是有一些距離的。
那第一個就是說 它這個資料它事實上是用所謂的
TAB 分隔的 那我們事實上是比較喜歡所謂的 CSV
格式,CSV 是用逗點分隔的,是用 comma 分隔的。
那第二個它有兩個這個 heading,一個是中文的,一個是英文的
那我們事實上為了方便起見,我們只希望能夠保留這個英文的這個 變數名稱也就可以了。
那另外就是說資料的順序也不適合我們做分析,因為我們是希望說把
某一支股票那一年的資料全部抓出來跑回歸 對不對?但是它目前它是先照日期
排序之後再照這個股票排序,那它就不大適合我們去做這個事情。
那所以我們要怎麼辦呢?所以我們必須要去把這個資料重新做一個排序,讓它
能先最好是先照股票再照日期來排序,那比較適合我們後續的使用。
那另外就是說 我們還缺了一個所謂的 market return 的 data,就是說股票市場報酬的這個資料。
那另外這個股票市場報酬的資料一旦有了之後,我們還需要
做一件事情,因為我們做回歸的時候我們是一筆這個
某一家公司的日報酬,然後對應到這一個時間的
市場的報酬,所以我們必須要做這樣一對一的對應,那這個動作我們把它叫做 merge,就是我們需要擺時間
把個股的報酬跟市場的報酬把它合並起來。
那這也是一個另外要處理的事情。