2015年5月31日 星期日

大數據人才培訓方向

2015年大數據的人才需求看似都是工程師類,實際真實狀況卻是,工程師可以找到,寫程式也沒問題,但是資料怎麼分析卻沒有人可以分析。如果說財經資料最龐大,華爾街早已經使用大數據分析財經走勢,那麼這肯定也是金融海嘯後的事情了。

大數據需要的技能可分為四類:

  • 資料分析(data analysis)
  • 資料取得(data acquisition)
  • 資料探勘(data mining)
  • 資料結構(data structures)

最根本的問題還是在於

  • 大數據怎麼定序?
  • 大數據該怎麼分析?

當上面兩個問題解決了,那麼軟體才可以著手進行撰寫。根據大數據定序方法,將其以母體方式討論,只有對與錯的分別,沒有任何的模糊地帶,這才是大數據告訴我們的真相。於是公司的營收與背後的製程將成為隨機變數與機率分配,透過資料形成的機率分配進行測定,了解各隨機變數之間的因果關係,從而為公司提供最佳的決策意見,甚至公司可能發生的問題也可從中發現。

不過有趣的是,無論是Cisco、IBM、Oracle與各自的供應商、合作夥伴或供應鏈的公司群都增加對大數據的人才需求,唯有IBM反而是減少。
資料來源:富比世雜誌

其實這是因為IBM走行銷而非研發,更進一步來說,IBM並沒有需要大數據分析人才。
有意思的點是IBM的廣告多是提供顧問服務,若顧問服務不需要分析,那麼IBM就沒有需要大數據分析人才。

但是,大數據代表公司的所有資料,IBM不需要公司的所有資料就能夠分析出公司所有完整狀況,提供公司顧問服務,這顯得有點矛盾。

因此,可以知道IBM只走行銷路線!
缺少大數據分析的顧問服務,對IBM將是很大的衝擊!

另外一點就是美國的幾家大公司都認為大數據人才需求必須具備的技能都是電腦程式,不過,電腦程式工程師是否也是統計專家或財經專家,這有待商榷。

所以大數據人才培訓的方向,除了程式工程師外,更重要的是基礎的研究人才:分析人員!
大數據分析師將是成為主要的人才之一,偏偏都缺少了這樣的人才培訓。

問題在於人員看到大數據,但沒有軟體可以分析,想要讓軟體出現,又需要人員對資料定序,定序的原則須符合統計原則,就像雞生蛋、蛋生雞的問題一樣。

即便如此,分析人員在沒有大數據可以分析下,可以透過適度大的數據資料,經由分析之報表,練習如何解讀公司現況或是金融現況,從而推導出未來可能發生狀況或走勢,進而訂出策略。

2015年5月20日 星期三

古典經濟世界觀

經濟學的教科書大多是使用凱因斯的概念來說明總體經濟的總合供需,這是因為在古典學派的觀點上是以實質面為主,導致經濟體系內的市場呈現類獨立。

這樣的感覺在繪製圖形上特別明顯。
下圖的5個市場合成的圖內,勞動市場、生產函數與45度線都是為了畫出商品市場的總合供給。



而總合需求則是使用劍橋方程式(或貨幣數量學說:py =MV)得到的。
至於外匯市場的均衡線則是購買力平價說得到。
5張圖的關聯就在橘色線上。

這邊並沒有加入可貸資金市場圖來調節家計單位與廠商之金流。

2015年5月3日 星期日

Durbin-Watson檢定與LM檢定的存在意義

每一本統計學、計量經濟學、時間序列分析、迴歸分析、市場預測的書籍都會提到資料自我相關問題。為了找到資料的自我相關性,有的學者從樣本相關係數出發進行資料的假設檢定,有的學者則是創造與樣本相關係數很相近的數學公式進行資料的假設檢定,其中,最知名的便是Durbin-Watson檢定與LM檢定(Breusch–Godfrey)。兩個檢定公式的出發點都是一樣的,那就是從迴歸分析的殘差出發。

Durbin-Watson檢定公式

LM檢定公式
從資料角度去看,無庸置疑的是資料的數值都是已知的,我們使用迴歸分析來瞭解資料間的因果關係。換言之,此時,解釋變數與被解釋變數之間是樣本條件關係。然而,我們卻遺忘了一件事情,那就是資料也是可以形成分配的,那就是抽樣分配。

既然資料可形成抽樣分配,這意味著解釋變數與被解釋變數都是抽樣分配,需要以分配的概念去解讀。於是,在統計學內就明確寫著:
  1. 每個樣本服從母體分配
  2. 樣本的變異數一樣都是母體變異數
  3. 樣本之間是無線性相關

同樣在迴歸分析的解釋變數、被解釋變數與誤差都有各自的母體分配,並且滿足上面的三個條件。同時解釋變數與被解釋變數之間可以是聯合關係,也可以是條件關係。

進一步推導所得到的係數、殘差、甚至是殘差的數學組合、變異數分析表內的SSR、SSE、MSR、MSE、自我相關係數都是抽樣分配。

請注意,這些都是隨機變數或隨機變數的數學組合,所以都是抽樣分配(只討論一個數字,不是分配)。當樣本數夠大時,才能夠代表母體分配(樣本要多大,沒人知道)。

所以要使用公式前,問問:
  1. 你確定資料的抽樣分配了嗎?
  2. 你確定資料的抽樣分配轉換過程了嗎?(是數值的亂數表,不是機率生成的亂數表)
  3. 隨機變數的數學組合之間有沒有成為函數關係?(例如自我相關係數與MSE)

當我們確定每一個轉換步驟狀況後,就可以觀察到解釋變數數值、解釋變數個數、誤差母體分配、樣本數、殘差限制對Durbin-Watson檢定與LM檢定的抽樣分配變化。

確實,Durbin-Watson檢定適合所有樣本大小,但是Durbin-Watson檢定的決策規則本身有問題,不符合統計公式的原則,那就是灰色地帶判定給虛無假設,因此只有虛無與對立假設的二分法,以及分配的臨界值只會有一個數字,而不會有所謂的上下界。除非沒有控制住解釋變數數值與殘差限制影響,才會讓這兩個影響融入分配當中,造成臨界值的不確定,產生了帶狀區間。

Durbin-Watson檢定的抽樣分配在小樣本的時候變化很大,從arcsin分配轉變成近似梯形,再轉變至常態分配的過程,在在影響檢定的準確性。而且當自由度超過200後,可以捨Durbin-Watson檢定表而改由Z檢定表進行假設檢定(Lee, 2013於台灣計量經濟學會年會上報告,2014投稿國外期刊under review)。

不過,LM檢定就有趣了。
LM檢定公式內,主要的變數就是R平方。
試問,孰有在國際期刊上見過討論R平方的抽樣分配,並且顯示出來?
當R平方在不同自我相關係數下之抽樣分配呈現出來後,可以發現在自我相關係數為0附近,R平方抽樣分配的期望值竟是相差無異,若使用於LM檢定上,這代表明明資料有自我相關,卻檢定出無自我相關

這看似很小的失誤,若是用在財務金融上呢?若是用在政府發行的債券上呢?若是用在央行發行的貨幣量上呢?若是用來勞動部估算用的假設上呢?

你說會發生怎樣的情況?
雷曼兄弟又怎麼會知道原本設計良好的連動債,會在2007年讓其破產?
美國政府又怎麼會知道原本估計良好的財政問題,會在2013年會面對財政懸崖呢?

LM檢定更是需要在樣本數超過1000以上,才能使用卡方分配,而且自由度的計算上,不是樣本數扣掉落後期數,而是還得加上迴歸分析內的解釋變數個數。


換言之,我們認為Breusch、Godfrey設計出來的數學模式可以去掉解釋變數干擾,卻遺忘了在數學模式當中,仍存在解釋變數(wiki參考),同樣會有作用。

另外,一般國家的總體經濟資料多不足1000筆 (5年的日資料(240天)、20年的週資料、84年的月資料、250年的季資料、1000年的年資料),甚至還有時間不一致問題。因此,在使用資料分析時,皆需要非常小心注意後,才能進行自我相關檢定,而檢定時又遇到上述的問題。

所以在使用檢定公式上,

  1. Durbin-Watson檢定公式與LM檢定公式的相同問題都出在迴歸分析所需要控制的項目上
  2. 同時都有不敏感的問題
  3. 在實證資料的樣本數較少時,Durbin-Watson檢定與LM檢定都是需要獨立的檢定表

同樣也有各自的優點,例如:

  1. Durbin-Watson檢定確定自由度超過200後可以使用Z檢定表
  2. LM檢定的樣本數超過1000後可以使用卡方檢定

任何一種檢定公式都有存在的意義,遑論多數教科書始終未將Durbin-Watson檢定拿掉,同樣,LM檢定也是如此。所以在正確的使用時機使用正確的公式才能提高準確度,降低誤差機會。就如同區間估計有信賴水準,假設檢定有顯著水準一樣,這些都是控制誤差,代表精準地控制不確定性與隨機性。當研究者在使用這些假設檢定公式時,可別忘記,除了假設檢定的顯著水準外,你所使用的檢定表也是有誤差的。