2016年10月11日 星期二

大數據分析方法論(1)

無論中文如何翻譯Big data為大數據或巨量資料,實際上,這些資料的目的就只有一個,那就是找出資料特徵,告訴我們一些規則(Rule)、規律(Regularity)或模式(Pattern)。

過去的研究方法對於模式的認定上,首先萃取出的即是線性趨勢。 受限於線性,偏離線性的部分都歸納在離差(Deviation)上,這產生了變異數(Variance)。於是,線性迴歸模型延伸出ARCH與GARCH模型,這也是事件研究法的根基。

但是,當我們使用這些方法時,對於資料特徵的檢測卻是不足的。例如,研究者有沒有先檢查原始資料的分配為何?還是直接跑完迴歸或實驗設計,再用殘差去檢查誤差分配呢?