經濟新觀念: 資料如何算巨量？

巨量資料顧名思義即是大量的資料，然而資料量多大才算是巨量呢？

誰能說得清？１個億？１０個億？

現階段的開放資料(open data)，哪個是有上億資料？若整個資料庫來說確實有，但對於分析人員來說，特定幾個資料表才是重點。例如，貨幣政策的研究員在意利率、貨幣供給量、國內生產毛額、發行定期存單量。若由最大時間單位的變數決定(季)，且假設從1955年至2014年皆有資料，則60年*4，此時，每個變數有240筆資料，本例有4個變數，所以共計960筆資料。

這不算是巨量資料，但可視為母體資料，並且資料量會隨時間而增加，所以每次估算就需納入最新資料。這無法預測非常準確，但可以增加準確性。

不過，這可否使用巨量資料分析呢？
答案是可以的！王冠先與李玫郁(2015)提出之巨量資料分析方法可以應用在此分析上。

步驟1：建立各變數之機率分配
步驟2：由各分配生成1億筆資料，共計4億筆資料
步驟3：跑數學模型，得到資料特徵之數學模式

在這過程中，對軟體商來說，

資料要讀得進；
能為資料定序。

對分析人員來說，

資料代表性與正確性；
能為資料檢測。

總而言之，巨量資料方法的應用將不侷限樣本大小或僅能模擬出來的資料。

另一種資料就是財務金融資料，例如，股票現階段的記錄上可細分至20秒一筆記錄值，累積資料起來就相當驚人，動輒上百萬筆資料，更近似於巨量資料概念。於是，在分析與研究上，更需要巨量資料分析方法。

巨量資料分析方法的免費電子書已經在 PUPU電子書商城上架。對巨量資料來說，定序是非常重要的，這樣才能從中找到資料的數學模式，繼續從事相關研究分析，提供策略參考。

經濟新觀念

分類清單

2015年7月20日星期一

資料如何算巨量？

Facebook

Facebook

分類清單

2015年7月20日 星期一

資料如何算巨量？

Facebook

Facebook

2015年7月20日星期一