跳到主要內容

發表文章

大數據 (big data) 分析的困境

從蒐集資料開始#大數據 (#bigdata) 的起源是採用網路蒐集資料,但是資料的代表性與正確性沒有一套方法做比對和分析,自然就不能做時間性的變動狀況分析或是資料來源不同的差異性分析,只能呈現蒐集資料的狀態。 資料蒐集與測定是此部分必須要做的工作,目前台灣的大數據分析都以資料蒐集為主,至於資料特性都是以數字型態做說明,並且至今無有效方法做有分析方法與軟體做測定。當資料特性無法確定時,無法確定進一步分析的方法和分析後所得結果就無法確定結果符合分析的目標。其實蒐集後的資料就是「資料礦( #datamining )」,要使用分析方法探討資料的特性才能進行分析資料。 蒐集資料的困難及資料特性是否一致,(1)不能簡單的假設所有蒐集的資料是同一特性,因為有假設就必須檢定。(2)分析不同資料來源的特性與差異性分析和相關係分析。(3)「#數字科學」不是說明資料而是反應資料的內容,並且必須採用數學模型解釋資料。分析資料的理論 大數據的分析方法是「八仙過海各顯神通」,但是都是針對別性狀況且都是個別的方法並無系統的分析方法,同時分析的理論與方法都是「祕而不宣」,其實就是沒有一系列的分析方法形成科學。 既然大數據分析是科學方法,就必須採用科學或數學方式建立一套分析的理論與方法並提供大眾做驗證與批評。#統計學 (#statistics)就是分析資料的方法。只要將統計學中的分析對象與資料量做擴充與修正,就可以有系統的分析資料與採用統計學的角度說明分析的結果,並且可以使得教育時間縮短有利用分析方法的推展。 然而,統計學方法擴展到「大數據分析」的困境有其以下問題: 母體分配必需為常態分配,無法擴展到其他母體分配。統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。沒有精確的檢定統計量的抽樣分配作為基礎。 目前市售的「統計學套裝軟體」是以目前統計學的樣本個數與方法所發展,無法解決統計學方法擴展到「大數據分析」的困境, 自然無法使用於大數據分析。想解決上述的問題就是得採用其他的數學方法。「#機率分配模擬器」 可以克服「#微積分」與「#數值分析」的限制,可以提供以上問題的解決方法。 目前已經完成統計學分析大數據的公式與方法,可以處理 1,000,000,000筆資料並且對母體分配有特殊要…
最近的文章

大數據分析方法論(1)

無論中文如何翻譯Big data為大數據或巨量資料,實際上,這些資料的目的就只有一個,那就是找出資料特徵,告訴我們一些規則(Rule)、規律(Regularity)或模式(Pattern)。

過去的研究方法對於模式的認定上,首先萃取出的即是線性趨勢。 受限於線性,偏離線性的部分都歸納在離差(Deviation)上,這產生了變異數(Variance)。於是,線性迴歸模型延伸出ARCH與GARCH模型,這也是事件研究法的根基。

但是,當我們使用這些方法時,對於資料特徵的檢測卻是不足的。例如,研究者有沒有先檢查原始資料的分配為何?還是直接跑完迴歸或實驗設計,再用殘差去檢查誤差分配呢?

如果想要做到資料分析,並從資料當中取得有意義的真實現象,那麼原始資料的分配理當先驗證出來。

讓我們舉一個最直接的例子,那就是股票市場的股價指數,在過去的分析方法發現,全球的股價指數皆是滿足隨機漫步(Random Walk),也就是誤差的一階自我相關誤差模型的係數為1,也就是完全自我相關,因此,這時使用差分,非常合適,所以誤差模型就會變成白噪音(Whate Noise)。

問題發生在

那是哪個模式的誤差?

答案是線性!

所以,時間序列分析的資料,第一步就是做定態分析

然而,對所有資料分析人員而言,資料取得後,第一件事情就是要做定序!定序了解資料性質後,再依資料特性進行分析,得到資料告知的變數規則、規律或模式。這些規則、規律或模式對所有人而言可能從來沒有看過。

我們所能得到的模式未必會是線性,而是特殊,可能從未見過的規律或模式。再了解這些資料特性後,才開始討論資料之間的關係,所以,可以從線性關係,轉成非線性的多項式函數關係。是哪種關聯,我們無法知道,而是需要去測試,取得最小的MSE條件的估計函數,才能確定是哪種模式,以及相互之間的影響關係。

所以,若僅使用線性模式,即使是ARCH、GARCH或VAR模型,都是屬於這範疇,那麼,最終資料特性的了解就永遠都是線性模式。

如果真改為多項式函數去尋找資料特性,那麼,股價指數是否真的是隨機漫步嗎?
答案可參考連結的股價分析附錄。

時間序列模型分析 - 是否需要定態

數據分析可以成功的原因來自於使用統計學的分析方法,以及電腦軟體的運用。觀察迴歸分析與計量經濟學的基礎皆是從「線性模式」出發,藉由最小平方法的計算,得到估計係數的數學式,此時,一點都不需要分配的假設 - 常態分配。

於是,在高等計量經濟學當中,逐漸地只寫出iid的符號,至於Normal假設則是慢慢消失。但,我們反思,即使沒有寫出Normal符號,是否估計係數的分配就能夠得到,或許讀者可以問問你的老師 (笑)。

有趣的是,同樣的狀況發生在線性模式改為二次式或三次式,即使教科書上寫出來高階次方數的函數,我們卻沒有見過有人跑出結果來 (笑)。這是否表示那是所有撰寫者與理論家的最終極目標呢?我們不可而知.......

此時,為了能夠讓資料符合線性模式,資料使用者只能做一件事情,那就是 - 資料轉換,也就是定態(Stationary)。

讓資料定態的方式最簡單的就是差分,然後檢查是否滿足定態條件(請參考任何一本時間序列教科書都會寫)。只因欲檢定的序列資料若不是定態的話,要做「差分」直到定態(連結 p.2)。對資料分析的人員而言,當資料進行差分後將會發生什麼事情呢?

可想而知,部分資料特性將會消失!

如果你驗證過資料特性,如從巨量資料分析方法找台日韓兌美元匯率機率密度函數,從排序後的資料了解匯率母體分配圖與係數告知之資料特性,那麼,當資料不排序,而是依時間進行迴歸分析,是否就能知道時間變數(固定趨勢)其實就是可以抓住的趨勢,無論固定趨勢、波動或小部分不規則性(但具備短時間同方向)都可以被時間變數所表示。

唯一的問題就是你用線性模式看資料!所以,才需要捨棄部分資料特性,方能使用線性模式去配適,以及忘記了配適後還要轉回原本的資料(但數學轉不回去,Jacobin算不出來),所以,我們看到的都是資料差分、差分、再差分,滿足定態後的資料再去線性估計,而不是真實資料配適出估計多項式或線性估計後再反轉回原始資料的方程式。

於是,我們可以得到一個結論

資料為了適用線性模式需要做定態 找出資料真實模式須使用原始資料 

參考資料
1. 連結
2. www3.nccu.edu.tw/~jthuang/class16b.ppt
3. https://www.cyut.edu.tw/~finance/docs/1030-1.pdf
4. 連結

Pokemon Go 運用得當就會有助社會秩序與銷售經營

最近最熱門的話題莫過於是手遊遊戲 - Pokemon Go。這就是陪伴7、8年級生度過童年的「神奇寶貝」,從卡通、卡牌遊戲、皮卡丘連連看,到現在的手遊AR版的Pokemon Go。

從一開始上架後,議題與爭議都不斷,例如,伊朗全國禁玩巴西男童玩Pokemon溺斃路邊停車抓稀有寶,或者是在一些特殊的場所有所不敬。







有些企業看準Pokemon的商機,用Pokemon內的Journal紀錄,提供在現場的抓寶換贈品的活動,讓現場的人潮湧現,促銷產品。

對於Pokemon能夠造成全球風潮的原因,就在於當時對皮卡丘的情感認同以及AR體驗。手遊讓卡牌遊戲的對戰變成實境,而各種神奇寶貝必須要自己去尋找,產生了尋寶的感覺。

需要被限制不可在通勤或移動時玩遊戲的人應該是司機或駕駛人。雖然,高工局認為高速公路上設有藏寶點是非常不理想的,也容易造成意外狀況。但,不可否認的是對於搭乘大眾交通運輸工具的民眾來說,反而願意去搭乘,然後在路上尋找著神奇寶貝。這對於交通的舒緩是有幫助的。

若想要讓更多人願意搭乘大眾交通運輸工具,這時公路總局或各縣市之交通局更應該與Pokemon公司協商,如何在道路上設置藏寶點,讓民眾透過搭乘大眾交通運輸工具去尋寶(例如:藏寶點出怪的機率與如何觸發等)。

對於一些準備開發大型活動的公司來說,可以支付廣告費用,請Pokemon公司在該據點增設或提高原生神奇寶貝的觸發機率,或者是在《Ingress》申請「Portal(入口)」申請成據點(公司的廣告看板可在四周設置,成為藏寶點),讓人潮先在該據點活動。在AR的環境下,玩家的遊戲畫面就會常出現公司廣告,進而提高宣傳效果。


Pokemon手遊對市場研究也是很有幫助的。例如,香港中文大學就利用Pokemon的據點做為市場調查的位置,進行人流調查。因為Pokemon的孵蛋功能需要步行計算公里數,所以,強化民眾在外面走動的動機。





認識商品市場

在經濟循環圖內,商品市場是所有商品與勞務交易的地方。

數量指標
我們沒有特別區分出哪種商品或勞務,所以「商品」的指稱就是全部的商品與勞務,不過,如果我們要將所有商品與勞務的數量進行加總時,就會遭遇到商品與勞務的單位不同而無法加總的問題。

那麼我們該怎麼辦呢?

最好的方法就是轉換成用統一的單位來計算!

有什麼統一的單位可以來計算所有商品數量呢?

其實,我們並沒有辦法使用純粹的代表性單位,只得退而求其次選擇用「錢」來當作計算單位。所以所有的商品與勞務數量就會是

                (1)

其中,i為商品與勞務的種類參數,商品與勞務的種類可以從編號1至k,而P為價格,Q為商品或勞務的數量。如此計算就可以由各種數量計算單位改為「錢」的單位。


但是這確有很大的缺點,那就是原本我們要計算的商品與勞務數量,參雜了價格,所以當價格改變,就會影響公式(1)的數值。

在此,我們就將公式(1)視為商品市場的數量指標,並且命名為國內(國民)生產毛額

價格指標

同樣若想要用一個特定的商品價格來代表所有的商品與勞務價格,那麼,我們採取最簡單的方法就是平均數概念。
所以,我們就可以將所有的商品與勞務價格進行平均後,得到價格指標。
不過,因為所有的商品與勞務價格都是相對價格,所以,我們在商品市場的價格指標就需要尋找基期來產生基準點,這才出現了拉氏與菲氏價格計算方法。這些價格指標,我們通稱為價格指數

【經濟學基礎觀念】市場

市場(Market)是經濟學理論當中發生交易事實的場所。

它可以是有形的實體市場,例如,商店街上的店家、便利商店、傳統菜市場。
它可以是無形的虛擬市場,例如,拍賣網站、Y!購物網站、創業家兄弟的3C市集等。

市場無所不在,凡有人的地方就需要交易(Trade、Exchange),交易能夠達成需要幾個要素:

商品或服務:對人們來說具有價值的物品或勞務交易對象:商品或服務對擁有者而言就是資源(Resource)擁有者對商品或勞務的價值認知會比較低,因為擁有了這些商品或勞務,可能變成可有可無的價值感  對缺少商品或勞務者而言,因為沒有,所以會看重這些商品或勞務,進而產生相對高的價值感交易方式:面對面  電話  網路付款方式:以物易物:目前部分的國外網路平台就有提供這樣的服務,讓人們可以用多餘的商品或勞務去換取他們所想要的商品或勞務  貨幣交易:這是現代最常見的交易方法。人們可以拿著由國家背書的紙鈔去購買等值商品或勞務,而想出售商品或勞務的擁有者則是必須接受他人用國家背書的紙鈔去購買商品或勞務。

自 1998年我國網路拍賣開始盛行,當時付款的方式除了面對面交易時直接使用紙鈔付款外,多數則是採用ATM轉帳,作為付款方式。然而ATM轉帳建立在人們的互信上,我國反而延伸出層出不窮的詐騙手法,造成市場交易風險提高。

這個市場交易風險等於是商品網路架與市價的差額。

市場的種類可以有很多種,包含經濟循環圖內的商品市場、要素市場、金融市場與外匯市場。其中,商品市場又可以依據商品或勞務的種類而細分,成為個體經濟學所探討的市場行為;要素市場同樣也可細分出四種要素的市場,金融市場更是可以區分出債券市場、股票市場與期貨市場等。

無論是哪種市場,其本質不變 - 交易,而能夠代表交易的指標就是價格指標與數量指標。在市場上完成交易後,就會紀錄多少數量(How many)以多少價格(How much)被交易完成。

所以,我們關注的數量指標與價格指標就是代表市場的活絡程度。

經濟學的基礎 - 政府的經濟行為

經濟循環圖概說中,我們介紹了家計單位廠商的經濟行為,現在,我們則是要來說明政府的經濟行為。




政府的原型其實是君權。從西方社會的演進史裡面可以觀察到,從君權神授到天賦人權的思維。當英國從君權轉為君主立憲起,政府開始成型,社會的政治結構也由一人獨裁的體制轉為多人管理的體制。
在一開始,政府的存在是為了維持國家主權的穩定,也就是政府必須保障財產權、教育與軍事。但是,隨著時代的演變,社會變得愈來愈複雜時,政府需要規範的內容也就愈得愈多。同樣,政府還需要保護人民的福利(包含生、老、病、死)。
當政府需要提供大量的公共財與政府服務時,其所需要的商品與勞務就會從商品市場內取得。當然,政府不可能強取豪奪。想要買東西,就需要付錢,因此,政府既然提供公共財與政府服務給國民使用時,國民就有義務支付稅(Tax)給政府,讓政府可以購買保護國民所需的商品或勞務。
每年,政府都會根據今年的稅收與預算,編列明年的預算,如果預算沒有用完,那麼,政府將會有盈餘,這些錢可以存在金融市場的金融機構內。反之,如果政府今年的支出超過預算,那麼今年就會產生預算赤字。
當然,政府能夠有效率地使用稅收,讓社會運作良善並且還能夠節省下經費,這是最好的狀態。可惜的是,政府明年的預算總是根據今年的預算與用盡與否來衡量,造成X無效率與資源浪費。


從我國歲入淨額走勢圖可以看出,每年的歲入淨額從2010年起持續增加,而餘絀亦有逐漸達到損益平衡,只是,觀察上圖可以發現赤字狀況累計起來,相當驚人(計算面積)。
所以,政府的經濟行為可歸納為保障國民生命財產安全制定稅額向國民收取,得到稅收每年盈餘可存於金融機構每年赤字可在金融市場上借款