2017年7月19日 星期三

【推廣】大數據分析軟體

所謂的大數據是指機率模型,在巨量的資料下找到機率模型模式。若要憑空學習大數據分析並不容易,所以根據機率與統計的概念當中,對樣本個數進行切割,分成大樣本與小樣本。

統計學就是使用在分析小樣本,從小樣本了解母體的狀況。而大數據分析則是從大樣本去進行分析,而由於是在大樣本下,所以適用於所有母體分配。因此,若想知道大樣本的狀況,同樣也是可以用統計學的分析方法進行分析,例如:

資料來源:Psccc機率與統計粉絲專頁(不經授權不得轉載)

只是在大數據分析的公式上略有不同,經「機率分配模擬器」與「大數法則」的驗證,可得到大數據分析所需要使用的樣本平均數與變異數的公式:

資料來源:Psccc機率與統計粉絲專頁(不經授權不得轉載)

資料來源:Psccc機率與統計粉絲專頁(不經授權不得轉載)
資料來源:Durbin Watson 檢定統計量



對於軟體的使用上,資料取得後,大數據分析可是用各種分配,其原因如上。只是對可計算與執行的平均數與變異數估計式必須先行取得。對此,作者在統計分析、模擬分析與大數據分析上取得三者的交集,由模擬器模擬資料來進行統計分析的公式驗證,再逐步推展到大數據下的資料關聯。因此,這套軟體是可以進行公開測試與自行創造變數變換的公式。

至於使用的方式,是使用指令檔將資料與軟體呼叫的檔案分開,讓使用者容易用指令檔更改,並選擇對應之資料來源與選項所需的參數設定。

假設檢定

迴歸分析

適合度檢定

大數據分析軟體放置在Facebook的Psccc_機率與統計的粉絲專頁。
https://www.facebook.com/Psccc_機率與統計-1664152793914411/



2017年5月8日 星期一

預算線基本介紹

當病患想要購買醫療服務組合時,他需要面對的外在環境因素有三:

  • 哪些醫療服務種類
  • 醫療服務單價
  • 身上所得
我們從經濟學的角度出發,進行購買行為的討論時,病患不會只想買一種醫療服務或商品,而常是超過一種,所以有一就有二,有二就有三,有三就有多。所以,假設病患會購買兩種醫療服務,通稱為「醫療服務一」與「醫療服務二」。這兩種醫療服務可以是健檢當中的兩個項目,或是洗牙與體檢,當然也可以是醫療或保健商品,例如Q10或綜合維他命。

醫療經濟學介紹

所謂醫療經濟學其實是個體經濟學在醫療產業上的應用。
一般的個體經濟學是討論「消費者」如何在有限的資源下購買最適的「商品」組合,以及「生產者」如何在有限的資源下購買最適的「要素」組合並且生產最適的「商品」組合。

讓我們將「」替換掉,所以醫療經濟學是在討論
  • 「病患」如何在有限的資源下購買最適的「醫療服務」組合
  • 「醫院」如何在有限的資源下購買最適的「要素」組合
  • 「生產者」如何在有限的要素下生產最適的「醫療服務」組合
在他們的選擇中,有兩個重點:
  • 他們都面對有限的資源,所以沒辦法任意依照他們的慾望來決定組合
  • 他們所購買的都是組合。所謂的組合是指超過一種的商品或勞務
因此,在醫療經濟學的學習過程中,其實就是將個體經濟學的概念應用在醫療產業上,了解所有人的經濟行為。

2017年4月24日 星期一

大數據分析基礎 - 大數法則 (中央極限定理)

先前在說明大數據分析的困境中有提到統計學延伸到大數據分析的四個問題,

統計學方法擴展到「大數據分析」的困境有其以下問題:
  1. 母體分配必需為常態分配,無法擴展到其他母體分配。
  2. 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。
  3. 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。
  4. 沒有精確的檢定統計量的抽樣分配作為基礎。


其中,第一點與第三點的根源在於第三點。如果所得到的資料,其樣本平均數與樣本變異數都可以趨近常態分配 -- 也就是極限分配 ,那麼,母體所服從的分配就不需要假設常態分配,以及迴歸分析的誤差也無需假設常態分配。

問題出在於所有的數學推導皆寫著 「n 趨近於無窮大」,此時,極限分配存在。那樣本個數真的可以有無窮多個嗎?這是不可能的。所以知道多少樣本個數可以達到極限分配,在大數據分析理論基礎是非常重要的!

第二個問題是我們看到的極限分配推導都是立基於樣本平均數,至於,樣本變異數的極限分配為何?樣本變異數可以標準化嗎?這個問題卻沒有人回答。
在英語版的維基百科內,寫著這段內容:


樣本變異數的期望值為母體變異數,而樣本變異數的變異數則是與四階動差有關,也就是峰態係數。而且非常重要的是所有的樣本值無須假設來自常態分配!可是,即使是維基百科,附圖下方的註解仍寫著:

Distribution and cumulative distribution of s2/σ2, for various values of ν = n − 1, when the yi are independent normally distributed.

即使如此,v = n - 1,應可以讓其增加,了解是否具有中央極限特性,並且清楚告知樣本個數,n,要多少個以上才發生中央極限定理。可惜,沒有!

理論上,我們就可以像樣本平均數一樣找到各種機率分配下,樣本變異數的中央極限定理。我們需要根據大數法則設定以下的條件:
  1. 比較分配差距時的誤差控制
  2. 找到做為依據的基準誤差
  3. 大數法則運算機率值的公式










經濟學的基礎 - 國外部門的經濟行為

國外部門可以使用國籍來衡量,或是商品生產地來衡量。如果使用國籍衡量,那麼以台灣為例就是指持有非具有中華民國國籍者或非持有中華民國護照者。若以商品生產地衡量,可以看到所有商品或勞務須註明產地,如Made in Hong Kong。這些商品就是屬於國外部門生產,然後進入台灣並被販售給居住在台灣的人。為什麼國外部門會在經濟循環圖內呢?

由於各區域的資源分佈是不平均的,所以各區域所生產的商品或勞務亦有不同,因此,若能將某地沒有的商品或勞務販售到當地,那必然奇貨可居,高價賣出。對任何擁有此商品或勞務者而言,是再好不過的事情。只要能夠突破地域限制,將商品或勞務販賣到另一個需要的區域,產生互通有無的現象,此時雙方都是雙贏的局面。所以,國外部門的存在可以是讓商品或勞務互通有無,同時也讓商品或勞務的銷售範圍擴大(市場規模擴大)。

不過,有得必有失。國外部門的存在會讓經濟體系內的金流流出,產生金流減少,這稱為進口(Import)。同時,又將商品或勞務販售給國外部門,帶來金流流入,產生金流增加,這稱為出口(Export)。在經濟循環體系內,我們希望金流是增加的,所以國際貿易提倡出口扣除進口後的淨出口(Net export),最好為正值(positive value)!這表示國家的總金流除了國內運轉的金流外,還能得到國外的金流挹注,讓整體金流更為龐大,也意味者經濟規模愈加龐大,國力愈為強盛。

然而,有得必有失,一個國家從國外得到的金流挹注愈多,代表另一國家的金流損失愈大。


中華民國進出口總值年月走勢
台灣每月的進出口總值走勢圖當中,可發現多數月份的出口總值高於進口總值。這顯示台灣的經濟是跟隨上面描述的概念,認為國外部門的金流挹注愈多,經濟體系的規模就會愈大。不過,從上圖可發現另一件事情,在2010年後,台灣的出口總值很穩定再700,000至800,000範圍。而2001年至2008年則還有持續上漲的趨勢。


與此同時,無論是出口或是進口總值,兩者的線性相關高達96.5577%。這顯示台灣與國外部門的金流關係是同增同減。而同增同減代表只要金流挹注不夠時,同時減少金流外溢的現象,控制台灣與國外部門的總金流數字。當然,另一個原因或許是當國外部門購買較少的台製商品或勞務時,台灣的家計單位獲得較少所得,因此對國外部門生產的商品或勞務同樣減少。因此,國外部門的經濟行為可歸納為


  • 有國外部門是與體系產生互通有無
  • 國外部門的存在可以擴展市場規模
  • 國外部門可以產生雙贏互惠