MathJax

重要公告

本區所有圖表皆為本人所有,請勿使用在任何公開教學場合!
歡迎轉載本區所有文章,但請註明資料來源。

2018年4月21日 星期六

【計量大數據分析】【人工智慧基礎】概念

人工智慧(Artificial Intelligence, AI)從1970年代就開始的概念與持續追求的目標。這數十年來,為了達到人工智慧,從資料探勘、大數據、人工智能到人工智慧,其目的都在尋找

資料的規律性

若能尋找出資料的規則,將之寫成代碼,形成程式,就能夠讓電腦產生運算,並自我判定。然而,所有的資料均需要被定序,然後再開始檢測,尋找出規則,產生數學模式,寫成代碼。這樣的步驟,最方便的方式不是產生數學模式,而是產生資料庫,讓電腦運用比對方式,找到最近似的模式,以此為『最適模式』進行分析。

2018年4月6日 星期五

OneNote教師在課堂使用的好工具

OneNote對教師而言是個非常方便的工具,只要使用學校的電子郵件,申請微軟教育版,那麼就可以開始,然後安裝OneNote Class Notebook就可以產生課程筆記本。如果是安裝Microsoft OneNote 2016,就會內建OneNote Class Notebook。


OneNote介紹

對OneNote的第一次接觸是2002年,那時候在微軟的紙飛機計畫當中,就有提到希望可以直接在電腦上手繪。當時平板電腦還沒有很盛行,最知名的就是Acer的TravelMate C110與C300。





C110 圖片來源:http://electricdoc.net/archives/128


2017年7月19日 星期三

【推廣】大數據分析軟體

所謂的大數據是指機率模型,在巨量的資料下找到機率模型模式。若要憑空學習大數據分析並不容易,所以根據機率與統計的概念當中,對樣本個數進行切割,分成大樣本與小樣本。

統計學就是使用在分析小樣本,從小樣本了解母體的狀況。而大數據分析則是從大樣本去進行分析,而由於是在大樣本下,所以適用於所有母體分配。因此,若想知道大樣本的狀況,同樣也是可以用統計學的分析方法進行分析,例如:

資料來源:Psccc機率與統計粉絲專頁(不經授權不得轉載)

2017年5月8日 星期一

預算線基本介紹

當病患想要購買醫療服務組合時,他需要面對的外在環境因素有三:

  • 哪些醫療服務種類
  • 醫療服務單價
  • 身上所得
我們從經濟學的角度出發,進行購買行為的討論時,病患不會只想買一種醫療服務或商品,而常是超過一種,所以有一就有二,有二就有三,有三就有多。所以,假設病患會購買兩種醫療服務,通稱為「醫療服務一」與「醫療服務二」。這兩種醫療服務可以是健檢當中的兩個項目,或是洗牙與體檢,當然也可以是醫療或保健商品,例如Q10或綜合維他命。

醫療經濟學介紹

所謂醫療經濟學其實是個體經濟學在醫療產業上的應用。
一般的個體經濟學是討論「消費者」如何在有限的資源下購買最適的「商品」組合,以及「生產者」如何在有限的資源下購買最適的「要素」組合並且生產最適的「商品」組合。

讓我們將「」替換掉,所以醫療經濟學是在討論
  • 「病患」如何在有限的資源下購買最適的「醫療服務」組合
  • 「醫院」如何在有限的資源下購買最適的「要素」組合
  • 「生產者」如何在有限的要素下生產最適的「醫療服務」組合
在他們的選擇中,有兩個重點:
  • 他們都面對有限的資源,所以沒辦法任意依照他們的慾望來決定組合
  • 他們所購買的都是組合。所謂的組合是指超過一種的商品或勞務
因此,在醫療經濟學的學習過程中,其實就是將個體經濟學的概念應用在醫療產業上,了解所有人的經濟行為。

2017年4月24日 星期一

大數據分析基礎 - 大數法則 (中央極限定理)

先前在說明大數據分析的困境中有提到統計學延伸到大數據分析的四個問題,

統計學方法擴展到「大數據分析」的困境有其以下問題:
  1. 母體分配必需為常態分配,無法擴展到其他母體分配。
  2. 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。
  3. 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。
  4. 沒有精確的檢定統計量的抽樣分配作為基礎。


其中,第一點與第三點的根源在於第三點。如果所得到的資料,其樣本平均數與樣本變異數都可以趨近常態分配 -- 也就是極限分配 ,那麼,母體所服從的分配就不需要假設常態分配,以及迴歸分析的誤差也無需假設常態分配。

問題出在於所有的數學推導皆寫著 「n 趨近於無窮大」,此時,極限分配存在。那樣本個數真的可以有無窮多個嗎?這是不可能的。所以知道多少樣本個數可以達到極限分配,在大數據分析理論基礎是非常重要的!

第二個問題是我們看到的極限分配推導都是立基於樣本平均數,至於,樣本變異數的極限分配為何?樣本變異數可以標準化嗎?這個問題卻沒有人回答。
在英語版的維基百科內,寫著這段內容:


樣本變異數的期望值為母體變異數,而樣本變異數的變異數則是與四階動差有關,也就是峰態係數。而且非常重要的是所有的樣本值無須假設來自常態分配!可是,即使是維基百科,附圖下方的註解仍寫著:

Distribution and cumulative distribution of s2/σ2, for various values of ν = n − 1, when the yi are independent normally distributed.

即使如此,v = n - 1,應可以讓其增加,了解是否具有中央極限特性,並且清楚告知樣本個數,n,要多少個以上才發生中央極限定理。可惜,沒有!

理論上,我們就可以像樣本平均數一樣找到各種機率分配下,樣本變異數的中央極限定理。我們需要根據大數法則設定以下的條件:
  1. 比較分配差距時的誤差控制
  2. 找到做為依據的基準誤差
  3. 大數法則運算機率值的公式