跳到主要內容

發表文章

目前顯示的是 二月, 2016的文章

為何使用曲線化線性模型

當我們想知道資料特性或規律性時,傳統做法是根據統計學概念,認為資料=樣本,必然帶有母體特性。藉由資料找到母體參數即可確認母體特性,從而知道資料特性或規律性為何。 然而,受限在使用資料找到的母體參數卻是有限,例如,一定要找到一、二階動差,即平均數與變異數,如此就能配合樣本數找到極限分配,知道母體特性。在大數法則下,無論是p.或a.s.,都趨近為常態分配。
問題是多少資料點才能算大數? 這如同我們在問大數據多少才算? 如果4,000筆已經達到,那何必4,000,000,000筆資料。 這想法並非正確! 因為每筆資料都有存在的意義,而且,大數據資料下,未必真成為常態分配或極限常態分配。
這點更明顯地顯示在時間序列資料,因為這種資料會破壞迴歸分析的三個基本假設: 常態分配齊質變異數兩兩無線性相關
為了解決這些問題,特別是像變數之走勢,無法用線性模式去估計的序列資料,計量經濟學發展出多種的檢定公式,檢定上面的三個基本假設,並且希望更能準確地找出資料問題,試圖解決。
縱使如此,我們卻發現 分配的檢定方法無法控制誤差,資料的殘差幾乎可以滿足常態分配變異數的齊一性建立在線性迴歸上,誰能保證資料一定是線性,特別是工業工程。若是用非線性迴歸模型,或許變異數就齊質了。架構在線性迴歸模型上,序列相關運用差分方式,試圖找出差分到幾階才能踢除序列相關。可是,差分後的資料,部分特性將會消失。
更有趣的是,Silverman (1985) 提出無母數版本的曲線配適法,觀察範例後可以發現其轉折點不能超過兩點,也可以從他的數學式看出,僅有二階微分。Motulsky and Ransnas (1987) 則是提到需要資料點來自於常態分配(進入迴圈:如何確定資料點滿足常態分配),以及非線性迴歸模型很容易經過多次的電腦運算後配適得到(問題:怎麼進行誤差控制?多次的運算需要多少次?)。
無論如何,使用曲線化線性模型或曲線配適法都是比線性迴歸模型來得好,特別是現在的經濟環境在科技進步到一定的程度後,必須提高精準度,才能夠突破現況。這不是工業4.0(要求精密)、金融3.0(要求跨平台與安全),而是分析技術的創新與提升。
於是,我們需要更新兩個思維:
第一、一般而言,我們認為線性之外就是屬於變異(波動)。
但是,當我們從非線性迴歸角度來看的時候,每一點進來模型時,就需要重新計算調整模型係數與次方數,降低均方差。每一點…