現(xiàn)在的走勢就是我們進(jìn)入了一個(gè)大數(shù)據(jù)時(shí)代,有了數(shù)據(jù)我們該分析嗎?數(shù)據(jù)分析的方法是什么?
一、說明統(tǒng)計(jì)
描述性統(tǒng)計(jì)是統(tǒng)計(jì)方法的總結(jié),揭示了數(shù)據(jù)分布的特性.主要包括數(shù)據(jù)頻率分析、數(shù)據(jù)集中趨勢分析、數(shù)據(jù)分散程度分析、數(shù)據(jù)分布和一些基本統(tǒng)計(jì)圖形.
1、缺失值填充:常用方法有去除法、平均法、決策樹法.
2、正態(tài)檢查:許多統(tǒng)計(jì)方法要求數(shù)值服從或接近正態(tài)分布,因此在進(jìn)行數(shù)據(jù)分析前需要正態(tài)檢查.常用方法:非參數(shù)檢驗(yàn)的K-量檢驗(yàn)、P-P圖、Q-Q圖、W檢驗(yàn)、動差法.
二、回歸分析
回歸分析是應(yīng)用極為廣泛的數(shù)據(jù)分析方法之一.根據(jù)觀測數(shù)據(jù)建立變量之間的適當(dāng)依賴關(guān)系,分析數(shù)據(jù)的內(nèi)在規(guī)律.
1.一元線性分析
只有一個(gè)自變量x與變量y有關(guān),x和y必須是連續(xù)變量,變量y或其差異必須遵循正態(tài)分布.
2.多元線性回歸分析
使用條件:分析多個(gè)自變量x變量y的關(guān)系,x和y必須是連續(xù)變量,變量y或其差異必須遵循正態(tài)分布.
3.Logistic回歸分析
線性回歸模型要求變量為連續(xù)正態(tài)分布變量,自變量與變量為線性關(guān)系,但Logistic回歸模型對變量分布沒有要求,一般用于變量離散時(shí)的情況.
4.其他回歸方法:非線性回歸、秩序回歸、Probit回歸、加權(quán)回歸等.
三、方差分析
使用條件:各種樣品必須是相互獨(dú)立的隨機(jī)樣品,各種樣品來自正態(tài)分布的整體各個(gè)方差相等.
1.單因素方差分析:一個(gè)試驗(yàn)只有一個(gè)影響因素,或者有多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系.
2.多因素有互動差異分析:一個(gè)實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系
3.多因素沒有互動差異分析:分析多個(gè)影響因素和反應(yīng)變量的關(guān)系,但影響因素之間沒有影響關(guān)系或忽視影響關(guān)系
4.協(xié)助者的差距祈禱:傳統(tǒng)的差距分析有明顯的缺點(diǎn),無法控制分析中存在的隨機(jī)因素,降低了分析結(jié)果的準(zhǔn)確性.協(xié)調(diào)差分析主要是排除協(xié)調(diào)變量的影響后,對修正后的主要效果進(jìn)行方差分析,結(jié)合線性回歸和方差分析的分析方法.