索欲言  
  2006.03.07
  不同圖形在班級考試分數所代表意義

有些資料的分布並非呈現常態分布,例如國小的教師所出的平時測驗考高分的人居多,是呈現負偏態的分布。

【偏態(skewness)】:指大部份的數值落在平均數的左邊或右邊。種類有二:
1.正偏態分配(positive skewness):數值較集中在低分部分,即平均數左邊的數值較多,表示考低分的人較多,有可能試題較難或班上能力較差。
2.負偏態分配(negative skewness):其數值較集中在平均數的右邊,表示考高分的人較多,可能是試題較簡單或班上能力較強。
※依據皮爾森近似眾數原理,眾數至中數的距離比上中數至平均數的距離均為2:1,此三種數值,只要知道其中兩種就可以大致推論第三種數值。

【峰度(kurtosis)】:決定數值分布的同質性與異質性,越接近高狹峰表示越同質,越趨向低闊峰表示越異質。種類有二:
1.高狹峰(leptokurtic):次數分配的曲線較常態峰尖峻,其特質是中間的人數比常態峰多,腰部的人數比常態峰少,而兩尾端的人數比常態峰還多。
2.低闊峰(platykurtic):次數分配的曲線較常態峰平坦,但其特色是中間的人數比常態分配少,兩端的人數亦比常態分配少,只有腰身部份的人數多於常態分配。

 

https://mx.nthu.edu.tw/~mhlee/07III/talk/950307.htm

https://zh.wikipedia.org/zh-tw/%E5%B3%B0%E5%BA%A6

峰度[編輯]

26 種語言
 
 

峰度(英語:Kurtosis),亦稱尖度,在統計學中衡量實數隨機變數機率分布的峰態。峰度高就意味著變異數增大是由低頻度的大於或小於平均值的極端差值引起的。

遠紅光對小麥胚芽鞘向地反應的平均速度沒有影響,但是峰度由低峰態轉變成了尖峰態 (−0.194 → 0.055)

定義

[編輯]

母體峰態係數定義為:

μ4σ4,

即四階標準動差,其中μ4是四階主動差σ標準差

在更通常的情況下,峰度被定義為四階累積量除以二階累積量的平方,它等於四階主動差除以機率分布變異數的平方再減去3:

γ2=κ4κ22=μ4σ4−3

這也被稱為超值峰度(excess kurtosis)。「減3」是為了讓常態分布的峰度為0。

假定Yn個獨立變量之和,且這些變量和X具有相同的分布,那麽:Kurt[Y]=Kurt[X]n, 但如果峰度被定義為:μ4σ4,公式可變得更加複雜。

更一般地說,假定X1,…,Xn為變異數相等的獨立隨機變數,那麼:

Kurt⁡(∑i=1nXi)=1n2∑i=1nKurt⁡(Xi),

而定義中如果不包含「減3」就無法成立。

如果超值峰度為正,稱為高狹峰(leptokurtic)。如果超值峰度為負,稱為低闊峰(platykurtic)

樣本峰度

[編輯]

對於具有n個值的樣本樣本峰度為:

g2=m4m22−3=1n∑i=1n(xi−x¯)4(1n∑i=1n(xi−x¯)2)2−3

其中m4是四階樣本主動差,m2是二階主動差(即使樣本變異數),xi是第ith個值,樣本平均值。注意此處計算變異數的時候除數是N,而不是單獨計算樣本變異數的(N−1)

有時候也使用公式:

D=1n∑i=1n(xi−x¯)2,
E=1nD2∑i=1n(xi−x¯)4−3

其中,n為樣本大小,D為事先計算的變異數,xi為第i個測量值,為事先計算的算術平均數

在一些統計軟體中,其公式有所差別。如EXCEL,計算樣本的峰度公式如下:

Kurtosis=n(n+1)(n−1)(n−2)(n−3)∑i=1n(xi−x¯StDev)4−3(n−1)2(n−2)(n−3)

參見

[編輯]

參考資料

[編輯]
  • Joanes, D. N. & Gill, C. A. (1998) Comparing measures of sample skewness and kurtosis. Journal of the Royal Statistical Society (Series D): The Statistician 47 (1), 183–189. doi:10.1111/1467-9884.00122

 

 

https://zh.wikipedia.org/zh-tw/%E5%81%8F%E5%BA%A6

偏度[編輯]

38 種語言
 
 
偏度不為零的實驗數據樣本(小麥胚芽鞘向地反應:1,790)

偏度(英語:skewness),亦稱歪度,在機率論統計學中衡量實數隨機變數機率分布的不對稱性。偏度的值可以為正,可以為負或者甚至是無法定義。在數量上,偏度為負(負偏態;左偏)就意味著在機率密度函數左側的尾部比右側的長,絕大多數的值(不一定包括中位數在內[1]位於平均值的右側偏度為正(正偏態;右偏)就意味著在機率密度函數右側的尾部比左側的長,絕大多數的值(不一定包括中位數[1])位於平均值的左側偏度為零就表示數值相對均勻地分布在平均值的兩側,但不一定意味著其為對稱分布

負偏態(左)和正偏態(右)

介紹

[編輯]

偏度分為兩種:

  • 負偏態左偏態:左側的尾部更長,分布的主體集中在右側。[2]
  • 正偏態右偏態:右側的尾部更長,分布的主體集中在左側。[2]

如果分布對稱,那麼平均值=中位數,偏度為零(此外,如果分布為單峰分布,那麽平均值=中位數=眾數)。

定義

[編輯]

隨機變數X的偏度γ1為三階標準動差,可被定義為:

γ1=E⁡[(X−μσ)3]=μ3σ3=E⁡[(X−μ)3]   (E⁡[(X−μ)2])3/2=κ3κ23/2 ,

其中μ3是三階主動差σ標準差E期望值算子。等式的最後以三階累積量與二階累積量的1.5次方的比率來表示偏度。這和用四階累積量除去二階累積量的平方來表示峰度的方法向類似。

偏度有時用Skew[X]來表示。老教科書過去常常用β1來表示偏度,可是由於偏度可為負,這樣的表示法較為不便。

對上面的等式進行擴展可導出用非主動差E[X3]來表示偏度的公式:

γ1=E⁡[(X−μσ)3]=E⁡[X3]−3μE⁡[X2]+2μ3σ3=E⁡[X3]−3μσ2−μ3σ3 .

樣本偏度

[編輯]

具有n個值的樣本樣本偏度為:

g1=m3m23/2=1n∑i=1n(xi−x¯)3(1n∑i=1n(xi−x¯)2)3/2 ,

其中樣本平均值m3是三階樣本主動差,m2是二階樣本中心距,即樣本變異數

性質

[編輯]

當: Pr[X>x]=x−3 for x>1, Pr[X<1]=0 時,偏度可以是無窮大的。

或者當: Pr[X<x]=(1−x)−32x為負)及

Pr[X>x]=(1+x)−32x為正)時,偏度無法定義。

在後面的這個例子中,三階累積量是無法定義的。 其他分布形式比如:

Pr[X>x]=x−2 for x>1, Pr[X<1]=0

二階和三階累積量是無窮大的,所以偏度也是無法定義的。

如果假定Yn個獨立變量之和並且這些變量和X具有相同的分布,那麽Y的三階累積量是Xn倍,Y的二階累積量也是Xn倍,所以: Skew[Y]=Skew[X]n。根據中央極限定理,當其接近高斯分布時變量之和的偏度減小。

參見

[編輯]

註釋

[編輯]
  1. ^ 移至:1.0 1.1 存档副本. [2018-12-14]. (原始內容存檔於2020-11-12).
  2. ^ 移至:2.0 2.1 存档副本. [2010-10-30]. (原始內容存檔於2011-08-11).

參考資料

[編輯]
  • Groeneveld, RA; Meeden, G. Measuring Skewness and Kurtosis. The Statistician. 1984, 33 (4): 391–399 [2010-10-30]. doi:10.2307/2987742. (原始內容存檔於2020-08-20).
  • Johnson, NL, Kotz, S, Balakrishnan N (1994) Continuous Univariate Distributions, Vol 1, 2nd Edition Wiley ISBN 0-471-58495-9
  • MacGillivray, HL. Shape properties of the g- and h- and Johnson families. Comm. Statistics - Theory and Methods. 1992, 21: 1244–1250.
文章標籤
全站熱搜
創作者介紹
創作者 emit 的頭像
emit

emit的部落格

emit 發表在 痞客邦 留言(0) 人氣(8)