淺談正態(tài)分布在現(xiàn)實生活中的應用


中國產業(yè)經濟信息網   時間:2023-01-10





摘要:無論從理論和實際應用的觀點來看,正態(tài)分布毫無疑問是概率論和數(shù)理統(tǒng)計中的重要分布。它的重要性質是由于實際中遇到的隨機變量有許多服從正態(tài)分布或近似服從正態(tài)分布的。(例如,氣象學中的溫度、濕度、降雨量,有機體的長度、重量,智能測度的評分,實驗中的測量誤差,經濟學中的眾多度量等等)正態(tài)分布是許多重要分布的極限分布;許多非正態(tài)分布變量是正態(tài)分布變量的函數(shù);正態(tài)分布的概率密度和分布函數(shù)具有各種優(yōu)良性質等。本文總結分析了正態(tài)分布和標準正態(tài)分布的性質和特點,然后著重分析了正態(tài)分布在醫(yī)學,崗位測評,試卷命題難度評價,天氣預報等實際問題中的應用。

關鍵詞:正態(tài)分布;標準正態(tài)分布;統(tǒng)計量

正態(tài)分布的有關知識

1、正態(tài)分布的定義

設連續(xù)型隨機變量具有概率

2、 正態(tài)分布的圖形特點

為了畫出正態(tài)分布的圖形,先對概率密度做幾點討論:

綜上,即可畫出正態(tài)分布的概率密度曲線如圖1,它是一條關于對稱的鐘形曲線。

圖1

為了說明參數(shù)對曲線位置形狀的影響,請看圖2

圖2

可以看出:決定了圖形的中心位置,決定了圖形中峰的陡峭程度,當較大時,圖形趨于平緩,當較小時,圖形趨于陡峭。也就是說,決定了分布的中心位置,反映了分布的分散或集中程度。

由(1.1)式得的分布函數(shù)為

根據(jù)定理1,只要將標準正態(tài)分布的分布函數(shù)制成表,就可以解決一般正態(tài)分布的概率計算問題。

至此,我們對正態(tài)分布的性質、特點有了初步的了解。從密度函數(shù)的圖形看,它是一條關于對稱的鐘形曲線??梢孕蜗蟮赜谩皟深^小,中間大,左右對稱”來描述。在自然界和社會領域常見的變量中,很多都有這種性質。

4、正態(tài)分布的幾個定義:

正態(tài)分布在現(xiàn)實生活中的應用

1、在醫(yī)學方面的應用

某些醫(yī)學現(xiàn)象,如同質群體的身高、紅細胞數(shù)、血紅蛋白量、膽固醇等,以及實驗中的隨機誤差,呈現(xiàn)為正態(tài)或近似正態(tài)分布;有些資料雖為偏態(tài)分布,但經數(shù)據(jù)變換后可成為正態(tài)或近似正態(tài)分布,故可按正態(tài)分布規(guī)律處理。

100名18歲男大學生身高的實際分布與理論分布

表1

(2)制定醫(yī)學參考值范圍:亦稱醫(yī)學正常值范圍。它是指所謂“正常人”的解剖、生理、生化等指標的波動范圍。制定正常值范圍時,首先要確定一批樣本含量足夠大的“正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標的疾病和有關因素的同質人群;其次需根據(jù)研究目的和使用要求選定適當?shù)陌俜纸缰?,?0%,90%,95%和99%,常用95%;根據(jù)指標的實際用途確定單側或雙側界值,如白細胞計數(shù)過高過低皆屬不正常須確定雙側界值,又如肝功中轉氨酶過高屬不正常須確定單側上界,肺活量過低屬不正常須確定單側下界。另外,還要根據(jù)資料的分布特點,選用恰當?shù)挠嬎惴椒?。常用方法有?/p>

常用u值可根據(jù)要求由下表2查出。

表2

2、 正態(tài)分布在崗位測評中的應用

假定某公司有50個崗位,應該有50個人,則系數(shù)為10以下的崗位數(shù)和人數(shù)為:50*P(10)=46.18,則崗級系數(shù)分布在10的崗位數(shù)和人數(shù)為:50-50*P(10)=4;根據(jù)正態(tài)分布的性質,則崗級分布在3的崗位數(shù)和人數(shù)也應為4;崗級4~9的崗位數(shù)和人數(shù)應為42。如果我們稱崗級系數(shù)為4~9的人為中等收入者,說明這種崗位分配和收入分配符合正態(tài)分布,分布在各崗級系數(shù)的人數(shù)是合理的,有利于企業(yè)的穩(wěn)定、發(fā)展。   同理根據(jù)正態(tài)分布函數(shù),依次求得各崗級系數(shù)的崗位數(shù)和人數(shù):  ?。校ǎ剑校?)=0.8461;則系數(shù)為9以下的崗位數(shù)和人數(shù)為:50*P(9)=42人;則崗級系數(shù)分布在9的崗位數(shù)為:46-42=4個。   依次求得:  ?。校?)=0.7291,則系數(shù)為8以下的崗位和人數(shù)為:50*P(8)=36人;即崗級系數(shù)分布在8的崗位數(shù)為:42-36=6個。  ?。校?)=0.5793,則系數(shù)為7以下的崗位和人數(shù)為:50*P(7)=28人;即崗級系數(shù)分布在7的崗位數(shù)為:36-28=8個。  ?。校?)=0.4207,則系數(shù)為6以下的崗位和人數(shù)為:50*P(6)=21人;即崗級系數(shù)分布在6的崗位數(shù)為:28-21=7個。   P(5)=0.2709,則系數(shù)為5以下的崗位和人數(shù)為:50*P(5)=14人;即崗級系數(shù)為分布在5的崗位數(shù)為:21-14=7個。  ?。校?)=0.1539,則系數(shù)為4以下的崗位和人數(shù)為:50*P(4)=8人;即崗級系數(shù)分布在4的崗位數(shù)為:14-8=6個。  ?。校?)=0.0764,則系數(shù)為3以下的崗位人數(shù)為:50*P(3)=4人;即崗級系數(shù)分布在3的崗位數(shù)應為4個。   如下表3和圖3:

圖3

這說明,上述分布符合正態(tài)分布,對于一個企業(yè)來說,上述分布正是企業(yè)經營者所希望的。   各崗級系數(shù)的崗位數(shù)一旦確定,那么崗位測評中的打分結果就可以從最高到最低排序,定出各崗級的崗位數(shù),相應的人數(shù)也就定了,相應的薪酬也就定了。由于計算過程有累計誤差,所以相差4人,根據(jù)正態(tài)分布原理,這4人崗級系數(shù)應落在4~9范圍里面,可以根據(jù)企業(yè)具體情況調整。

3 、正態(tài)分布規(guī)律在試卷命題難度評價中的應用

教育評價技術方法中教育測量理論是應用教育統(tǒng)計學方法來實現(xiàn)的,眾所周知,正態(tài)分布是最常見、應用最廣的一種重要分布,按照數(shù)理統(tǒng)計學的基本原理,經統(tǒng)計分析(樣本數(shù)≥30)93%的考試成績分布狀況在直觀上呈現(xiàn)為“中間多,兩邊少,左右基本對稱”的特點,因此被測驗對象的學習或某種能力指標和某種能力指標的測驗結果ξ可以近似地用正態(tài)分布N(μ),來描述。因而通過樣本對總體的某些特征(如均值或方差)推理判斷,已成為教育研究中一種較為常見的方法。用統(tǒng)計學原理確定學生成績的平均分及正態(tài)分布曲線,并將其作為對試卷分析評價的基礎。 (1)考試成績的分布形態(tài)(規(guī)律) 保證考試質量是數(shù)學活動中不容忽視的重要組成部分。如何提高考試質量,不僅應在試前對試卷質量進行預測分析,更應結合試后考試成績分析作出最終評價。用學生的考試成績可以定量對命題質量進行評價與分析。觀察統(tǒng)計學生考試成績的直方圖,其分布大致可分為5種情形①單峰且對稱、單峰大體對稱;②單峰但峰值向左移;③單峰但峰值向右移;④雙峰或多峰;⑤大體上可以一個平臺型為代表等等。(2)學生成績正態(tài)分布曲線分析 根據(jù)教育學與統(tǒng)計學的理論,一次難度適中信度可靠的考試,學生的成績應接近正態(tài)分布。也就是說,當學生的成績接近于正態(tài)分布時,則說明此次考試基本達到了教學要求。判斷成績是否接近正態(tài)分布,最直觀,最有效的方法是將成績分布曲線與均值和方差相同的正態(tài)分布曲線加以比較。當然,學生成績呈現(xiàn)正態(tài)分布是理想化狀態(tài)。考試成績完全呈正態(tài)分布有一定的困難,也不現(xiàn)實。但我們要以正態(tài)分布為標準模式,加以對比,找出不足。 利用教育統(tǒng)計學研究發(fā)現(xiàn),對于難度適中、客觀有效的考試成績一般都符合正態(tài)分布,且平均分在75分左右,標準差在9 — 5之間。因此,我們有理由使用各種高級統(tǒng)計方法處理考試分數(shù),以挖掘更多的教育信息??荚嚦煽兪强忌降姆从?同時考試成績分布是否正態(tài)分布反映了命題質量。根據(jù)正態(tài)分布曲線呈現(xiàn)的形態(tài),可以進行考題相對難度分析。 平均成績的差異引起曲線的水平位置變化,平均成績偏低,如低于65分說明試卷難度較大;而偏高在90分以上說明試卷難度太小。若學生成績分布屬①所示的形態(tài),這表明試卷命題的質量是比較好的.這里又有兩種情形:在標準差不變的情況下隨著平均分數(shù)的增加曲線向右移說明考生答題逐漸輕松;相反,隨著平均分數(shù)的減小說明考題逐漸變難,學生成績逐漸降低。在學生和教師工作正常情況下,題目越容易曲線越向右移。在平均分不變的情況下,標準差較小如低于6,成績分布較集中,正態(tài)分布曲線呈陡峭型狀態(tài)說明試卷區(qū)分度太小,表示中等難度試題所占比重太大;標準差較大如大于9,成績分布較平坦,試卷區(qū)分度太大,則表示中等難度試題偏少。 若學生成績分布屬②所示形態(tài), 即負偏態(tài)分布說明難度較大的試題比例偏高,表明試卷題目偏難;若學生成績分布屬③所示的形態(tài), 即正偏態(tài)分布說明難度較小的試題比例偏重,則表明試卷題目偏易。若學生成績分布屬④或⑤等所示的形態(tài),則表明試卷的命題質量不好,隨意性較強,這樣的試卷成績不能很好地測量出學生對所學知識掌握情況。 (3)正態(tài)分布應用的結論 考題相對難度是指考題從整體上講相對考生其難易程度的合理性,用學生成績的平均分數(shù)衡量考題相對難度應是合理、可行的。對于高校結業(yè)類型的考試,經統(tǒng)計平均分數(shù)在77分附近時,考題相對難度是適中的。通過確定恰當?shù)钠x度等級標準,對試卷做出試題難度相對學生①考題合理、②考題稍偏易或稍偏難、③考題較易或較難、④考題過易或過難、⑤考題難度不合理的5個等級判斷。 綜上所述,考試成績符合正態(tài)分布是說明考題命題合理的條件,也是衡量考試質量的一個客觀標準。考試的重要功能之一是信息反饋, 考試分數(shù)的分布形態(tài)里蘊含著豐富的教學信息。對考試分數(shù)的統(tǒng)計處理可以得出大量有價值的教學信息,據(jù)以評價教學、改進教學和進行教學研究。進一步分析發(fā)現(xiàn),正態(tài)性較弱的課程有這樣一些特點:考試分數(shù)出現(xiàn)了“極值”(特小值),或者是中間分數(shù)段分數(shù)的頻數(shù)太小,或者是尾端頻數(shù)略高。所以根據(jù)正態(tài)分布曲線呈現(xiàn)的狀態(tài),可以評價試卷的難易程度,為評價試卷命題質量提供數(shù)據(jù)資料。進而調整教學進度,改進教學方法。 在正常情況下,成績均服從或近似服從正態(tài)分布規(guī)律,可認為成績分布比較理想,命題恰當,難易適中。但是考試成績呈正態(tài)分布也是有生成條件的,當考分出現(xiàn)非正態(tài)分布時有下列情況,①在統(tǒng)計樣本中有棄學逃學學生,如果該類學生有一定比例勢必使低分段學生分布密度高于正態(tài)分布曲線;②在統(tǒng)計樣本中有復修該課程而且前期學習較好的考生,否則高分段分布密度過大;③考試題是偏難怪的題目。  4、正態(tài)分布在天氣預報中的應用

降水資料(1953-2003年)取自亳州市氣象觀測站,監(jiān)測點地理緯度:33o52'N、115o46'E。

(1) 降水概率分布模型及其參數(shù)估計

①降水概率分布模型

降水資料是否服從正態(tài)分布或標準正態(tài)分布,可利用樣本的偏度系數(shù)(Cs)進行檢驗[6],Cs的計算式為:

其中:為樣本的3階中心矩;σ為樣本標準差。

理論上講,當Cs=0時,降水資料即服從正態(tài)概率分布。事實上,由于觀測資料本身存在著隨機抽樣誤差,使計算的C也有一定的誤差。因而,實踐上認為:

-2(6/n)1/2≤Cs≤+2(6/n)1/2 時,降水資料可近似認為服從正態(tài)概率分布;否則服從偏態(tài)概率分布。

文獻[4]、[5]指出,將氣候要素極值變量作適當初等函數(shù)變換后,偏度系數(shù)會顯著減少而能滿足正態(tài)概率分布,即準正態(tài)概率分布。因此,本文采取此方法,對涉及的不同時段的降水要素值(x)進行適當?shù)某醯茸儞Q,如對數(shù)(lnx)變換、平方根(x 1/2 )變換、立方根(x 1/3)變換等,然后,統(tǒng)計分析其Cs,從中選取Cs滿足上述標準的變換形式作為求取概率模型的樣本資料,進而求取各自的概率分布模型。

②準正態(tài)概率模型參數(shù)的估計

準正態(tài)概率分布密度函數(shù)通式可推導如下,設原始觀測記錄為連續(xù)變量X,經過函數(shù)變換后,新變量為y,即有 y=g(x),原變量 x 的分布密度函數(shù) f(z)為 :

(2.2)

(2.2)式中Φ(y)是變量y的概率分布密度函數(shù),據(jù)假設條件有:

式(2.4)中μ和σ兩參數(shù)的估算,可利用矩法或極大似然法(本文用此法求取參數(shù))求得分別為(2.5)、(2.6)式:

其準正態(tài)概率分布函數(shù)為:

                                      (2.7)2研究結果

①各時段降水的正態(tài)、偏態(tài)檢驗

圖4 亳州市歷年年降水量和汛期降水量

圖4為1953—2003年以來亳州市汛期與年降水量的波動圖。從圖1可見,1953—2003年以來亳州市汛期與年降水量波動顯著,這是當?shù)睾禎碁暮δ昴臧l(fā)生的主要原因。

因此,僅從現(xiàn)有監(jiān)測資料中,通過求解發(fā)生頻率來獲得當?shù)匮雌谂c年降水的概率,顯然具有一定局限性,難以滿足工程設計和防災減災工作的需要。為此需進一步從理論上尋找解決方法。

表4給出了亳州市汛期及各月和年降水量的原始資料以及經過初等變換后的偏度系數(shù)(Cs)和理論偏度系數(shù)(|Cs|)的計算結果。

表4

從表4可見,各時段降水量原始監(jiān)測資料的Cs均遠大于理論上的偏態(tài)系數(shù)。特別是6月份的降水量,竟達到1.5763,是理論值的2.3倍。

但是,原始資料經過初等變換后,其相應的Cs則顯著減少。表4中帶有“*”號標志的即為滿足上述要求的符合準正態(tài)分布的樣本。它們分別為汛期和年降水量的對數(shù)處理結果、6、7月份的立方根處理結果和8月份的平方根處理結果。這樣以來,即可求取各自的概率分布模型。

②各時段降水的準正態(tài)分布模型

本文采取極大似然法,按照公式(2.5)、(2.6),分別求取各自準正態(tài)概率分布模型的參數(shù)。結果見表5所示。

表5

將表5中的相應參數(shù),帶入公式(2.4),即可求得各自的概率密度。汛期與年降水的概率分布密度見圖5所示

圖5

圖6

為檢驗各自概率分布模型的模擬效果,分別計算了各時段降水量的經驗概率分布與按公式(2.7)求得的理論概率分布。其各自結果分別見圖6。

從圖6可見,理論概率分布與經驗分布擬合效果較好,具有一定參考價值。

3 結語

① 通過研究認為,亳州市汛期及年降水量的概率分布函數(shù)為準正態(tài)分布函數(shù)形式。

②研究結果可用于當?shù)毓こ炭篂脑O計所參考,并可以用于旱澇指標的制定等研究之中。如可以通過概率分布函數(shù),求得某時段雨量的再現(xiàn)期或某一雨量指標的發(fā)生概率等等。

③ 給出的模型如何用于旱澇指標的制定,涉及到當?shù)氐淖匀唤邓闆r和農業(yè)生產狀況。

全文總結

綜上所述,正態(tài)分布是實際生活中應用極其廣泛的重要分布,生活中許多重要的普遍規(guī)律最初都是應用正態(tài)分布解釋和建立的,隨著科學的發(fā)展,數(shù)學在生活中應用越來越廣,生活中的數(shù)學無處不在,概率論已成為最重要和最活躍的學科之一,它既有嚴密的數(shù)學基礎它又與學科聯(lián)系緊密,在自然科學,社會科學,管理科學等各個領域都得到了廣泛的應用。

參考文獻:

[1]丁裕國.探討災害規(guī)律的理論基礎—極端氣候事件概率[J].氣象與減災研究,Vol.29 NO.1.

[2 ]丁裕國.降水量概率分布的一種間接模式[J].南京氣象學院學報.1989,10(4):407-416.

[3]魏淑秋.農業(yè)氣象統(tǒng)計[M].福建:福建科學技術出版社,1985:12~13.

[4]董迎春,徐國志,董振宇.《中國市場》[M].2006年01期.

[5]盛驟,謝式千.概率與數(shù)理統(tǒng)計[M].高等教育出版社,2004.

[6]繆全生.概率與數(shù)理統(tǒng)計[M].華東師范大學出版社,1997.

[7]廖玉麟,劉愷.概率與數(shù)理統(tǒng)計試題精選題解[M].華中科技大學出版社,2001.

[8]朱秀娟,洪再吉.概率統(tǒng)計問答150題 [M].湖南科技出版社,1982.

[9]袁蔭棠,范培華.概率統(tǒng)計解題思路與方法[M].世界圖書出版公司,1998.(撰稿人馮媛 王凱)



  轉自:永州新聞網

  【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業(yè)經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權所有:中國產業(yè)經濟信息網京ICP備11041399號-2京公網安備11010502035964