概率计算十篇

时间:2023-03-26 03:13:05

概率计算

概率计算篇1

第一个有意识地计算胜算的是文艺复兴时期的意大利医生、数学家卡当。据说卡当曾参加过这样的一种:把两颗骰子掷出去,以每个骰子朝上的点数之和作为赌的内容.已知骰子的六个面上分别为1~6点,那么,赌注下在多少点上最有利?

两个骰子朝上的面共有36种可能,点数之和分别可为2~12共11种.从图中可知,7是最容易出现的和数,它出现的概率是6/36,即1/6.

卡当曾预言说押7最好.

现在看来这个想法是很简单的,可是在卡当的时代,这应该算是很杰出的思想方法.他在一生中超过40年的时间里,几乎每天都参与,而且是带着数学的头脑去观察、去思考.最终,在一本名叫《机会性游戏手册》的书中,他公布了调查和思考的结果以及关于实践的体会。这本书写于1526年左右,但一直到一百多年后的1663年才出版。书中已包含了可能性事件的概率的思想萌芽,即一个特殊结果的概率是所有达到这个结果的可能方法的数目被一个事件的所有可能结果的总和所除.

在那个时代,虽然概率论的萌芽有些进展,但还没有出现真正的概率论.17世纪中叶,法国贵族德・梅勒在一次和赌友掷骰子时,各押赌注32个金币.双方约定,梅勒如果先掷出三次6点,或者赌友先掷三次4点,就赢了对方.进行了一段时间,梅勒已经两次掷出6点,赌友已经一次掷出4点,这时候梅勒接到通知,要他马上陪同国王接见外宾,只好中断了.请问:两个人应该怎样分这64个金币才算合理呢?

赌友说,他要再碰上两次4点,或梅勒要再碰上一次6点就算赢,所以他有权分得梅勒的一半,即梅勒分64个金币的2/3 ,自己分64个金币的1/3.梅勒争辩说,不对,即使下一次赌友掷出了4点,他还可以得到,即32个金币;再加上下一次他还有一半希望得到16个金币,所以他应该分得64个金币的1/4,赌友只能分得64个金币的1/2.两人到底谁说得对呢?

概率计算篇2

遗传规律是一种统计学规律,相应的有很多相关的概率计算习题,其中一些习题有很高的难度,如果不从概率计算的根本上去分析、理解,解题很容易出错。多年教学经验告诉我们,在解题中必须分析清楚上述概率计算公式中的“n”,即事件发生的总数,这个“n”我们也常称之为“统计对象”。弄清“统计对象”这个问题,遗传概率计算的很多难题就迎刃而解了。

一、“患病男孩”与“男孩患病”的问题

例题肤色正常的夫妇生了一个白化女儿,他们再生一个白化男孩的概率是多少?生一个男孩白化的概率是多少?

分析:杂志上有很多教师从不同的角度分析探讨“患病男孩”与“男孩患病”的问题,并得到一些有意义的推论来指导解题。其实,这个问题从概率计算“统计对象”的角度分析就变得非常清晰明了了。“患病男孩”的“统计对象”是“全部的孩子”,即在“全部的孩子”中计算既患病又是男孩的概率,因此其概率为(14×12)÷1=18。“男孩患病”的“统计对象”是“全部的男孩”,即在“全部的男孩”中计算既患病又是男孩的概率,因此其概率为(14×12)÷12=14。

二、遗传系谱图的问题

分析:由家系图可知甲病为常染色体隐性遗传病,乙病为常染色体显性遗传病。若甲病基因用A表示,乙病基因用B表示,那么1号基因型为AAbb或Aabb,由于没弄清统计对象容易得出14×1=14的错误结论。事实上,据图可知1号的统计对象应是“全部正常的孩子”,而不是“全部的孩子”,正常的孩子只有AAbb、Aabb两种基因型,它们的比例为1∶2。因此,纯合子的概率为1/3。2号可以用同样的方法,推理得到正确的结论也是1/3。

三、“取出部分”的问题

概率计算篇3

1 亲本基因型不确定时的概率计算

在许多遗传概率计算中,亲本的基因型常常有多种可能,如在常染色体遗传的系谱图中,同一个人的基因型可能是AA或Aa,常见概率为1/3和2/3;在伴X染色体遗传中,同一女性有XBXB或XBXb,常见概率各为1/2。这就是基因型的不确定性,这种情况下,必须先确定亲本的基因型及其比例,然后才能计算子代相关概率。

【例1】 图1是戈谢氏遗传病的家族系谱图,Ⅱ-6与Ⅱ-7结婚后生出Ⅲ-8为戈谢氏病男孩的概率为 。

分析:要确定Ⅲ-8患戈谢氏病的概率,必须知道其父母Ⅱ-6与Ⅱ-7的基因型,从系谱图很容易分析得出,该病是常染色体上隐性基因控制的遗传病。对于Ⅱ-6与Ⅱ-7来说,其表现型都正常,属于确定的已知事件,排除了患戈谢氏病情况。那么在表现型正常的个体中,Ⅱ-6的基因型是AA或Aa(设戈谢氏病由基因a控制),属于不确定性。此时,Ⅱ-6是“致病基因型携带者Aa的概率是2/3。由于Ⅰ-3是患者(aa),所以Ⅱ-7的基因型确定是(Aa)。

对于Ⅲ-8来说,属于未知事件,孩子的表现型、基因型、性别都是不确定的,可能患戈谢氏病(1/4 aa),也可能是正常(1/4AA,1/2Aa),是男孩或女孩的概率也各为1/2。所以Ⅱ-6与Ⅱ-7结婚后,生出Ⅲ-8为戈谢氏病男孩的概率是:2/3×1/4×1/2=1/12。

答案:1/12。

【例2】 全身性白化病在人群中发病率为1/4 000。一对表现正常的夫妇生育一个患全身性白化病孩子的概率是 。

分析:根据题意,设全身性白化病的致病基因为a,其频率是1/200,正常基因A的频率为199/200;在人群中基因型AA的频率为199/200×199/200=(199×199)/40 000,Aa的频率为2×1/200×199/200=(199×2)/40 000。“表现正常的夫妇”表现型是已确定的事件,但其基因型是AA或Aa,属于不确定的事件,但只有当夫妇双方的基因型均Aa时才能生育患病的孩子。如果用杂合体(Aa)的概率199/20 000来计算后代患病的概率,即1/4×(199×2)/40 000×(199×2)/40 000将是错误的。因为(199×2)/40 000是群体中(群体中基因型有AA、Aa和aa三种)杂合体的概率,而这对夫妇表现型是正常的,只有AA或Aa两种可能,应排除aa的可能,在正常的人群中,基因型为Aa的概率是:((199×2)/40 000)/[(199×199)/40 000+(199×2)/40 000]=2/201,后代患病的概率是:(1/4×2)/201×2/201=1/40 401。

答案:1/40 401。

2 基因型、表现型都不确定时的概率计算

此类试题中,双亲或亲本之一的表现型、基因型是不确定的。遇到这类题型时,应先确定亲本的表现型、基因型的可能性及其可能的比例。在哪些组合中,后代可能患病、可能正常?分析清楚后,再计算概率。

【例3】 一个白化病基因携带者与一个父母都是携带者的女性结婚,先后生了2个孩子。那么,这两个孩子一个正常、一个患白化病的概率是 。

分析:人类白化病是常染色体上的隐性基因控制的遗传病。这对夫妇中,男性的表现型和基因型都是确定性事件。而女性的表现型和基因型都是不确定的,有可能为正常,基因型为1/4AA或1/2Aa,或为白化病患者,基因型为1/4aa。该夫妇及生出各种情况孩子概率见表1。

两个孩子一个正常、一个患白化病的概率3/4×1/4=3/16。

【例4】 某种由X染色体上隐性基因b控制的遗传病,其在X染色体上出现的概率为5%,一个正常男性与一个无亲缘关系的女性结婚,后代患该遗传病的概率是_________。

分析:正常男性属于已知事件,其表现型和基因型都是确定的。而与其结婚的女性则是未知事件,女性的表现型和基因型都是不确定的,可以是正常的(XBXB或XBXb),也可以是患病的(XbXb),要计算他们后代的各种概率,必须先确定该女性的表现型、基因型及其比例。由题意知:正常基因B在X染色体出现的概率为1-5%=95%。正常男性XBY不带该遗传病基因,只有当女性带有该遗传病基因(XBXb或XbXb)时,后代才有可能患该遗传病。由于该遗传病基因出现的频率为5%,因此自然人群中,出现XBXb的概率为2×5%×95%=9.5%。这样出现XBXb,并使后代患病的概率是:女XBXb(9.5%)×男XBYXb(9.5/100×1/2)×Y(1/2)F1:XbY(9.5/400)。出现XbXb并使后代得病的可能性为0.25%×1/2=1/800,则正常男性与一个无亲缘关系的女性结婚,子代患该遗传病的可能性根据“加法定理”为9.5/400+1/800=20/800=2.5%。

答案:2.5%。

3 遗传方式不确定时的概率计算

该类型题中,在告知的遗传病中,有些遗传病的遗传方式是不确定的,可以是常隐或常显,也可能是伴X隐性或显性,甚至是伴Y遗传。遇到这类试题时,可以从两方面分析:① 能不能排除某种遗传;② 该遗传病可能是哪些遗传?其中哪种遗传最有可能等。然后再按要求进行概率计算。

【例5】 (2010・江苏卷・29,改编)图2是一个甲、乙两种单基因遗传病的系谱图(Ⅳ-1与Ⅳ-2是双胞胎),Ⅱ-4、Ⅱ-6不携带致病基因。下列说法不正确的是( )

A. 甲病的遗传方式是常染色体隐性

B. 且乙病的遗传方式不可能是伴X显性遗传

C. 乙病最可能的遗传方式是伴Y遗传

D. 按最可能的方式遗传,Ⅳ-1同时患两种遗传病的概率是0

概率计算篇4

[关键词] 遗传 概率计算 发散思维

【例题】(2012江苏卷·30)人类遗传病调查中发现两个家系都有甲遗传病(基因为H、h)和乙遗传病(基因为T、t)患者,系谱图如下。以往研究表明在正常人群中Hh基因型频率为10-4。请回答下列问题(所有概率用分数表示):

(1)甲病的遗传方式为 ,乙病最可能的遗传方式为 。

(2)若I-3无乙病致病基因,请继续以下分析:

①I-2的基因型为 ;II-5的基因型为 。

②如果II-5与II-6结婚,则所生男孩同时患两种遗传病的概率为 。

③如果II-7与II-8再生育一个女儿,则女儿患甲病的概率为 。

④如果II-5与h基因携带者结婚并生育一个表现型正常的儿子,则儿子携带h基因的概率为 。

笔者以求解“II-5与II-6所生男孩同时患两种遗传病的概率”为例,从多角度思考,以期殊途同归。

解答如下:据I-1、I-2不患甲病,而II-2患甲病,可判定甲病为常染色体上隐性遗传病;又据I-3、I-4不患乙病,而II-9患乙病且I-3无乙病致病基因,可知乙病为伴X染色体隐性遗传病。因为II-5既不患甲病也不患乙病,所以II-5与甲病相关基因型为HH或Hh,与乙病相关基因型为XTY。又因II-6既不患甲病也不患乙病,所以II-6与甲病相关基因型为HH或Hh,与乙病相关基因型为XTXT或XTXt。

[解法一](常规法):II-5基因型可能为HHXTY、HhXTY;II-6基因型可能为HHXTXT、HHXTXt、HhXTXT、HhXTXt。所以,婚配组合有八种:①HHXTY×HHXTXT;②HHXTY×HHXTXt;③HHXTY×HhXTXT;④HHXTY×HhXTXt;⑤HhXTY×HHXTXT;⑥HhXTY×HHXTXt;⑦HhXTY×HhXTXT;⑧HhXTY×HhXTXt。其中只有组合⑧所生男孩才会同时患两病,其概率为×××=。

[解法二](四边形法):已知有甲、乙两种遗传病,且按照自由组合定律独立遗传,若子代中不患甲病概率为A(甲病正常概率为A),患甲病概率为D;若子代中不患乙病概率为B(乙病正常概率为B),患乙病概率为C,如图所示。

在如图所示的四边形ABCD中:边AB表示子代正常概率为A×B;边DC表示子代同时患两种病的概率为D×C;对角线AC表:子代只患乙病的概率为A×C;对角线BD表示子代只患甲病的概率为B×D;对角线AC+BD表示子代患一种病的概率为A×C+B×D。据题可得,所生男孩患甲病的概率为××=(即上图中的D),患乙病的概率为×=(即上图中的C),同时患两种病的概率为D×C =。这种方法不仅能把患病情况很直观地表示出来,而且解题过程简单明了,计算不易出错。

[解法三](集合法):据题可知,所生男孩不患甲病的概率为,不患乙病的概率为,正常的概率为× =;根据下图可得:两病兼患的概率=(患甲病的概率+患乙病的概率)—(1—正常的概率)=(+ )—(1—)=。

[解法四](雌雄配子结合法):因为本题所求的是所生男孩两病兼患的概率,所以只需考虑含Y的与卵细胞结合即可。具体结果见下表:

概率计算篇5

关键词:MATLAB;遗传算法;概率积分法;预计参数

中图分类号:TD327文献标志码:A

概率积分法是我国矿山开采沉陷预计的主要方法,提高概率积分法预计精度的关键在于减少模型误差和参数误差,模型误差主要来自于该方法的基本假设,往往难以改进,此时致力于减小参数误差意义更为明显[1]。目前求取概率积分法地表移动预计参数常采用传统的优化算法,如线性最小二乘法等,但此类算法对参数初值要求较高,而且容易出现局部极小值等问题,从而使拟合的参数失去准确性。

遗传算法(Genetic Algorithm,简称GA)是一种宏观意义下的仿生算法,它模仿的机制是一切生命与智能的产生与进化过程。它通过模拟达尔文“优胜劣汰、适者生存”的原理鼓励产生好的结构,通过模仿孟德尔遗传变异理论在迭代过程中保持已有的结构,同时寻找更好的结构[2]。与传统的优化算法相比,遗传算法适用于高度非线性的不连续多峰函数的优化,可以有效的避免出现局部极小值, 而且遗传算法对初值参数的依赖性不高,在所设定的参数范围内通过人工进化的方式获得最优解,因而具有较强的可操作性和简便性。

由于GA在大量问题求解过程中独特的优点和广泛的应用,许多基于MATLAB的遗传算法工具箱相继出现,其中出现较早、影响较大、较为完备者当属英国设菲尔德(Sheffield)大学推出的遗传算法工具箱[3]。本文便是基于此遗传算法工具箱,在MATLAB平台上设计了根据工作面任意监测点观测数据求取基于概率积分法的地表移动预计参数程序。

1概率积分法预计公式

由于X轴正方向逆时针旋转到斜向观测线的角度为44°,所以预计的斜向曲线在三维图形中显示,并通过MATLAB函数view调整视角,使拟合曲线所在的平面正对观察者,便于观察。从图3可知,曲线的拟合效果良好,预计曲线和实测值基本吻合。

遗传算法预计的走向观测线下沉值和水平移动值的中误差分别为28.15 mm和15.03 mm,它们分别占最大值的1.2%和1.7%,预计的斜向观测线下沉值和水平移动值的中误差分别为42.30 mm和33.56 mm,它们分别占最大值的1.8%和3.4%。文献[5]13-16中预计的走向观测线下沉值和水平移动值中误差分别占最大值的1.3%和4.4%,预计的斜向观测线下沉值和水平移动值中误差分别占最大值的2.1%和6.0%。通过与文献[5]13-16中采用的线性最小二乘法求参的精度比较,可知遗传算法是一种适应能力更强且求参精度更高的方法。

4结论

1) 遗传算法对参数的初值要求不高,只需在运算之前为地表移动预计参数设置合理的范围,然后通过人工进化地方式从此范围内获得最优解即可。

2) 遗传算法是一种高效的全局寻优算法,不像传统的线性最小二乘法那样易出现局部极小值,在求取预计参数的过程中能够避免出现病态问题。

3) 地表观测站实测数据往往会受到测量误差、粗差、检测点缺失等各种不利因素的影响,从而增加求取概率积分法预计参数的难度,而遗传算法具有较强的抗干扰能力,可以很好地拟合出地表移动预计参数。

参考文献:

[1]查剑锋,冯文凯,朱晓峻. 基于遗传算法的概率积分法预计参数反演[J]. 采矿与安全工程学报,2011,28(4):655-658.

[2]周明,孙树栋. 遗传算法原理与应用[M]. 北京:国防工业出版社,2002:8-150.

[3]雷英杰. MATLAB遗传算法工具箱及应用[M]. 西安:西安科技大学出版社,2005:62-94.

概率计算篇6

【关键词】线性;矩阵;事后概率;计算

一、绪论

一般化最小错误率(generalized minimum error rate,GMER),由事后概率的角度出发,定义聚焦事后概率(aggregate a posteriori,AAP),并将事后概率改写为具鉴别性形式的误辨率(misclassification measure)函式。在训练模型参数上,不使用一般的广义概率递减法则(generalized probabilistic descent,GPD),透过一些条件假设,即可推导出模型参数估测的封闭解形式。在语者调适的研究上,最广为使用的有最大相似度线性回归(maximum likelihood linear regression,MLLR)调适与最大事后概率调适两大类方法。在本研究中我们将使用前者作为调适的主要架构,透过所估测出之线性回归矩阵对语音模型参数进行调适。由于考虑到使用语料量稀少易造成{适效果失准的情况,引入线性转换矩阵之事前分布信息,以强健化调适效能外,也将由鉴别式训练之角度出发,尝试找出不同于传统以贝氏法则为准之最大化。聚焦事后概率线性回归(aggregate a posteriori linear regression,AAPLR)算法。故我们会针对文献中所提过之以线性回归为主之调适算法作回顾。除了最大相似度线性回归调适算法之外,主要有最大事后概率线性回归(MAPLR)、考虑到渐进式(sequential)学习的近似贝氏线性回归(quasi-Bayes linear regression,QBLR)与最小分类错误线性回归(minimum classification error linear regression,MCELR)。

二、鉴别式训练及线性回归调整

最大相似度参数估测法则是最普遍用来训练隐藏式马可夫模型参数的方法,它利用EM算法估测模型参数非常有效率;最大相似度的缺点是模型参数只利用属于本身模型的数据来估测,和其它模型的参数估测基本上是独立的。最小分类错误和最大交互信息,是近来较广为利用的鉴别式训练方法,除了训练语音模型外,还用在语言模型(language model)的训练上、语者辨识模型训练、特征参数撷取。使用鉴别式训练估测模型参数时,除了本身模型的数据外,还考虑与其它模型参数之鉴别性,所以可以更正确地估测出所需的模型参数内容。作者提出了另一种鉴别式训练方法,称作一般化最小错误率,从事后概率出发,定义与最大事后概率相似的目标函式,并且改写为鉴别式训练的形式,以下分别简介这三种鉴别式训练法则。

在两个类别12C,C的分类器里,假设1x∈C,贝氏分类法则定义了最基本的误辨值函式(misclassificationmeasure)为

其中(x;)ig为观察数据x对类别iC的相似度,表示所有类别的模型参数,|(x;)(x;)kikMigg,代表一群对观察数据x的相似度比类别kC对观察数据x相似度更具竞争性的类别集合,即混淆类别(confusing classes)或竞争类别(competing classes)的集合。kS并非是固定的集合,它随着模型参数和观察数据x而改变,而且该式在不连续,这在最陡坡降法(gradient descent)里并不适用,因此另外定义了一个连续性的误辨值公式为

除了最小分类错误法则外,最大交互信息也是普遍利用的鉴别式训练式法则,最大交互信息较隐性的引入了观察数据与其它类别的相似度,所以与一般化最小错误率较相似,在混合数高的情况下,最大交互信息能训练出比最小分类错误辨识率更高的模型参数,由于最大交互信息考虑了观察数据和所有类别的相似度,因此比最小分类错误在实作上难度更高。为了快速计算隐藏式马可夫模型和观察数据x的相似度,必须使用forward-backward算法。

三、最大相似度线性回归(MLLR)

最大相似度线性回归的目标就是,对一群集s,计算一转换矩阵sW,使得群集内所有调适数据的相似度最大,最大相似度线性回归调适算法的好处在于,调适语料不需要完全涵盖所有模型,即使没有调适数据的模型,也可以经由同类别的转换矩阵进行调适。以调整平均值向量为例,在计算转换矩阵之前,将平均值向量延展为

其中,D为向量维度,则更新后的平均值向量为 其中,r(s)代表状态s所属回归类别,r(s)W代表回归类别(regression class)r(s)的转换矩阵,维度为D×(D1),则透过EM算法,最后可以得到每一个回归类别的转换矩阵之每一列计算方式如 。由于以最大相似度为主之线性转换矩阵在计算上十分简易,所以其应用十分普遍,然而,若调适语料过少,或语料特性不具代表性时,则可能导致得到的转换矩阵仍旧无法符合测试语者的语音特性,于是,便考虑到引入转换矩阵的事前分布信息。矩阵参数的事前分布可以在估测转换矩阵时限制参数可能的调适量,使得参数的估测更具强健性,由文献实验可看出,最大事后概率线性回归可达到比最大相似度线性回归更好的辨识率。

最小分类错误的鉴别式训练方式在很多应用都能显示出不错的效能,不过最小分类错误一般以广义概率递减算法实现,并没有在理论上证明它能收敛到更好的模型,当训练数据变少时,错误的收敛停止点更容易发生,因此将MCE应用在模型调适时,使用线性回归有其必要。Chengalvarayan在1998年提出最小分类错误线性回归,使用全局性的转换矩阵并以广义概率递减算法估测矩阵参数,实验结果显示出其调适效果比最大相似度线性回归算法好。而在中,更进一步使用多组回归类别的转换矩阵进行调适,在同样使用广义概率递减算法下,可以有更好的调适效能改进。另外,作者不利用广义概率递减算法实现最小分类错误线性回归调适算法,而以一般化调适作法计算转换矩阵,即转换矩阵以群集为单位,将最小分类错误的目标函式改写后,可以透过EM算法以封闭解的方式计算转换矩阵。

在最小分类错误估测法则中,并不考虑类别的事前信息,且使用广义概率递减算法实现,在调适数据少时,更容易发生错误训练的问题,因此,Beyerlin 将所有模型(语音模型、语言模型)组成一个事后概率的线性组合,利用鉴别式训练估测出线性组合的系数。由先前所介绍的一般化最小错误率,从最大事后概率的角度出发,另外定x所谓聚焦事后概率(AAP),并将式子改写为鉴别式训练的形式,在所给定的部份假设下,可以得到鉴别式训练的封闭解,相较于传统使用的广义概率递减算法,有较快的计算速度,而且不用调整学习速率(learning rate)和步进大小(step size)。由于调适时数据较少,于是将一般化最小错误率代入寻找转换矩阵也应该相当合适。

考虑到最大事后概率在少量训练语料下可以得到比最大相似度较正确的模型参数,由前述的一般化最小错误率介绍中可以看出,它将事后概率中原本与模型参数无关的( )m,nPx表示成与模型相关,即具鉴别式训练的形式,将原本最小分类错误中鉴别式函式为相似度函式改为事后概率函式,可以结合这两种模型估测方式的优点,并利用封闭解的解法可以快速估测出模型参数,改善以往以广义概率递减法则实作时收敛太慢的缺点。

一般而言,线性转换矩阵是根据所有语音模型参数中具相似特性之分群结果而分为数个类别,如分为R群,被分于同群之语音模型是共享同一组转换矩阵进行转换。于是在给定语音模型类别m后,即可以透过上述之关系,得到对应之转换矩阵类别。另外,我们是以r(m)表示第r类转换矩阵与第m类语音模型之关系。从另一方面来看,遵循上述变量、标示之定义,则转换矩阵W之聚焦事后概率定义式比较可知,在使用EM算法对语音模型或是此处所考虑之转换矩阵之参数进行估测时,是将R(W■|W)针对所欲估测之参数予以偏微分后,而透过封闭解来得到更新的参数内容。而在聚焦事后概率的定义式中,则是将各个类别之事后概率全部加总起来,于是在文献中接下来的推导过程中,才可朝所谓的最小分类错误之鉴别式参数估测之同理性进行推导,并经一些假设设定后,得以使用封闭解的方式进行参数内容之更新。

四、实验与结果

首先我们从不同方法的调适效果来比较,可以发现所提出之AAPLR与其他调适方法相较,无论给定多少调适语料,均可达到最佳之效能。而与MCELR之比较,可以发现最大之效能差距约有3.3%。另外,由调适时间来比较,可以发现,AAPLR虽然算是属于鉴别性调适法则,但是在调适时间上,由于其参数估测有封闭解的存在,可以一次就将调适之最佳参数估测出,所以较同类型之MCELR花更短的时间在调适上。另外,由表上可以发现的是,当使用了30句调适语料时,所有方法的调适效果并没有相当大的改进,推测原因应是出在转换矩阵类别数量上的问题。由于使用之语料数量已不少,但是类别数量还是只有固定在2个,过少的转换矩阵类别数,会使得调适语料无法发挥针对不同模型参数而估测出专属之转换矩阵,而失去大量调适语料应有之调适效能改进率。最后,在此初步实验中,我们直接将TCC300所训练出之语音模型,使用公视语料进行少量语料之调适效能实验,而未考虑到两种语料所具备之文句内容与语者分布的差异。在此实验结果中,不易区分出调适之效能是来自于针对文句内容的调适效能抑或是来自语者的调适效能。这是在未来我们将会再进行修正之处。

在本论文中,一般化最小错误率中之类别概率以一常数表示,在模型参数估测中较不具参考价值,或许尝试以真正的概率分布来代表,可以推导出更完整之结果。此外,我们也将再深入由最基本之理论出发,将此一调适算法演绎得更加完整。未来我们也将尝试利用近似贝氏的方法进行理论推导以寻求渐进式调适之效能。此外,除了我们也将增加线性转换矩阵的类别数,进行更多的实验以验证调适效能之外,也要实行先针对训练与测试语料之文句内容差异进行所谓的task 调适,以先去除此一因素,再行针对语者调适之效能进行实验评估。

【参考文献】

[1]L.Bahl,P.Brown,P.de Souza and R.Mercer,“Maximum mutual information estimation of hidden Markov model parameters for speech recognition”,in Proc.IEEE Int. Conf. Acoustics,Speech,Signal Processing(ICASSP),vol.11,April1986,pp.49-52

概率计算篇7

关键词: Excel 生物统计学 二项分布的概率

1.引言

生物统计学是研究数据资料的收集、整理、分析、解释的一门科学[1],也是畜牧、兽医、农学、微生物、医学等领域中不可缺少的统计工具,越来越多的数据分析离不开生物统计学原理。随着计算机技术的发展,已经有更多软件或操作系统被应用于生物统计学,如Excel[2],SAS[3],SPSS[4]等,但是不同统计软件具有不同的统计特点,如Excel统计功能更为简单,适合生物统计学的初学者。SAS统计功能比较宽广些,因其里面统计模块的限制,所以更适合自己编写程序的学者。SPSS的统计功能更为强大,几乎具备了所有统计分析功能,操作相对简单、直观。

2.二项分布

虽然从统计分析来看,SAS和SPSS的统计分析功能略胜于Excel,但是Excel具有其独特的地方,如对一些常用分布的概率计算来说Excel显得简单多了。二项分布是最常见的离散性随机变量的概率分布,核心定义为每次实验只能有两种可能结果。对于二项分布的手动计算公式[1]:

3 利用Excel对二项分布的概率计算

虽然二项分布的概率手动也能计算,但是比较费时费力,因此我们借助Excel计算二项分布的概率就比较简单。例2:已知某种病猪的死亡率为30%,现在有10头病猪,如果不给治疗,问死4头的概率是多少?和死4头及4头以下的概率是多少?

(1)死4头的概率:Excel中选定空格―插入f函数统计BINOMDIST:在其对话框中从上依次输入4,10,0.3,false,具体见图1,其概率为0.2001。

(2)死4头及4头以下的概率:Excel中,选定空格―插入f函数统计BINOMDIST:在其对话框中从上依次输入(4,10,0.3,true),具体见图2,其概率为0.8497。

4.注意问题

在本次教学改革与实践中,已经把各种分布的概率计算纳入《生物统计学》实践教学中,一方面可以让学生针对不同数据清楚其分布类型,针对不同分布类型选用不同Excel函数模块,可以说将课本上所学知识很好地应用于实践数据分析。本文介绍的是二项分布,只有二项分布的概率计算才适用Excel中的BINOMDIST统计函数模块,如果是其他分布的概率计算需要另选其他模块。

参考文献:

[1]张勤.生物统计学.中国农业大学出版社,北京,2009.

[2]王香萍,王文凯,李俊凯,等.EXCEL中关于生物统计中两组平均数的应用方法及探讨.考试周刊,2011,6:180-181.

概率计算篇8

关键词:冬季供暖负荷计算室外计算温度

1引言

确定合理的室外计算温度,是冬季供暖系统负荷计算中的一个关键问题,也是长期以来未能得到合理解决的问题之一。众所周知,室外气象时刻变化着,如果选取最不利的气象条件(最冷天)去设计供暖系统,那么,一方面由于设备负荷计算偏大,造成散热器、供回水管道及锅炉等设备偏大;另一方面由于设备常处于低负荷运行状态,效率很低。反之,如果选取暖和日子的气象条件去设计供暖系统,可能满足不了设计要求的室温。多年来,不少学者曾对室外计算温度的合理选取进行过研究。近年来由于节能的要求,这个问题更受到人们的重视,同是由于建筑热过程理论的发展,对它也进一步提供了科学依据。各国在编制有关规范和法规时,对室外计算温度了有专门条文,并不断采纳新的研究成果,及时修改有关内容,并使之便合理。

苏联在40年代是采用查普林教授提出的公式来确定供暖室外计算温度θw,即:

θw=0.4θp1+0.6θmin(1)

式中,θp1为当地历年最冷月平均气温的平均值,θmin为当地曾出现过的小时气温的最小值。

美国的ASHRAE手册,1949年推荐采用当地历年气温记录中12月、1月、2月全部小时数据中相应保证率为97.5%的气温作为当地的供暖室外计算温度。后来由于重视了围护结构的蓄热特性,1959年把原来按冬季各小时气温的百分率统计法,改为按冬季均气温的百分率统计法,并且建议供暖室外计算温度的确定应随室内气温允许的波动幅度而不同。1975年ASHRAE标准90-75在《新建筑物设计节能》中规定,供暖设计应选取满足当地97.5%气温需要的温度作为室外计算温度。同时指出,如果房屋是轻型围护结构,又有大面积玻璃,且室温控制要求很高时,应采用最低温度平均值或满足99%气温需要的温度作为室外计算温度。

英国IHV掼根据允许的极端概率,给出英国及其它国家在各种条件下的室外计算温度,它们考虑了建筑物的体积及其热惰性,也考虑了供暖设备超负荷容量的临界系数。

我国70年代以前沿用苏联的作法,后来采用类似美国的保证率统计法。GBJ19-87不保证率来确定室外计算温度,这种作法以实际30年的气象数据为基础,进行概率统计,得到日平均不保证时间为五天的温度值,作为室外计算温度。以北京地区为例,日平均温度不保证五天相当于外温不保证率为5/126=4%,这时北京地区的室外计算温度为-9℃。这种作法虽然考虑了外温的随机波动特征,比直接采用最不利外温加权值前进了一大步,但是还存在一些不合理的地方:

供暖设计负荷不仅与外温有关,而且与太阳辐射及风速风向有关,这些气象参数随时间随机变化着,且相互之间存在相关关系。因此很难用统计的方法确定多因素的不保证率下的室外计算温度。

外温不保证率与室温不保证率是本质不同的两个概念。由于建筑物的热特性,外温经衰减、时间延迟才进入室内,造成室温的变化。因此合理的设计依据是室温不保证率,而不是外温不保证率。

建筑物的热特性并不等同于单一围护结构的热特性。JGJ24-86《民用建筑热工设计规程(试行)》规定,围护结构的冬季室外计算温度应根据围护结构热惰性指标D来确定,D值越小,室外计算温度选得越低。实际上,建筑物的热惰性学在很大程度上取决于它的外窗墙比,仅由外墙的D值并不能全面反映建筑物的热惰性。

室外气象参数的随机性造成室温是随机过程,在给定设计要求室温下,室温不保证率是随机变量,它服从一定的概率分布,因此应从概率意义上去理解室温不保证率。

本文试图采用随机分析的方法,根据随机气象模型和状态空间建筑模型,直接求解自然室外温随机过程,得到冬季供暖期的自然室温的概率分布,从而求得室外综合计算温度。前者充分考虑室外气象的随机性与建筑物热特性的综合作用,是根据室温不保证率的概率分布求得的。以它为依据,用稳态传热法计算供暖负荷,就能达到设计要求的室温不保证率及其概率信度。

2室外综合计算温度求解过程

供暖期的室温θa(t)可看成自然室温θ(t)与供暖温升Δθh(t)之各,即

θa(t)=θ(t)+Δθh(t)(2)

其中,自然室温θ(t)是指建筑物在无供暖设备情况下的室温,供暖温升Δθh(t)指供暖造成的室温的升高值。

室外气象随机过程可分解为确定(期望)过程与零均值的随机过程之和,它们作用在建筑物上,造成自然室温θ(t)也可分解为确定室温θd(t)与零均值随机室温θs(t)之和,即

θ(t)=θd(t)+θs(t)(3)

房间进行供暖,就是向房间提供热量,使确定室温θd(t)提高。当供暖系统向室内投入的热量为Q时,按稳态传热计算,室温将升高的幅度Δθh为

(4)

式中,Ki和Fi分别表示第i个护体的传热系数及传热面积,ρ和Cp分别为空气的密度和定压比热,n和V分别为房间的换气次数和空气容积。

如果供暖系统向房间的最大供热量为Qmax,则室温可以升高的最大值ΔQh,max为

(5)

于是,即使供暖系统投入最大负荷,房间温度仍低于室温设计值θr的时间与房间自然室温θ(t)低于给定值θo的时间相同。

θo=θr-Δθh,max(6)

因此,房间自然室温θ(t)低于θ0的时间的概率就是房间供暖时室温θa(t)低于θr的时间所占供暖季时间的百分比,也就是房间按照热量Qmax供暖时室温θa(t)低于设计温度θr的时间所占供暖季时间的百分比,或称为室温不保证率tc见(图1)。反之,当给定一定概率信度下的室温不保证率时,就可以根据室外气象参数和建筑物热特性,求得θ0,从而供暖系统就可以θ0作为室外计算温度来求出供暖设计负荷Qmax,

(7)

图1室温不保证率

因此,将θ0称作在一定概率信度和一定室温不保证率下的供暖系统负荷计算用的室外综合计算温度。同于它是由房间的自然室温的不保证率及概率信度决定的,因此,它与房间围护结构的热特性、外温和太阳辐射的随机性及室温不保证率的取值有关,而与供暖系统无关。

自然室温低于室外综合计算温度θ0的时间与冬季时间(t2-t1)之经tC可具体写为

(8)

式中,Δti表示自然室温θ(t)低于θ0的时间段,见图1所示。

采用单位阶跃函数g(x),其定义为

(9)

因此tC可改为

(10)

它也是以θ0作为供暖系统室外综合计算温度时,室温的不保证率。由于自然室温θ(t)是随机过程,tC是随机变量,其概率分布与θ0和[t1,t2]有关。以北京地区为例,冬季室外气温和太阳辐射可看成正态过程,于是自然室温θ(t)也是正态过程,因此tC近似服从正态分布,经数学推导,最后给出:

tC的期望

(11)

式中,F(x)为标准正态分布函数,σ(θ(t))为自然室温θ(t)的标准偏差。

tC的方差

(12)

式中,r12表示自然室温θ(η1)与θ(η2)的相关系数,σ1和σ2和分别表示θ(η1)与θ(η2)的标准偏差。

3算例与分析

以北京地区的气象条件和一个房间为例,采用随机分析的方法,求得冬季自然室温在不同室外综合计算温度下的不保证率的概率分布。选用的房间特征如下:

内部尺寸(m)为4×4×4,中间层

南墙面积12m2,南窗面积4m2(对应南窗墙比为25%),北墙和南墙为外墙,东墙、西墙、楼板和地板为内墙;外墙为370mm砖墙内外抹灰10mm,内墙为240mm砖墙内外抹灰10mm;只有一个单层窗户(南窗);外墙外窗无遮阳

换气次数为1h-1

不考虑室内自由得热和家俱的影响

该房间与其上、下、左、右四个房间具有相同的热边界条件

图2给出该房间在室外综合计算温度分别为-5℃、-4℃、-3℃和-2℃时自然室温不保证率的概率分布。从图2可得如下几点结论:

图2室温不保证率的概率分布(换气1h-1,南窗墙比25%)图3室温不保证率的概率分布(换气0.5h-1,南窗墙比25%)

不管自然室温不保证率及其概率如保,室外综合计算温度几乎不可能低于-5℃(图2给出,近似100%的概率信度下,自然室温低于-5℃的时间不超过0.3%)。

如果以95%的概率保证自然室温不保证率不超过5%,那么,室外综合计算温度为-2℃;换言之,在未来的100年里,自然室温低于-2℃的进间超过5%的冬季时间的年头只有5个。

在相同概率0.9下,如果要求自然室温不保证率不超过0.1%、0.6%、0.9%和4.2%,那么,室外综合计算温度分别为-5℃、-4℃、-3℃和-2℃。

如果以概率0.65、0.90和0.99保证自然室温不保证率不超过1%,那么,室外综合计算温度分别为-3℃、3.5℃和-4℃。

可见,根据给定的概率和自然室温不保证率,由图2可查出相应的室外综合计算温度;相同概率下,要求自然室温不保证率越小,那么,室外综合计算温度越低;相同的自然室温不保证率下,概率信度要求越大,那么,室外综合计算温度越低。

图3给出房间换气次数为0.5h-1的情况,图4给出房间南窗墙比为50%的情况,图5给出房间北窗墙经为50%的情况。这3幅图同样可以从概率意义上去理解室外综合计算温度,同时还可看出换气次数、南窗墙比和外窗朝向对室外综合计算温度的影响。在以概率0.9保证自然室温不保证率不超过1%的情况下,图2、3、4、5给出的室外综合计算温度分别为-3.5℃、-2℃、-1℃和-5℃,可见,换气次数由1h-1降为0.5h-1时,室外综合计算温度升高1.5℃;南窗墙比由25%升高为50%时,室外综合计算温度升高2.5℃;外窗由朝南改为朝北时,室外综合计算温度降低4℃。

4结论

随机分析的方法从本质上提示了室外气象参数的随机性与室温的随机性之间的内在联系,真正从概率的角度去确定室外综合计算温度,因此,它是确定冬季供暖系统负荷用室外综合计算温度的科学方法。

室外综合计算温度θ0与围护结构热特性、室外气象参数特性和要求的室温不保证率及其概率信度有关。因此,严格地讲,θ0要根据具体的房间转护结构热特性和气象参数的随机性,通过比较复杂的计算才能得到。已经研究出的随机气象模型[1]可提供计算θ0的基础气象数据,已开发的STOAN软件可以根据具体的建筑物计算出如图2、3、4、5那种形式的各种室温不保证率和概率信度下的室外综合计算温度。进一步的工作是将全国按气候特点分区,分别给出其随机气象模型,然后对各种房间按其窗墙比、朝向和轻、中、重型等因素分类,从而得到全国不同地区不同形式的房间在不同的概率信度和不同的室温不保证率下的供暖室外综合计算温度,此结果将以表格形式或简单的PC机软件形式给出,以便设计中使用。这些工作目前正在进行之中。

图4室温不保证率的概率分布(换气1h-1,南窗墙比25%)图5室温不保证率的概率分布(换气1h-1,南窗墙比50%)

概率计算篇9

关键词概率分析经济评价

中图分类号: TV文献标识码:A

一、概述

随着国民经济的发展,水利做为国民经济的基础产业越来越受到重视。在水利工程项目决策前的可行性研究和评价过程中,采用合适的经济评价方法,对拟建项目计算期内投入产出诸多经济因素进行调查、预测、研究、计算和论证,用于探索提高经济效益的途径和数学技巧,运用它,我们可以从众多的比较方案中,选择出一种最经济合理的方案,从而最大限度地提高项目投资效益。

水利工程项目是大型工程项目,具有投资大,周期长,技术复杂,且不可逆的特点。在进行建设之前对其进行经济评价显得尤为重要。而工程项目计划采用的数据,大多来自预测和估算、效益、费用和时间等都具有不确定性,这样在工程实施过程中将会存在许多不确定性因素,也就是说项目中存在巨大风险。为了弄清不确定因素对经济评价指标的影响,需进行不确定性分析,以判定工程方案在经济、财务上的可靠性。不确定性分析包括敏感性分析、概率分析和盈亏平衡分析。

盈亏平衡分析方法主要分析和评价产量、经营成本、收入与利润之间的制约关系,是一种静态分析方法。敏感性分析:是研究建设项目主要因素发生变化时,项目经济效益发生的相应变化,以判断这些因素对项目经济目标的影响。这些可能发生变化的因素即不确定性因素。进行敏感性分析的目的就是要找出项目的敏感因素,并确定其敏感程度,以预测项目承担的风险。敏感性分析法虽然可以用来研究各方面的不确定性对拟建项目的影响,指出项目经济评价指标对各种不确定因素的敏感程度,但敏感性分析也存在一些局限性:仅在进行多方案比较时,敏感性分析的结果才可成为项目取舍的依据。(2)各不确定因素的变化方向和变化范围实际上是不确定的,而敏感性分析没有给出它们发生的概率,由此而得出的有关项目风险的评价结论显然欠科学。(3)一个项目的不确定性因素往往有多个,每个不确定因素都要取出几个变化值来分别计算它们引起的内部收益率、净现值、贷款偿还期等指标的变化幅度,计算复杂。因此,仅用敏感性分析法还不能完全说明问题和指出风险所在,而概率分析法则起到补充作用,可进一步加强对风险的分析。在投资项目经济评价中,尤其在对风险大的投资项目经济评价中采用概率分析法,重视和加强对概率分析方法的应用,提高项目经济评价的科学性和可靠性,从而提高水利工程项目的风险管理水平。

二、概率分析方法

1、原理

概率分析是通过研究各种不确定性因素发生不同变动幅度的概率分布及其对项目经济效益指标的影响,对项目可行性和风险性以及方案优劣作出判断的一种不确定性分析法。概率分析常用于对大中型重要若干项目的评估和决策之中。

水利工程,无论灌溉、发电、防洪、治涝,其效益都与水文现象紧密联系着,由于水文现象的随机性,这就需要根据历史统计资料作出判断,给出各种水文值(或由水文值产生的其它数值)出现的概率,进行概率分析。概率分析一般包括两方面内容:

(1)计算并分析项目净现值、内部收益率等评价指标的期望值;

(2)计算并分析净现值大于、等于零,或内部收益率大于、等于社会折现率(或行业基准收益率)的累计概率。累计概率的数值越大(上限值为1),项目承担的风险越小。概率分析适用于国民经济评价和财务评价

2、概率分析法应用

例 某灌溉工程建设期2年,各年投资1000万元〈投资在各年末〉,由概率统计资料知灌溉工程年经济效益的概率如表1.

表1某工程经济效益与概率的关系

年效益(万元) 200 300 500 700 900

概率(%) 10 20 40 20 10

已知该灌溉工程的年运行费为50万元,社会折现率暂取7%,以施工开始为基准年,生产期为25年,故计算期为27年,求灌溉工程年效益的期望值、净现值的期望值、净现值大于或等于0时的累计概率。

表1可由统计数据的直方概率图(图1)得到。

图1 某工程经济效益概率直方图

解:(1)求年效益的期望值 :年效益的期望值可参照防洪工程的频率曲线法,也可用下列方法计算:

(2)求净现值的期望值。已知灌溉工程的年运行费用C'=500万元,由年效益S及其概率,先求净现值ENPV,再计算加权净现值ENPVP,最后求得 。

当S=200万元,概率P=0.1,累计概率∑P=0.l。

当S=300万元,概率P=0.2,累计概率∑P=0.3。

当S=500万元,概率P=0.4,累计概率∑P=0.7。

当B=700万元,概率P=0.2,累计概率∑P=0.9。

当S=900万元,概率P=0.1,累计概率∑P=l。

概率计算篇10

关键词:初等数学;概率和统计;教学方法

概率和统计是既有联系又有区别的两部分内容,就其内容而言,初等概率论属于数学思维的范畴,而描述性的统计学属于数学常识的范畴。中学“概率和统计”教学也只是初步传授概率思想和介绍数据的分析与描述。当然,概率论的教学能提供更多的培养数学思维的机会,而统计是不能离开思维而进行的,它对发展学生逻辑思维能力、提高运算能力、培养良好的个性品质等都有很大益处。更重要的是,它对于完成教学大纲的教学要求,学生今后的全面学习和走上社会从事劳动生产及研究现代技术都有很大帮助。

一、通过介绍数学史使学生明确学习概率和统计的意义

教学应从概率论的渊源讲起,如关于的概率论从16世纪就开始了,1797年第一次出现了统计这个词。历史上,帕斯卡、费尔马和贝努利都对统计学作出了开创性的贡献,但与研究确定性现象的数学问题相比它起步较晚,直到20世纪才作为一种数学思想和科学方法登入科学殿堂。教学时,应引导学生认识我国概率统计学科教育的现状,20世纪60年代大学数学系才有概率课,80年代以后才在理工大学普及,但也出现了许宝J这样驰名世界的数理统计学家。通过数学史的讲述,使学生明确学习概率统计基础知识的重要性,它是我们在日常生活和生产实践中经常用到的工具,也是今后进一步深入学习的基础。

二、发展学生的逻辑思维能力,提高学生的运算能力

“概率”部分中概念较多,公式规律性较强。教师应通过大量实例讲清它们的意义,使学生正确理解并准确区分概念,学会利用有关定义和公式计算事件的概率,掌握求解一些事件概率的方法。在统计部分主要和数据打交道,如计算很大数据的平均数、方差等,需要一定的计算能力和灵活的计算方法,应该引导学生选择最简便的方法,使学生熟悉数学工具的正确使用方法。

三、引导学生领会数学思想方法,形成数学观念

在众多数学问题中,随机性数学与确定性数学紧密联系。一方面,概率论的使用方法主要是确定性的数学方法,只是对推导出的结论作不同的解释。如初等概率论中的概率计算主要使用排列组合的计算方法,而将结果给予概率解释。另一方面,概率思想反过来推动确定性数学的发展,例如著名的蒙特卡洛方法就是用随机数学方法求确定性的数学问题,这些都可举例向学生阐述。

统计数据隐藏着概率特性,统计数字虽然枯燥,但有概率分析就活了起来。统计的任务是通过对样本分析来推断总体的特性。统计部分渗透了许多数学思想,如转化、比较、估计等。当数据较大且在一定位置上下波动时求平均数或方差,若用常规方法计算量大且较烦琐,因此可以“转化”为用简化公式的方法,通过对众数、中位数和平均数的“比较”,从不同角度描述一组数据的集中趋势,还可以通过样本平均数或方差来“估计”总体平均数或方差。

四、展现知识形成过程,激发学习兴趣

本章概念较多,而正确理解概念是准确解题的关键。如引入概率定义时,可举“生日问题”,与学生打赌,激发其学习兴趣。统计部分中涉及的问题与学生生活密切相关,如求数学平均成绩,比较两班学生成绩哪个班较好,计算商店销售额与纯利润相关程度等。这些问题学生都很感兴趣,都能主动阅读本章内容。教学时要充分利用课后的习题激发学生的求知欲,调动学生学习的积极性,从而使学生感到数学并非枯燥无味。本章教学若能注意到这一点,将会取得很好的教学效果。

五、引导学生透过偶然看必然