-
1 视频
-
2 章节测验
统计学进路的语义处理方式
基于统计学的自然语言处理概论,这一思想的代表人物:大卫·休谟(David Hume,公元1711年4月26日—公元1776年8月25日),苏格兰不可知论哲学家、经济学家、历史学家,被视为是苏格兰启蒙运动以及西方哲学历史中最重要的人物之一。历史学家们一般将休谟的哲学归类为彻底的怀疑主义,但一些人主张自然主义也是休谟的中心思想之一。研究休谟的学者经常将其分为那些强调怀疑成分的(例如逻辑实证主义),以及那些强调自然主义成分的人。
大卫·休谟
先验概率:事情本身发生的概率
后验概率:某事发生后,与这件事相关的某件事发生的概率
大卫·休谟的核心思想在于,脱离了后验概率的说话方式,讨论因果关系是没有意义的。在因果推理中根本没有必然的概念。
翻译是否准确,用概率学的语言表达是在源语言表达式已经被给定的情况下,目标语言出现的后验概率是否足够高。
贝叶斯公式
贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
贝叶斯公式又被称为贝叶斯定理、贝叶斯规则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。
所谓贝叶斯公式,是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。但行为经济学家发现,人们在决策过程中往往并不遵循贝叶斯规律,而是给予最近发生的事件和最新的经验以更多的权值,在决策和做出判断时过分看重近期的事件。面对复杂而笼统的问题,人们往往走捷径,依据可能性而非根据概率来决策。这种对经典模型的系统性偏离称为“偏差”。由于心理偏差的存在,投资者在决策判断时并非绝对理性,会行为偏差,进而影响资本市场上价格的变动。但长期以来,由于缺乏有力的替代工具,经济学家不得不在分析中坚持贝叶斯法则。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。
作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。
贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。
其中P(A|B)是在B发生的情况下A发生的可能性。
为完备事件组,即
在贝叶斯法则中,每个名词都有约定俗成的名称:
Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。
按这些术语,Bayes法则可表述为:
后验概率 = (似然度 * 先验概率)/标准化常量 也就是说,后验概率与先验概率和似然度的乘积成正比。
另外,比例Pr(B|A)/Pr(B)也有时被称作标准似然度(standardised likelihood),Bayes法则可表述为:
后验概率 = 标准似然度 * 先验概率。