• 数学之美(11):Google 阿卡 47 的制造者阿米特.辛格博士

    辛格在 AT & T 时确立了他在学术界的地位,但是,他不是一个满足于做实验写论文的人,于是他离开了实验室来到了当时只有百、十人的 Google。在这里,他得以施展才智,重写了 Google 的排名算法,并且一直在负责改进它。 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord of War)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。 我认为,在计算机中一……
  • code123
    数学之美(10):有限状态机和地址识别

    数学之美(10):有限状态机和地址识别

    使用有限状态机识别地址,关键要解决两个问题,即通过一些有效的地址建立状态机,以及给定一个有限状态机后,地址字串的匹配算法。好在这……
  • 数学之美(9):如何确定网页和查询的相关性

    现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用” 的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。] 我们还是看上回的例子,查找关于“原子能的……
  • 数学之美(8):贾里尼克的故事和现代语言处理

    贾里尼克在康乃尔十年磨一剑,潜心研究信息论,终于悟出了自然语言处理的真谛。贾里尼克和波尔,库克以及拉维夫对人类的另一大贡献是 BCJR 算法,这是今天数字通信中应用的最广的两个算法之一(另一个是维特比算法)。有趣的是,这个算法发明了二十年后,才得以广泛应用 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要……
  • 数学之美(7):信息论在信息处理中的应用

    信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity) 的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。 先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来……
  • code123
    数学之美(6):图论和网络爬虫(Web Crawlers)

    数学之美(6):图论和网络爬虫(Web Crawlers)

    图论中所讨论的的图由一些节点和连接这些节点的弧组成。隐含在文字背后的网址称为“ 超链接” ,有了超链接,我们可以从任何一个网页出发,……
  • 数学之美(5):布尔代数和搜索引擎的索引

    早期的文献检索查询系统大多基于数据库,严格要求查询语句符合布尔运算。今天的搜索引擎相比之下要聪明的多,它自动把用户的查询语句转换成布尔运算的算式。当然在查询时,不能将每篇文献扫描一遍,来看看它是否满足上面三个条件,因此需要建立一个索引。 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下……
  • code123
    数学之美(4):怎样度量信息?

    数学之美(4):怎样度量信息?

    信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量……
  • code123
    数学之美(3):隐含马尔可夫模型在语言处理中的应用

    数学之美(3):隐含马尔可夫模型在语言处理中的应用

    在利用隐含马尔可夫模型解决语言处理问题前,先要进行模型的训练。隐含马尔可夫模型在处理语言问题早期的成功应用是语音识别。  八十年……
  • 数学之美(2):谈谈中文分词

    一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学” 就不能被分成两个词。而在语音识别中,“北京大学” 一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。 谈谈中文分词—–  统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / ……
  • 数学之美(1):统计语言模型

    前言 也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。 系列一: 统计语言模型 (Statistical Language Models) Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、……
  • code123
    澳门纪实:赌场胜率揭秘

    澳门纪实:赌场胜率揭秘

    一来到澳门,就会发现这是一座名副其实的赌城,在这30多平方公里的弹丸之地上,遍布着十几家大型赌场,在码头、海关、机场外面的停车场上……
  • code123
    我们需要怎样的数学教育?

    我们需要怎样的数学教育?

    注:这篇文章里有很多个人观点,带有极强的主观色彩。其中一些思想不见得是正确的,有一些话也是我没有资格说的。我只是想和大家分享一下……
  • code123
    理解矩阵乘法

    理解矩阵乘法

    大多数人在高中,或者大学低年级,都上过一门课《线性代数》。这门课其实是教矩阵。 刚学的时候,还蛮简单的,矩阵加法就是相同位置的数……
  • code123
    朴素贝叶斯分类器的应用

    朴素贝叶斯分类器的应用

    生活中很多场合需要用到分类,比如新闻分类、病人分类等等。 本文介绍 朴素贝叶斯分类器 (Naive Bayesclassifier),它是一种简单有效……