• code123
    MIT牛人解说数学体系

    MIT牛人解说数学体系

    为什么要深入数学的世界 作为计算机的学生,我没有任何企图要成为一个数学家。我学习数学的目的,是要 想爬上巨人的肩膀,希望站在更高的……
  • code123
    理解矩阵背后的现实意义

    理解矩阵背后的现实意义

    线性代数课程,无论你从行列式入手还是直接从矩阵入手,从一开始就充斥着莫名其妙。比如说,在全国一般工科院系教学中应用最广泛的同济线……
  • code123
    谷歌背后的数学

    谷歌背后的数学

    一. 引言 在如今这个互联网时代, 有一家公司家喻户晓——它自 1998 年问世以来, 在极短的时间内就声誉鹊起, 不仅超越了所有竞争对手, ……
  • code123
    数学之美(24):从全球导航到输入法——谈谈动态规划

    数学之美(24):从全球导航到输入法——谈谈动态规划

    动态规划和我们的拼音输入法又有什么关系呢?其实我们可以将汉语输入看成一个通信问题,而输入法则是一个将拼音串到汉字串的转换器。每一……
  • 数学之美(23):输入一个汉字需要敲多少个键 — 谈谈香农第一定律

    如果我们把汉字组成词,再以词为单位统计信息熵,那么,每个汉字的平均信息熵将会减少。这样,平均输入一个字可以少敲零点几次键盘。不考虑词的上下文相关 性,以词为单位统计,汉字的信息熵大约是8 比特作用,也就是说,以词为单位输入一个汉字平均只需要敲 8/4.7=1.7 次 今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上分析一下,输入汉字到底能有多快。 我们假定常用的汉字在二级国标里面,一共有 6700 个作用的汉字。如果不考虑汉字频率的分布,用键……
  • code123
    数学之美(22):由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

    数学之美(22):由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

    不管怎么样,我们今天用的所谓最可靠的加密方法的数学原理其实就这么简单,一点也不神秘,无非是找几个大素数做一些乘除和乘方运算就可以……
  • code123
    数学之美(21):布隆过滤器(Bloom Filter)

    数学之美(21):布隆过滤器(Bloom Filter)

    布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是,它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判……
  • 数学之美(20):自然语言处理的教父 马库斯

    马库斯利用自己的影响力让美国自然科学基金会和 DARPA 出钱立项,建立的数百个标准的语料库。其中最著名的是 PennTree Bank 的语料库。PennTree Bank 覆盖多种语言。每一种语言,它有几十万到几百万字的有代表性的句子,每个句子都有的词性标注,语法分析树等等。 我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作……
  • code123
    数学之美(19):马尔可夫链的扩展—贝叶斯网络(Bayesian Networks)

    数学之美(19):马尔可夫链的扩展—贝叶斯网络(Bayesian Networks)

    贝叶斯网络在图像处理、文字处理、支持决策等方面有很多应用。在文字处理方面,语义相近的词之间的关系可以用一个贝叶斯网络来描述。我们……
  • code123
    数学之美(18):矩阵运算和文本处理中的分类问题

    数学之美(18):矩阵运算和文本处理中的分类问题

    在文本分类中,另一种办法是利用矩阵运算中的奇异值分解(Singular Value Decomposition,简称 SVD) 。现在让我们来看看奇异值分解是怎么……
  • code123
    数学之美(17):闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

    数学之美(17):闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

    搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊……
  • code123
    数学之美(16):不要把所有的鸡蛋放在一个篮子里—谈谈最大熵模型

    数学之美(16):不要把所有的鸡蛋放在一个篮子里—谈谈最大熵模型

    最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设……
  • 数学之美(15):繁与简-自然语言处理的几位精英

    柯林斯从师于自然语言处理大师马库斯,现任麻省理工学院副教授(别看他是副教授,他的水平在当今自然语言处理领域是数一数二的),博士期间,柯林斯写了一 个后来以他名字命名的自然语言文法分析器 (sentence parser),可以将书面语的每一句话准确地进行文法分析。 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的……
  • code123
    数学之美(14):谈谈数学模型的重要性

    数学之美(14):谈谈数学模型的重要性

    1. 一个正确的数学模型应当在形式上是简单的。 2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是……
  • 数学之美(13):信息指纹及其应用

    信息指纹的用途远不止网址的消重,信息指纹的的孪生兄弟是密码。信息指纹的一个特征是其不可逆性, 也就是说, 无法根据信息指纹推出原有信息,这种性质, 正是网络加密传输所需要的。比如说,一个网站可以根据用户的Cookie 识别不同用户,这个 cookie 就是信息指纹。 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。 我们在图论和网络爬虫一文中提到,为了防止重……