• 淘宝搜索算法现状

    淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进: 一、算法模型 当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。 对于好的算法模型,首先需要考虑我们能够有哪些特征因子可以应用。比如在网页搜索中,算法模型基本就是按网页的重要性和相关性给网页计算一个分数,然后……
  • Facebook的Edgerank算法

    Edgerank 是几年前外界对Facebook Newsfeed上的新鲜事排序算法的称呼。 至于是怎么算的,这其实可以出成一道面试题,不妨以知乎为例。题目就是,你觉得应如何对知乎的新鲜事排序? 具体问题描述: 知乎用户刘看山,他关注了100个人,30个专栏,10个话题。在他打开知乎的一瞬间,将有100个最新动态等着他,你要怎么给这100个新鲜事排序? 当然,作为知乎官方,你掌握着几乎所有知乎用户的信息,包括刘看山的。他经常给谁点赞,经常关注哪个话题下面的问题,这些你都知道。 哦,对了,你只有50毫秒时间。超过50毫秒刘看山就会不耐烦了。……
  • code123
    10个基础实用算法及其讲解

    10个基础实用算法及其讲解

    算法一:快速排序算法 快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需……
  • code123
    字符串匹配算法(2) KMP算法

    字符串匹配算法(2) KMP算法

    字符串匹配 是计算机的基本任务之一。 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD……
  • code123
    字符串匹配算法(1) Boyer-Moore算法

    字符串匹配算法(1) Boyer-Moore算法

    上一篇文章,我介绍了 KMP算法 。 但是,它并不是效率最高的算法,实际采用并不多。各种文本编辑器的"查找"功能(Ctrl+F),大多采用 B……
  • code123
    TF-IDF与余弦相似性的应用3:自动摘要

    TF-IDF与余弦相似性的应用3:自动摘要

    有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章……
  • code123
    TF-IDF与余弦相似性的应用2:找出相似文章

    TF-IDF与余弦相似性的应用2:找出相似文章

    上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似……
  • code123
    TF-IDF与余弦相似性的应用1:自动提取关键词

    TF-IDF与余弦相似性的应用1:自动提取关键词

    这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase ext……
  • code123
    相似图片搜索的原理(二)

    相似图片搜索的原理(二)

    二年前,我写了 《相似图片搜索的原理》 ,介绍了一种最简单的实现方法。 昨天,我在 isnowfy 的网站看到,还有其他两种方法也很简单,……
  • code123
    相似图片搜索的原理(一)

    相似图片搜索的原理(一)

    上个月,Google把 "相似图片搜索" 正式放上了首页。 你可以用一张图片,搜索互联网上所有与它相似的图片。点击 搜索框 中照相机的图标……
  • code123
    基于用户投票的排名算法6:贝叶斯平均

    基于用户投票的排名算法6:贝叶斯平均

    上一篇介绍了“威尔逊区间”,它解决了投票人数过少、导致结果不可信的问题。 举例来说,如果只有 2 个人投票,”威尔逊区间”的下限值会将赞……
  • code123
    基于用户投票的排名算法5:威尔逊区间

    基于用户投票的排名算法5:威尔逊区间

    迄今为止,这个系列都在讨论,如何给出“某个时段”的排名,比如”过去 24 小时最热门的文章”。 但是,很多场合需要的是“所有时段”的排名,……
  • code123
    基于用户投票的排名算法4:牛顿冷却定律

    基于用户投票的排名算法4:牛顿冷却定律

    这个系列的前三篇,介绍了 Hacker News,Reddit 和 Stack Overflow 的排名算法。 今天,讨论一个更一般的数学模型。 这个系列的每篇文章……
  • code123
    基于用户投票的排名算法3:Stack Overflow

    基于用户投票的排名算法3:Stack Overflow

    Reddit 排名算法的特点是,用户可以投赞成票,也可以投反对票。也就是说,除了时间因素以外,只要考虑两个变量就够了。 但是,还有一些特……
  • code123
    基于用户投票的排名算法2:Reddit

    基于用户投票的排名算法2:Reddit

    Hacker News 排名算法的特点是用户只能投赞成票,但是很多网站还允许用户投反对票。就是说,除了好评以外,你还可以给某篇文章差评。 Re……