• code123
    “推荐系统”精品资料合集

    “推荐系统”精品资料合集

    推荐系统的搭建是个复杂工程,涉及到实时计算、离线计算,以及各种数据采集、流转等,对自建推荐系统来说,更是很有困难。云栖社区将在6……
  • code123
    如何构建一个高效的数据科学部门

    如何构建一个高效的数据科学部门

    ETL - Extract Transform Load 抽取 转换加载,代表从源数据清洗加工到数据仓库的过程。 这篇文章在Hacker News转载后产生很热烈的讨论……
  • code123
    我们对人工智能的10大误解

    我们对人工智能的10大误解

    自从20年前深蓝(Deep Blue)在国际象棋中击败卡斯帕罗夫(Garry Kasparov),该事件就被人们誉为机器智能最权威的证明。谷歌的AlphaGo已经……
  • 我所理解的大数据个性化推荐

    一、写在之前的题外话 缘起。 想起要写这篇文章,一方面是昨天终于把项亮写的《推荐系统实践》给看完了,另一方面是自己负责的推荐系统项目已经处于一个多版本迭代的阶段了,并且从最近的AB测试效果来看,新提交的算法模型还是有一定的进步的,如今已经把流量全部切换到了新算法中。 所以,结合看书的一些思考,以及实际操作的一些感想,总是有一些想要表达、分享的东西,不吐不快啊~~ 哈哈! 不过在说个性化推荐之前,说两个题外话。 首先就是关于看书这个话题,我在《这些年,这些挖掘机算法,这些反思》一文中,曾经说到。看书是提升……
  • 推荐系统的那点事

    推荐系统的误区 回想起来,我也算是国内接触推荐系统较早的人之一了,最近和人聊天,觉得不少人对推荐系统有所误解,以为需要多么高大上的算法才能搭建起来的,我只想说我经常说的那句话【不是这样的】,所以有了这篇文章。 第一次接触【推荐系统】是在两年前在某高校的互联网信息处理实验室的时候,那时候,【机器学习】和【大数据】都是新概念,但是差不多半年后,【大数据】的概念就开始风靡全球了,到现在已经被爆炒得面目全非。 那年还因此买了一本项亮的书《推荐系统实践》,那本书和现在的很多热门书籍一样,都是跟着概念热起来……
  • 计算广告与推荐系统的区别?

    在Facebook工作的时候做的是newsfeed ranking (新鲜事排序),算是一种推荐系统吧,而且newsfeed中也包含了广告(Feed Ads)。说说我的理解。 结论:推荐系统和计算广告是不同维度上的概念。推荐系统是一种技术,广告是一项业务。个性化推荐可以用在广告中,更可以用在别的产品层面。同时,个性化推荐只是计算广告的一个环节,一个完整的广告系统还需要其他很多重要的技术组件。 0. 个性化推荐在广告之外的很多产品层面都有应用 几个常见的应用领域: 有机内容(organic content)的筛选与排序: Facebook,知乎,今日头条的新鲜事都是个……
  • code123
    数据的秘密(下) – 如何分析数据

    数据的秘密(下) – 如何分析数据

    前言 数据的秘密(上)中,我们介绍了为什么要关注数据,在本文中我将分享具体如何做。 关注宏观和细节 大多数人都能做到关注宏观的数据,……
  • 数据的秘密(上) – 为什么要关注数据

    前言 由于科技的进步,以及数据「数字化」地存储,使得现代人类可以获得海量的数据。而有了这些海量的数据之后,借助于一些数据分析工具和方法,我们就可以从数据中找到社会运行的「秘密」。 在工作中,借助这些「秘密」,我们有可能发现商业中的新机会,也可能验证或推翻自己的一些猜想。数据分析,使得我们对「秘密」的探索有了一个可靠的方法。 在本文中,我想分享一下工作中学到的发现数据中秘密的心得。 稻盛和夫的故事 我们先看看 稻盛和夫 挽救日航的故事吧。他的这段传奇经历曾经被很多媒体报道,我将故事摘要如下: 2010 年 1 ……
  • 「专治不明觉厉」之“云计算”

    云计算(Cloud Computing) 云计算这个名词来自于Google,而最早的云计算产品来自于Amazon。有意思的是,Google在2006年正式提出云计算这个名词的时候,Amazon的云计算产品AWS(Amazon Web Service)已经正式运作差不多4年了。因此,有人认为,Google对云计算的最大贡献是为它起了个好名字,Amazon才是云计算的真正开拓者。 云计算是一个新名词,却不是一个新概念。云计算这个概念从互联网诞生以来就一直存在。很久以前,人们就开始购买服务器存储空间,然后把文件上传到服务器存储空间里保存,需要的时候再从服务器存储空间里把文件下……
  • 「专治不明觉厉」之“大数据”

    大数据(Big Data) 大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。 大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结构化数据(如文本、图像、声音、视频等数据)。这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成。在大……
  • code123
    大数据生态及其技术栈

    大数据生态及其技术栈

    如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工……
  • kafka学习笔记总结

    用Apache Kafka构建流数据平台的建议 限制集群数量 简化数据流:将各个系统间的互联改为以流数据平台为中心 指定一种数据格式:遵循同一种数据规范可以避免数据生产者和消费者不必要的数据适配工作 共享事件模式:为常见事件流指定通用模式 具体数据类型建模:纯数据流,应用程序日志,系统指标,hadoop数据加载等待。。。 流处理:数据系统之间以流的方式传递数据,将各部分系统解耦,同时起到缓冲区作用。 Kafka设计目标 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能 高吞吐率。即……
  • 概率论14 “概率论”总结

    终于写完 概率论 部分的内容。写一个总结,同时算是导读(似乎有些偷懒)。这两天花了些时间,对原文进行修订。自己预期的目标,是将概率论的理论和编程结合起来。这里选择的编程工具是Python和一些第三方的包。我看过一些概率的书籍。有一些在数学上处理得好,但太偏重于纯粹数学;概率和编程结合的书,又过“实用”,没有把概率论的数学本质讲清楚。理论是最好的实用。为什么不能把简洁优美的数学理论和同样美妙的编程合在一起呢?有了这个疑问,也就有了这一系列文章的探索。 回头看看,Python在统计概率方面还无法完全和R语言比拟。……
  • code123
    概率论13 中心极限定律

    概率论13 中心极限定律

    在整个概率论中,核心的问题是随机变量的分布。正如我们在离散分布和连续分布中看到的,分布有许多种类。更夸张的是,在满足概率公理的前……
  • code123
    概率论12 矩与矩生成函数

    概率论12 矩与矩生成函数

    我们重新回到对单随机变量分布的研究。描述量是从分布中提取出的一个数值,用来表示分布的某个特征。 之前使用了两个描述量,即期望和方……