• code123
    Spark容错机制

    Spark容错机制

    引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过……
  • code123
    Hive on Spark详解

    Hive on Spark详解

    Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala……
  • code123
    Intel Spark应用优化和实践经验

    Intel Spark应用优化和实践经验

    【编者按】干货满满的2015 OpenStack技术大会、2015 Spark技术峰会、2015 Container技术峰会以实力赢得所有观众的认可。在Spark峰会上,……
  • code123
    Spark应用的GC调优实践

    Spark应用的GC调优实践

    Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛……
  • code123
    Spark生态系统中的分布式内存文件系统Tachyon

    Spark生态系统中的分布式内存文件系统Tachyon

    Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Sp……
  • code123
    Spark Streaming的数据可靠性和一致性

    Spark Streaming的数据可靠性和一致性

    眼下大数据领域最热门的词汇之一便是流计算了,其中最耀眼的项目无疑是来自Spark社区的SparkStreaming项目,其从一诞生就受到广泛关注并……
  • code123
    Spark SQL结构化数据分析

    Spark SQL结构化数据分析

    数据科学家们早已熟悉的R和Pandas等传统数据分析框架 虽然提供了直观易用的API,却局限于单机,无法覆盖分布式大数据场景。在Spark1.3.0……
  • 「专治不明觉厉」之“大数据”

    大数据(Big Data) 大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。 大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结构化数据(如文本、图像、声音、视频等数据)。这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成。在大……
  • code123
    大数据生态及其技术栈

    大数据生态及其技术栈

    如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工……
  • Spark RDD API详解(一) Map和Reduce

    RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍Spark RDD中与Map和Reduce相关的API中。 如何创建RDD? RDD可以从普通数组创建出来,也可以从文件系统或者HDFS中的文件创建出来。 举例:从普通数组创建……
  • code123
    Spark Streaming初探

    Spark Streaming初探

    了解Spark Streaming之前,建议先了解Spark,入门博文Spark初探 定义 Spark Streaming is an extension of the core Spark API that enab……
  • code123
    Spark初探

    Spark初探

    认识Spark Apache Spark is an open source cluster computing system that aims to make data analytics fast — both fast to run and f……