• code123
    Spark容错机制

    Spark容错机制

    引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过……
  • Spark 编程指南(官方文档)

    本文档由colobu翻译自Spark官方文档 Spark Programming Guide,当前版本是1.1.1。 简介 总的来说,每一个Spark的应用,都是由一个驱动程序(driver program)构成,它运行用户的main函数,在一个集群上执行各种各样的并行操作。Spark提出的最主要抽象概念是弹性分布式数据集 (resilient distributed dataset,RDD),它是元素的集合,划分到集群的各个节点上,可以被并行操作。RDDs的创建可以从HDFS(或者任意其他支持Hadoop文件系统) 上的一个文件开始,或者通过转换驱动程序(driver program)中已存在的Scala集合而来。用户也可以让Spar……
  • Spark 快速入门

    本教程快速介绍了Spark的使用。 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者Python编写独立程序。 你可以查看Spark编程指南了解完整的参考。 开始下面的快速入门之前,首先需要到Spark网站下载一份打包好的spark。 既然本教程中我们不使用HDFS,你可以随便下载一个适配任何Hadoop的版本的Spark。 本教程翻译时的Spark版本为1.1.1 使用Spark进行交互式分析 基本操作 Spark shell提供了一个简单方式去学习API,它也是一个交互式分析数据的强大工具。 你既可以使用Scala(运行在JVM……
  • code123
    Hive on Spark详解

    Hive on Spark详解

    Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala……
  • Spark编程指南(Python版)

    自开源之日至今,Spark已经5岁了。从2015年Spark Summit会议的火热程度与Haddoop Summit平分秋色可以看出,Spark在大数据处理领域已经站稳了脚跟,获得了越来越多的开发者关注,从Spark Summit国内外开发者分享的PPT中可以看到,Spark在国内外各大互联网公司都有较多的应用。但在我学习spark的过程中,发现Spark的相关参考文档基本都是英文。最近看到 @Cholerae从官网翻译了Spark编程指南Python版,特将其整理如下。 译者说在前面:最近在学习Spark相关的知识,在网上没有找到比较详细的中文教程,只找到了官网的教程。出于自己学习同……
  • code123
    Intel Spark应用优化和实践经验

    Intel Spark应用优化和实践经验

    【编者按】干货满满的2015 OpenStack技术大会、2015 Spark技术峰会、2015 Container技术峰会以实力赢得所有观众的认可。在Spark峰会上,……
  • code123
    Spark应用的GC调优实践

    Spark应用的GC调优实践

    Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛……
  • code123
    Spark生态系统中的分布式内存文件系统Tachyon

    Spark生态系统中的分布式内存文件系统Tachyon

    Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Sp……
  • code123
    Spark Streaming的数据可靠性和一致性

    Spark Streaming的数据可靠性和一致性

    眼下大数据领域最热门的词汇之一便是流计算了,其中最耀眼的项目无疑是来自Spark社区的SparkStreaming项目,其从一诞生就受到广泛关注并……
  • code123
    Spark SQL结构化数据分析

    Spark SQL结构化数据分析

    数据科学家们早已熟悉的R和Pandas等传统数据分析框架 虽然提供了直观易用的API,却局限于单机,无法覆盖分布式大数据场景。在Spark1.3.0……
  • Spark RDD API详解(一) Map和Reduce

    RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍Spark RDD中与Map和Reduce相关的API中。 如何创建RDD? RDD可以从普通数组创建出来,也可以从文件系统或者HDFS中的文件创建出来。 举例:从普通数组创建……
  • code123
    Spark Streaming初探

    Spark Streaming初探

    了解Spark Streaming之前,建议先了解Spark,入门博文Spark初探 定义 Spark Streaming is an extension of the core Spark API that enab……
  • code123
    Spark初探

    Spark初探

    认识Spark Apache Spark is an open source cluster computing system that aims to make data analytics fast — both fast to run and f……