Hadoop ecosystem 生态圈

Cascading: hadoop上面的workflowSqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递 2) Nutch,互联网数据及Nutch搜索引擎应用3) HDFS,Hadoop
3次阅读

Kudu:支持快速分析的新型Hadoop存储系统

Kudu 是 Cloudera 开源的新型列式存储系统,是 Apache Hadoop 生态圈的新成员之一( incubating ),专门为了对快速变化的数据进行快速的分析,填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景,以及架构进行简单介绍。背景——功能上的空白&nb
5次阅读

Hadoop 集群搭建 mark

Hadoop 集群搭建原创2016-09-24杜亦舒性能与架构性能与架构性能与架构微信号yogoup功能介绍网站性能提升与架构设计目标在3台服务器上搭建 Hadoop2.7.3 集群,然后测试验证,要能够向 HDFS 上传文件,并成功运行 mapreduce 示例程序搭建思路(1)准备基础设施准备3
6次阅读

使用Docker在本地搭建Hadoop分布式集群

 学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法:要么找多台机器来部署(常常找不到机器)或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……)。那么,问题来了!有没有更有可行性的办法?提到虚拟化,Docker最近
5次阅读

hadoop_百科

一、发音是:[hædu:p]。二、简介:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)
7次阅读

量化派基于Hadoop、Spark、Storm的大数据风控架构--转

原文地址:http://www.csdn.net/article/2015-10-06/2825849量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人用户展示经济财务等状况,撮合金融机构为用户提供最优质的贷款服务。金融的本质是风
10次阅读

Hadoop工作流引擎之Azkaban与Oozie对比(四)

Azkaban是什么?(一)Azkaban的功能特点(二)Azkaban的架构(三)   不多说,直接上干货!http://www.cnblogs.com/zlslch/category/938837.html    目前,市面上最流行的两种Hadoop工作流引擎调度器
22次阅读

Hadoop工作流不足(六)

   不多说,直接上干货!   为此,需要第三方框架。如Azkaban或Oozie!   Azkabanhttps://azkaban.github.io/      具体,见我的博客,Azkaban概念学习系
6次阅读

Windows平台下安装Eclipse插件,开发Hadoop应用

Windows平台下安装Eclipse插件,开发Hadoop应用欢迎和大家交流技术相关问题:邮箱: jiangxinnju@163.com博客园地址: http://www.cnblogs.com/jiangxinnjuGitHub地址: https://github.
12次阅读

Hadoop 2.x

Hadoop 2.x 生态系统及技术架构图一、负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大)二、负责存储数据的工具:HBaseMongoDBCassandraAccumuloMySqlOracl
11次阅读