• 关注公众号 喵查铺子 一键查题~

标签:大数据学习

Hbase性能优化娓娓道来 涉及到 表的设计 Rowkey的优化 列族

一.表的设计 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。所以我们在建表的时……

Java学习之集合 List Map 的学习 框架学习笔记

Java学习之集合 在Hadoop里面,接触最多的就是MapReduce框架,在Map里面就有Java里面集合的概念。Java里面的集合跟数组一样,都是可以看做容器,不同的是集合存放的是对象(对象类型可以不同),而数据是存放的数据基本类型。 在集合的框架里面,常用的两个子接口分别是List和Set. List:可存放重复的元素,元素存储时有序的; Set:不……

MapReduce实现网站用户流量统计 自定义分组 MapReduce实现用户浏览网站统计

MapReduce实现网站用户流量统计 网站的文件都会统计注册用户的流量信息,下面实现一个统计用户的上行流量,下行流量和总共使用流量。基本的思路还是通过map(获取日志中的一行数据,切分各个字段,抽取出我们需要的字段:手机号,上行流量,下行流量,然后封装成kv发送出去),reduce(遍历values,然后进行累加求和再输出)和run类来处理,但是map中传……

Hive的学习 Hive的数据类型 以及与与shell的交互

今天学习了下Hive的知识,作为Hadoop生态圈中的成员,Hive确实简化了数据分析的过程。之前,我们使用MapReduce来分析文件的结果,都要编写Map,Reduce和Job类来得到最终的查询结果。但是有了Hive之后,我们可以非常方便的使用类似关系型数据库的sql语句来查询结构,说道底,在Hive中发起的一个sql查询,也是在调用MapReduce,……

Job提交的流程以及Yarn的工作机制一览

在昨天的mapreduce代码里面有Job的类用于统一的资源调度。那么深挖一层,这个Job类的流程是怎样进行的呢? 当我们执行job.waitforcompletion()时候,会启动一个进程Runjar,通过它与集群进行通信。 首先,Runjar它会去找老大哥resouce manger申请执行一个job,老大哥同意后,返回一个job相关资源提交的路径(S……

map编程 ,MapReduce实现统计过程的例子

之前在MapReduce原理里面提到的例子,今天用代码将其实现,并且剖行其过程。按照之前对那个统计的例子分析,我们将代码主要分为三块 map的过程;reduce的过程;统管调度的过程。 因此,我们可以分别创建3个类WCMapper,WCReduce和WCJob. 首先,在Map的类里面,我们首先继承hadoop的父类mapper public class W……

初探HDFS的实现机制,hdfs存储

当我们对文件进行处理的时候,那么是如何进行分布式访问的呢? 如下图所示,当我们一个客户端想访问HDFS中的文件时候,HDFS会有一个写入的路径,这个在我们安装Hbase的时候,在配置文件中有配置。客户只会直接访问这个虚拟的路径,具体的数据读过程已被hadoop封装起来,所以,在代码实现的过程中,我们只需要告知这个虚拟路径即可。 封装里面的过程包含这些动作,首……

hadoop的核心:MapReduce原理

今天学习了下mapreduce的原理,毕竟这也算是hadoop的核心吧。 在处理海量数据的时候(数据文件较大),比如有很多个T(几个甚至上百个T)的文件,可以考虑放在HDFS上,比如HDFS有50个节点,每个节点挂在8T的硬盘,那么从存储角度来看是完全满足了。但是这样也产生一个问题,数据都被分散在 HDFS的各个机器上,如果需要统计数据的话,需要从各个机器分……

使用Java对Hbase进行基本操作

安装好Hadoop+Hbase后,终于可以玩玩大数据了。 今天先研究下在Java中对Hbase的基本操作,在Hbase shell中可以对数据进行增删改查的动作,同样使用Java也可以进行这些操作; 1.在Myeclipse中新建一个工程 Nathon_Hbase; 2.导入Hbase所依赖的jar包,可以拷贝安装Hbase时候lib下的所有jar包到自己的……