• 关注公众号 喵查铺子 一键查题~

标签:大数据技术

Hbase实现表的数据迁移

在Hbase中因为没有像关系型数据库那样可以直接用sql进行表间的数据迁移。因此,我们采用MapReduce来处理下量表间的数据迁移。 首先,我们在Hbase shell中先创建一张测试表tab1,往里面插入两条测试数据,rowkey分别为rk00,rk00001。然后,我们也新建另外一张表tab2,列簇跟tab1一样。接下来,编写MapReduce将tab……

MapReduce实现网站用户流量统计 自定义分组 MapReduce实现用户浏览网站统计

MapReduce实现网站用户流量统计 网站的文件都会统计注册用户的流量信息,下面实现一个统计用户的上行流量,下行流量和总共使用流量。基本的思路还是通过map(获取日志中的一行数据,切分各个字段,抽取出我们需要的字段:手机号,上行流量,下行流量,然后封装成kv发送出去),reduce(遍历values,然后进行累加求和再输出)和run类来处理,但是map中传……

Hive的学习 Hive的数据类型 以及与与shell的交互

今天学习了下Hive的知识,作为Hadoop生态圈中的成员,Hive确实简化了数据分析的过程。之前,我们使用MapReduce来分析文件的结果,都要编写Map,Reduce和Job类来得到最终的查询结果。但是有了Hive之后,我们可以非常方便的使用类似关系型数据库的sql语句来查询结构,说道底,在Hive中发起的一个sql查询,也是在调用MapReduce,……

Job提交的流程以及Yarn的工作机制一览

在昨天的mapreduce代码里面有Job的类用于统一的资源调度。那么深挖一层,这个Job类的流程是怎样进行的呢? 当我们执行job.waitforcompletion()时候,会启动一个进程Runjar,通过它与集群进行通信。 首先,Runjar它会去找老大哥resouce manger申请执行一个job,老大哥同意后,返回一个job相关资源提交的路径(S……

map编程 ,MapReduce实现统计过程的例子

之前在MapReduce原理里面提到的例子,今天用代码将其实现,并且剖行其过程。按照之前对那个统计的例子分析,我们将代码主要分为三块 map的过程;reduce的过程;统管调度的过程。 因此,我们可以分别创建3个类WCMapper,WCReduce和WCJob. 首先,在Map的类里面,我们首先继承hadoop的父类mapper public class W……

初探HDFS的实现机制,hdfs存储

当我们对文件进行处理的时候,那么是如何进行分布式访问的呢? 如下图所示,当我们一个客户端想访问HDFS中的文件时候,HDFS会有一个写入的路径,这个在我们安装Hbase的时候,在配置文件中有配置。客户只会直接访问这个虚拟的路径,具体的数据读过程已被hadoop封装起来,所以,在代码实现的过程中,我们只需要告知这个虚拟路径即可。 封装里面的过程包含这些动作,首……

hadoop的核心:MapReduce原理

今天学习了下mapreduce的原理,毕竟这也算是hadoop的核心吧。 在处理海量数据的时候(数据文件较大),比如有很多个T(几个甚至上百个T)的文件,可以考虑放在HDFS上,比如HDFS有50个节点,每个节点挂在8T的硬盘,那么从存储角度来看是完全满足了。但是这样也产生一个问题,数据都被分散在 HDFS的各个机器上,如果需要统计数据的话,需要从各个机器分……

使用Java对Hbase进行基本操作

安装好Hadoop+Hbase后,终于可以玩玩大数据了。 今天先研究下在Java中对Hbase的基本操作,在Hbase shell中可以对数据进行增删改查的动作,同样使用Java也可以进行这些操作; 1.在Myeclipse中新建一个工程 Nathon_Hbase; 2.导入Hbase所依赖的jar包,可以拷贝安装Hbase时候lib下的所有jar包到自己的……