标签：大数据技术

Hbase实现表的数据迁移

在Hbase中因为没有像关系型数据库那样可以直接用sql进行表间的数据迁移。因此，我们采用MapReduce来处理下量表间的数据迁移。首先，我们在Hbase shell中先创建一张测试表tab1，往里面插入两条测试数据，rowkey分别为rk00，rk00001。然后，我们也新建另外一张表tab2,列簇跟tab1一样。接下来，编写MapReduce将tab……继续阅读 »

大数据

MapReduce实现网站用户流量统计自定义分组 MapReduce实现用户浏览网站统计

MapReduce实现网站用户流量统计网站的文件都会统计注册用户的流量信息，下面实现一个统计用户的上行流量，下行流量和总共使用流量。基本的思路还是通过map（获取日志中的一行数据，切分各个字段，抽取出我们需要的字段：手机号，上行流量，下行流量，然后封装成kv发送出去）,reduce（遍历values，然后进行累加求和再输出）和run类来处理，但是map中传……继续阅读 »

大数据

Hive的学习 Hive的数据类型以及与与shell的交互

今天学习了下Hive的知识，作为Hadoop生态圈中的成员，Hive确实简化了数据分析的过程。之前，我们使用MapReduce来分析文件的结果，都要编写Map,Reduce和Job类来得到最终的查询结果。但是有了Hive之后，我们可以非常方便的使用类似关系型数据库的sql语句来查询结构，说道底，在Hive中发起的一个sql查询，也是在调用MapReduce,……继续阅读 »

大数据

Job提交的流程以及Yarn的工作机制一览

在昨天的mapreduce代码里面有Job的类用于统一的资源调度。那么深挖一层，这个Job类的流程是怎样进行的呢？当我们执行job.waitforcompletion()时候，会启动一个进程Runjar,通过它与集群进行通信。首先，Runjar它会去找老大哥resouce manger申请执行一个job,老大哥同意后，返回一个job相关资源提交的路径(S……继续阅读 »

大数据

map编程 ,MapReduce实现统计过程的例子

之前在MapReduce原理里面提到的例子，今天用代码将其实现，并且剖行其过程。按照之前对那个统计的例子分析，我们将代码主要分为三块 map的过程；reduce的过程；统管调度的过程。因此，我们可以分别创建3个类WCMapper,WCReduce和WCJob. 首先，在Map的类里面，我们首先继承hadoop的父类mapper public class W……继续阅读 »

大数据

初探HDFS的实现机制,hdfs存储

当我们对文件进行处理的时候，那么是如何进行分布式访问的呢？如下图所示，当我们一个客户端想访问HDFS中的文件时候，HDFS会有一个写入的路径，这个在我们安装Hbase的时候，在配置文件中有配置。客户只会直接访问这个虚拟的路径，具体的数据读过程已被hadoop封装起来，所以，在代码实现的过程中，我们只需要告知这个虚拟路径即可。封装里面的过程包含这些动作,首……继续阅读 »

大数据

hadoop的核心：MapReduce原理

今天学习了下mapreduce的原理，毕竟这也算是hadoop的核心吧。在处理海量数据的时候（数据文件较大），比如有很多个T（几个甚至上百个T)的文件，可以考虑放在HDFS上，比如HDFS有50个节点，每个节点挂在8T的硬盘，那么从存储角度来看是完全满足了。但是这样也产生一个问题，数据都被分散在 HDFS的各个机器上，如果需要统计数据的话，需要从各个机器分……继续阅读 »

大数据

使用Java对Hbase进行基本操作

安装好Hadoop+Hbase后，终于可以玩玩大数据了。今天先研究下在Java中对Hbase的基本操作，在Hbase shell中可以对数据进行增删改查的动作，同样使用Java也可以进行这些操作； 1.在Myeclipse中新建一个工程 Nathon_Hbase； 2.导入Hbase所依赖的jar包，可以拷贝安装Hbase时候lib下的所有jar包到自己的……继续阅读 »