标签：大数据学习

Hbase性能优化娓娓道来涉及到表的设计 Rowkey的优化列族

一.表的设计默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。所以我们在建表的时……继续阅读 »

大数据

Java学习之集合 List Map 的学习框架学习笔记

Java学习之集合在Hadoop里面，接触最多的就是MapReduce框架，在Map里面就有Java里面集合的概念。Java里面的集合跟数组一样，都是可以看做容器，不同的是集合存放的是对象（对象类型可以不同），而数据是存放的数据基本类型。在集合的框架里面，常用的两个子接口分别是List和Set. List:可存放重复的元素，元素存储时有序的； Set:不……继续阅读 »

大数据

MapReduce实现网站用户流量统计自定义分组 MapReduce实现用户浏览网站统计

MapReduce实现网站用户流量统计网站的文件都会统计注册用户的流量信息，下面实现一个统计用户的上行流量，下行流量和总共使用流量。基本的思路还是通过map（获取日志中的一行数据，切分各个字段，抽取出我们需要的字段：手机号，上行流量，下行流量，然后封装成kv发送出去）,reduce（遍历values，然后进行累加求和再输出）和run类来处理，但是map中传……继续阅读 »

大数据

Hive的学习 Hive的数据类型以及与与shell的交互

今天学习了下Hive的知识，作为Hadoop生态圈中的成员，Hive确实简化了数据分析的过程。之前，我们使用MapReduce来分析文件的结果，都要编写Map,Reduce和Job类来得到最终的查询结果。但是有了Hive之后，我们可以非常方便的使用类似关系型数据库的sql语句来查询结构，说道底，在Hive中发起的一个sql查询，也是在调用MapReduce,……继续阅读 »

大数据

Job提交的流程以及Yarn的工作机制一览

在昨天的mapreduce代码里面有Job的类用于统一的资源调度。那么深挖一层，这个Job类的流程是怎样进行的呢？当我们执行job.waitforcompletion()时候，会启动一个进程Runjar,通过它与集群进行通信。首先，Runjar它会去找老大哥resouce manger申请执行一个job,老大哥同意后，返回一个job相关资源提交的路径(S……继续阅读 »

大数据

map编程 ,MapReduce实现统计过程的例子

之前在MapReduce原理里面提到的例子，今天用代码将其实现，并且剖行其过程。按照之前对那个统计的例子分析，我们将代码主要分为三块 map的过程；reduce的过程；统管调度的过程。因此，我们可以分别创建3个类WCMapper,WCReduce和WCJob. 首先，在Map的类里面，我们首先继承hadoop的父类mapper public class W……继续阅读 »

大数据

初探HDFS的实现机制,hdfs存储

当我们对文件进行处理的时候，那么是如何进行分布式访问的呢？如下图所示，当我们一个客户端想访问HDFS中的文件时候，HDFS会有一个写入的路径，这个在我们安装Hbase的时候，在配置文件中有配置。客户只会直接访问这个虚拟的路径，具体的数据读过程已被hadoop封装起来，所以，在代码实现的过程中，我们只需要告知这个虚拟路径即可。封装里面的过程包含这些动作,首……继续阅读 »

大数据

hadoop的核心：MapReduce原理

今天学习了下mapreduce的原理，毕竟这也算是hadoop的核心吧。在处理海量数据的时候（数据文件较大），比如有很多个T（几个甚至上百个T)的文件，可以考虑放在HDFS上，比如HDFS有50个节点，每个节点挂在8T的硬盘，那么从存储角度来看是完全满足了。但是这样也产生一个问题，数据都被分散在 HDFS的各个机器上，如果需要统计数据的话，需要从各个机器分……继续阅读 »

大数据

使用Java对Hbase进行基本操作

安装好Hadoop+Hbase后，终于可以玩玩大数据了。今天先研究下在Java中对Hbase的基本操作，在Hbase shell中可以对数据进行增删改查的动作，同样使用Java也可以进行这些操作； 1.在Myeclipse中新建一个工程 Nathon_Hbase； 2.导入Hbase所依赖的jar包，可以拷贝安装Hbase时候lib下的所有jar包到自己的……继续阅读 »