快乐学习 一个网站喵查铺子(catpuzi.com)全搞定~

标签:hadoop

大数据

MapReduce实现网站用户流量统计 自定义分组 MapReduce实现用户浏览网站统计

MapReduce实现网站用户流量统计 自定义分组  MapReduce实现用户浏览网站统计
MapReduce实现网站用户流量统计 网站的文件都会统计注册用户的流量信息,下面实现一个统计用户的上行流量,下行流量和总共使用流量。基本的思路还是通过map(获取日志中的一行数据,切分各个字段,抽取出我们需要的字段:手机号,上行流量,下行流量,然后封装成kv发送出去),reduce(遍历values,然后进行累加求和再输出)和run类来处理,但是map中传……继续阅读 »

大数据

hadoop的核心:MapReduce原理

hadoop的核心:MapReduce原理
今天学习了下mapreduce的原理,毕竟这也算是hadoop的核心吧。 在处理海量数据的时候(数据文件较大),比如有很多个T(几个甚至上百个T)的文件,可以考虑放在HDFS上,比如HDFS有50个节点,每个节点挂在8T的硬盘,那么从存储角度来看是完全满足了。但是这样也产生一个问题,数据都被分散在 HDFS的各个机器上,如果需要统计数据的话,需要从各个机器分……继续阅读 »