写在最前:
1.
http://www.swazzy.com/docs/hadoop/index.php可以输入hadoop类, 查看它的UML关系图.
2.
https://issues.apache.org/jira/browse/MAPREDUCE-279 Hadoop Map-Reduce 2.0(Yarn)的架构文档,详细说明等.
2013.07.14 LeaseManager--文件写入时中断, 各数据节点需要进行那些操作, 找到写入数据最少的节点, 提交到NameNode, 详细看类说明.
2013.08.08 HDFS portion of ZK-based FailoverController 基于zookeeper的自切换Namenode的active与standy状态, https://issues.apache.org/jira/browse/HDFS-2185 有详细的设计文档.这里有一篇翻译文档,
http://blog.csdn.net/chenpingbupt/article/details/7922042, 角色像下面:
个人理解: 整个流程就像控制多个坦克打仗,攻击一个目标有一辆坦克发炮就行, 如果接收指令的坦克没发炮, 那么就要由其它备用坦克来打,HealthMonitor就像是坦克操作员, 负责检查坦克是不是可以打炮, ActiveStandbyElector就像时刻将坦克现状发送给指挥系统, 接收系统指令, 把它转给指挥官ZKFailoverController(4.3版本为abstract类, 具体实现DFSZKFailoverController与MRZKFailoverController), 由指挥官来决定来发炮与否及将结果或等待状态由ActiveStandbyElector回馈给指挥系统.
2013.08.09 INodeDirectory中children使用new ArrayList<INode>(5), 因为INode实现Comparable<byte[]>接口, compareTo(byte[] .)对比INode的name(getBytes("UTF8")), 向dir下加入增加文件时, 调用INodeDirectory.addChild()方法, 利用Collections中的static <T> int binarySearch(List<? extends Comparable<? super T>> list, T key) 查找要插入的下标, binarySearch的前提是list已经sort过.
推导:name名称不宜长, 目录下内容不宜多, 查找特定目录下耗时log(o).
疑问:INodeDirectory child为什么用List而不用Set呢?
2013.08.10
Understanding Hadoop Clusters and the Network:
http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/从将文件写入到hdfs开始, 准备写文件(存放数据应该考虑的拓扑结构(Rack Awareness), 写文件过程中, 写完后, Job 运行Map/Reduce, 因为新增服务器致使的数据不均衡及均衡工具.
Writing Files to HDFS,
,
Hadoop Rack Awareness,
,
Preparing HDFS Writes,
,
HDFS Write Pipeline,
,
HDFS Pipeline Write Success,
,
HDFS Multi-block Replication Pipeline,
,
NameNode Heartbeats,
,
Re-replicating Missing Replicas(有数据复本丢失时),
,
Client Read from HDFS,
,
Data Node reads from HDFS,
,
Map Task,
,
What if Map Task data isn’t local?
,
Reduce Task computes data received from Map Tasks,
,
Unbalanced Hadoop Cluster,
,
Hadoop Cluster Balancer,
,
分享到:
相关推荐
Hadoop及源码 Hadoop及源码 Hadoop及源码 Hadoop及源码
win 7 64上编译 Hadoop 2.7.3 源码 的真实经历。
hadoop源码,官方,放心下载,完整版,阅读hadoop源代码的目的不一定非是工作的需要,你可以把他看成一种修养,通过阅读hadoop源代码,加深自己对分布式系统的理解,培养自己踏实做事的心态。
包含hadoop2.6.0源码和eclipse开发hadoop所用插件,下载即可用。
实战hadoop,源码,刘鹏,开启通向云计算的捷径
hadoop源码
文件是hadoop 2.5.2源码,从官方网站下载的,供国内访问不正常的同学下载
hadoop 2.7.2 的底层源码包。Welcome to Apache™ Hadoop®!
根据官网maven结构源码自动生成zip源码包,请放心使用
Hadoop源码分析(完整版),详细分析了Hadoop源码程序,为学习Hadoop的人提供很好的入门指导
IT十八掌第三期配套课堂笔记 Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager...
Hadoop rpc源码是从Hadoop分离出的ipc,去掉了认证部分,附录使用文档.使用前请add lib包commons-logging-*.*.*.jar(我用的是1.0.4)和log4j-*.*.*.jar(我的1.2.13) 相关blog post: ...
Ubuntu16.04+Eclipse neon.1+maven3.3.9成功导入的Hadoop2.7.3全部源码工程文件,已解决了全部的报错
hadoop2.7.3的源码包,hadoop关联源码的时候直接选择就可以查看源码。是自己通过mvn下载的源码之后压缩的。
Hadoop2.7.1源码(可直接导入Eclipse)
基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书...
hadoop 3.3.2源码包
非常详细的linux上的hadoop集群搭建文档,可供参考,希望大家能够从中获益
hadoop集群安装笔记,我个人在自己的本机虚拟3台机器,搭建hadoop的学习环境,在安装过程中,出现这样那样的问题,并记录下来分享给大家,希望都新手有帮助。