Yarn相关源码
任务提交 前置操作: ↓ 自定义wordcount程序中的Job提交 System.exit(job.wait […]
任务提交 前置操作: ↓ 自定义wordcount程序中的Job提交 System.exit(job.wait […]
NameNode格式化源码 获取运行NameNode指令 重新生成集群信息 执行格式化操作 org.apach […]
RPC应用 Hadoop 系统中主要组件使用 RPC 进行通信的场景,涵盖客户端、NameNode、DataN […]
参数调优 数据输入阶段 (1)合并小文件:在执行MR任务前将小文件进行合并,大量的小文件会产生大量的Map任务 […]
参考: https://www.cnblogs.com/zsql/p/13969179.html yarn优化 […]
hadoop3.X-纠删码 比较适用于使用CPU资源代替存储空间不足的场景。 异构存储 todo 异构存储 查 […]
节点白名单 白名单的权力>黑名单 写入到黑名单中且不存在白名单中的节点为退役中状态: 等数据同步完成之后 […]
namenode多目录 datanode多目录,扩容后数据均衡 比如说datanode所在的目录满了,添加新的 […]
HDFS读写压测 针对HDFS 的读写性能进行测试 写入压测 hadoop jar share/hadoop/ […]
高可用架构 RM可以选择嵌入基于 Zookeeper 的 ActiveStandbyElector,以决定哪个 […]
调度器的类型 在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Schedu […]
队列的定义 YARN 队列类似于工作负载的逻辑分类器,它将集群中的资源分配给不同的用户或应用程序。每个队列可以 […]
参考: https://www.cnblogs.com/liangzilx/p/14837562.html h […]
参考: https://blog.csdn.net/qq_37933018/article/details/1 […]
前置流程: 文件大小评估 文件格式评估 block块(物理划分) split分片(逻辑划分) 首先会获取切片信 […]
不同的分区由不同的reduce来处理,比如: reduce1 只拉取136号段的分区 。 reduce2 只拉 […]
Job的创建 切片机制 split计算公式:finalSplitSize=max(minSize,min(ma […]
分治 一定是要基于大量的数据场景! MR思想 基于HDFS分布式系统的分布式计算引擎, 将计算分布在各个不同的 […]
存储形式 行式存储 适合事务型应用:行式存储对于频繁进行更新和插入操作的事务型应用非常有效,因为每次操作只需要 […]
参考: https://hadoop.apache.org/docs/r3.4.0/hadoop-projec […]