Hadoop – 王子健-Blog

任务提交前置操作: ↓ 自定义wordcount程序中的Job提交 System.exit(job.wait […]

NameNode格式化源码获取运行NameNode指令重新生成集群信息执行格式化操作 org.apach […]

RPC应用 Hadoop 系统中主要组件使用 RPC 进行通信的场景，涵盖客户端、NameNode、DataN […]

参数调优数据输入阶段（1）合并小文件：在执行MR任务前将小文件进行合并，大量的小文件会产生大量的Map任务 […]

参考: https://www.cnblogs.com/zsql/p/13969179.html yarn优化 […]

hadoop3.X-纠删码比较适用于使用CPU资源代替存储空间不足的场景。异构存储 todo 异构存储查 […]

节点白名单白名单的权力>黑名单写入到黑名单中且不存在白名单中的节点为退役中状态：等数据同步完成之后 […]

namenode多目录 datanode多目录，扩容后数据均衡比如说datanode所在的目录满了，添加新的 […]

HDFS读写压测针对HDFS 的读写性能进行测试写入压测 hadoop jar share/hadoop/ […]

高可用架构 RM可以选择嵌入基于 Zookeeper 的 ActiveStandbyElector，以决定哪个 […]

调度器的类型在Yarn中有三种调度器可以选择：FIFO Scheduler ，Capacity Schedu […]

队列的定义 YARN 队列类似于工作负载的逻辑分类器，它将集群中的资源分配给不同的用户或应用程序。每个队列可以 […]

参考： https://www.cnblogs.com/liangzilx/p/14837562.html h […]

参考： https://blog.csdn.net/qq_37933018/article/details/1 […]

前置流程：文件大小评估文件格式评估 block块（物理划分） split分片（逻辑划分）首先会获取切片信 […]

不同的分区由不同的reduce来处理，比如： reduce1 只拉取136号段的分区。 reduce2 只拉 […]

Job的创建切片机制 split计算公式：finalSplitSize=max(minSize,min(ma […]

分治一定是要基于大量的数据场景！ MR思想基于HDFS分布式系统的分布式计算引擎，将计算分布在各个不同的 […]

存储形式行式存储适合事务型应用：行式存储对于频繁进行更新和插入操作的事务型应用非常有效，因为每次操作只需要 […]

参考： https://hadoop.apache.org/docs/r3.4.0/hadoop-projec […]

分类目录归档：Hadoop