hive存储优化与压缩
hive生产环境下时常是采用orc或者parquet这2种存储格式,但最好是做好统一,别一个数仓里的表存储格式 […]
hive生产环境下时常是采用orc或者parquet这2种存储格式,但最好是做好统一,别一个数仓里的表存储格式 […]
exlplain 分区表优化 分桶表优化 join时的字段如果是桶字段,会减少join的数据量,减少笛卡尔积量 […]
SerDe作用 SerDe是Serializer、Deserializer的简称,目的是用于序列化和反序列化。 […]
查看函数 — 查看函数 show functions like '*parse*'; – […]
执行顺序 from > where > group(含聚合sum、min、max、avg、coun […]
Load加载数据 官方推荐使用Load命令加载数据加载到表中! 在将数据加载到表中时,Hive 不会进行任何转 […]
数据定义语言(data definition Language,DDL),对数据内部的对象结构进行创建,删除, […]
查看所有运算符 — 显示所有运算符 show functions ; — 查看函数说明 describe […]
大小写不敏感。 支持String。 复杂的数据类型通常需要和指定分隔符配合使用。 数据类型 hive中的数据类 […]
Hive元数据-Metadata 元数据(Metadata)描述数据的数据,比如电脑上的数据盘属性: hive […]
什么是Hive? Apache Hive是一种分布式容错数据仓库系统,可进行大规模分析。 Hive Metas […]
数据操作层-ODS 操作数据存储(Operation Data Store)数据源层、数据暂存层、临时缓存层。 […]
什么是数据仓库 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数 […]
任务提交 前置操作: ↓ 自定义wordcount程序中的Job提交 System.exit(job.wait […]
NameNode格式化源码 获取运行NameNode指令 重新生成集群信息 执行格式化操作 org.apach […]
RPC应用 Hadoop 系统中主要组件使用 RPC 进行通信的场景,涵盖客户端、NameNode、DataN […]
参数调优 数据输入阶段 (1)合并小文件:在执行MR任务前将小文件进行合并,大量的小文件会产生大量的Map任务 […]
参考: https://www.cnblogs.com/zsql/p/13969179.html yarn优化 […]
hadoop3.X-纠删码 比较适用于使用CPU资源代替存储空间不足的场景。 异构存储 todo 异构存储 查 […]
节点白名单 白名单的权力>黑名单 写入到黑名单中且不存在白名单中的节点为退役中状态: 等数据同步完成之后 […]