Apache Hudi 如何加速传统批处理模式
发表于
|
分类于
technique
1. 现状说明
1.1 数据湖摄取和计算过程 - 处理更新
在我们的用例中1-10% 是对历史记录的更新。当记录更新时,我们需要从之前的 updated_date 分区中删除之前的条目,并将条目添加到最新的分区中,在没有删除和更新功能的情况下,我们必须重新读取整个历史表分区 -> 去重数据 -> 用新的去重数据覆盖整个表分区
1.2 当前批处理过程中的挑战
这个过程有效,但也有其自身的缺陷:
基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台
发表于
|
分类于
technique
Flink任务调度分析
发表于
|
分类于
technique
1. 概述
深入理解Flink-On-Yarn模式
发表于
|
分类于
technique
1. 前言
Flink 底层RPC框架分析
发表于
|
分类于
technique
1. 前言
MyBatis自动生成代码查询爬坑记
发表于
|
分类于
technique
前言
2017年度总结
发表于
|
分类于
summary
Flink流-表概念
发表于
|
分类于
technique
流概念
Guava-ImmutableTable
发表于
|
分类于
technique