Apache Hudi 如何处理棘手的小文件问题

发表于 2022-05-17 | 分类于 technique

1. 引入

发表于 2022-05-13 | 分类于 technique

在我们的用例中1-10% 是对历史记录的更新。当记录更新时，我们需要从之前的 updated_date 分区中删除之前的条目，并将条目添加到最新的分区中，在没有删除和更新功能的情况下，我们必须重新读取整个历史表分区 -> 去重数据 -> 用新的去重数据覆盖整个表分区

这个过程有效，但也有其自身的缺陷：

发表于 2022-05-07 | 分类于 technique

在本博客中，我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。

发表于 2020-01-24 | 分类于 technique

发表于 2019-07-22 | 分类于 technique

发表于 2019-07-19 | 分类于 technique

发表于 2018-03-16 | 分类于 technique

发表于 2017-12-30 | 分类于 summary

发表于 2017-12-12 | 分类于 technique

发表于 2017-11-22 | 分类于 technique

在学习HashBiMap后，接着学习ImmutableTable，该类由行和列共同确定一个元素，类似于表格。