Leesf


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

Apache Hudi 如何处理棘手的小文件问题

发表于 2022-05-17 | 分类于 technique

1. 引入

阅读全文 »

Apache Hudi 如何加速传统批处理模式

发表于 2022-05-13 | 分类于 technique

1. 现状说明

1.1 数据湖摄取和计算过程 - 处理更新

在我们的用例中1-10% 是对历史记录的更新。当记录更新时,我们需要从之前的 updated_date 分区中删除之前的条目,并将条目添加到最新的分区中,在没有删除和更新功能的情况下,我们必须重新读取整个历史表分区 -> 去重数据 -> 用新的去重数据覆盖整个表分区

1.2 当前批处理过程中的挑战

这个过程有效,但也有其自身的缺陷:

阅读全文 »

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

发表于 2022-05-07 | 分类于 technique

1. 摘要

在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。

阅读全文 »

Flink任务调度分析

发表于 2020-01-24 | 分类于 technique

1. 概述

阅读全文 »

深入理解Flink-On-Yarn模式

发表于 2019-07-22 | 分类于 technique

1. 前言

阅读全文 »

Flink 底层RPC框架分析

发表于 2019-07-19 | 分类于 technique

1. 前言

阅读全文 »

MyBatis自动生成代码查询爬坑记

发表于 2018-03-16 | 分类于 technique

前言

阅读全文 »

2017年度总结

发表于 2017-12-30 | 分类于 summary

阅读全文 »

Flink流-表概念

发表于 2017-12-12 | 分类于 technique

流概念

阅读全文 »

Guava-ImmutableTable

发表于 2017-11-22 | 分类于 technique

前言

在学习HashBiMap后,接着学习ImmutableTable,该类由行和列共同确定一个元素,类似于表格。

阅读全文 »
1 2 … 5
Leesf

Leesf

43 日志
2 分类
GitHub Cnblogs Lofter
© 2017 - 2022 Leesf
由 Jekyll 强力驱动
主题 - NexT.Mist