在这篇文章里我接着讲述一下数仓数据同步到 ADB 的方案演进。随着数据规模纵向和横向的扩大,把 hive 作为同步的数据源瓶颈越来越明显。首先是单表的数据超过
最近在做同步数仓数据的工作,从设计到实现整个过程其实是挺有意思的。这里记录和分享一下我们的实施方案,也能给有类似需求的同学提供一些参考价值。
我们都知道在 Java 中类的实例都是在 heap 中分配内存,也就是说实例对象都是存储在 heap 中。那么类对象是否也存在 heap 中呢? 为了找到这个问题的答案我们使用 HSDB(HotSpot Debugger) 来
我们用 Spark 处理数据的时候,Spark 应用和它的 job 运行状态的监控十分重要。关于 Spark 的监控从官方文档上我们看到有这三种方式 Web UI, Metrics, 其他辅助工具。 这里简
Apache Zeppelin 是一个可以通过浏览器实现交互式数据查询、数据分析、数据可视化并且能多人协作开发的 NoteBook(如果用过 jupyter 对此应该会很熟悉)。其前端提
在使用 MySQL 和存储引擎是 InnoDB 的情况下,当我们想从一个 SQL 语句分析出这个语句对应的加锁情况需要掌握哪些知识呢? 在这篇文章我就想总结一下 InnoDB 的锁类型和这些