基于Spark的数据质量库
Deequ 是AWS开源的数据质量工具,通过Spark实现大规模数据的约束验证与指标计算。
从 Soda Core、SodaCL、监控告警和数据管道集成,看 Soda 更适合解决什么样的数据质量与数据可靠性问题。
全托管ETL服务