详细介绍
Soda 是面向现代数据栈的数据质量与可靠性平台,围绕 Soda Core、SodaCL、Soda Agent 和 Soda Cloud 提供 checks-as-code、扫描、监控、异常发现、告警和协作能力。它适合把数据质量规则嵌入 Airflow、dbt、Spark、Snowflake、Databricks 等数据管道,帮助数据团队在数据进入分析、报表或 AI 应用之前发现缺失值、重复值、模式漂移、延迟和业务规则异常。
功能特性
- 使用 SodaCL 以 YAML 方式声明数据质量检查规则
- 在数据管道和 CI/CD 流程中执行 checks-as-code
- 监控行数、完整性、唯一性、取值范围、模式变化和新鲜度等质量指标
- 通过 Soda Cloud、Slack 或告警规则协作处理质量问题
- 适合和 Airflow、dbt、Spark、Snowflake、Databricks 等现代数据栈集成
