简介
Great Expectations 是领先的数据验证框架,GitHub 11,400+ star。像写单元测试一样写数据测试,在数据质量问题破坏 AI/ML 管道之前发现它们。支持 300+ 内置期望、自动分析和自动生成数据文档。适合构建生产数据管道的数据工程师和 ML 从业者。支持 Pandas、Spark、SQL 数据库等。
Great Expectations — 像测试代码一样测试数据
核心功能
- 300+ 内置期望 — 空值检查、范围验证、正则匹配、统计测试
- 自动分析 — 从样本数据自动生成期望
- 数据文档 — 自动生成 HTML 数据质量报告
- 多后端 — Pandas、Spark、PostgreSQL、BigQuery 等
- 管道集成 — Airflow、Dagster、Prefect、dbt
FAQ
Q: Great Expectations 是什么? A: 开源数据验证框架,像写单元测试一样写数据断言,在问题影响 AI/ML 管道前发现它们。
Q: 免费吗? A: 开源核心免费(Apache-2.0),另有付费云版本。