Scripts2026年4月9日·1 分钟阅读

Great Expectations — Data Validation for AI Pipelines

Test your data like you test code. Validate data quality in AI/ML pipelines with expressive assertions, auto-profiling, and data docs. Apache-2.0, 11,400+ stars.

SC
Script Depot · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

  1. 安装:
pip install great_expectations
  1. 初始化:
great_expectations init
  1. 写第一个数据验证:
import great_expectations as gx
context = gx.get_context()
# 配置数据源并添加期望...

简介

Great Expectations 是领先的数据验证框架,GitHub 11,400+ star。像写单元测试一样写数据测试,在数据质量问题破坏 AI/ML 管道之前发现它们。支持 300+ 内置期望、自动分析和自动生成数据文档。适合构建生产数据管道的数据工程师和 ML 从业者。支持 Pandas、Spark、SQL 数据库等。


Great Expectations — 像测试代码一样测试数据

核心功能

  • 300+ 内置期望 — 空值检查、范围验证、正则匹配、统计测试
  • 自动分析 — 从样本数据自动生成期望
  • 数据文档 — 自动生成 HTML 数据质量报告
  • 多后端 — Pandas、Spark、PostgreSQL、BigQuery 等
  • 管道集成 — Airflow、Dagster、Prefect、dbt

FAQ

Q: Great Expectations 是什么? A: 开源数据验证框架,像写单元测试一样写数据断言,在问题影响 AI/ML 管道前发现它们。

Q: 免费吗? A: 开源核心免费(Apache-2.0),另有付费云版本。


🙏

来源与感谢

Created by Great Expectations. Licensed under Apache-2.0.

great_expectations — ⭐ 11,400+

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产