Knowledge2026年4月2日·1 分钟阅读

DocETL — LLM-Powered Document Processing Pipelines

Declarative YAML pipelines for LLM document analysis with map, reduce, and resolve operators. By UC Berkeley. 3.7K+ stars.

TO
TokRepo精选 · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

```bash pip install docetl ``` 创建管线 YAML 文件,定义 map(逐文档处理)、reduce(聚合分组)等操作: ```yaml operations: - name: summarize type: map prompt: "用3句话总结这篇论文:{{ input.content }}" output: schema: summary: string pipeline: steps: - name: summarize_papers input: papers operations: [summarize] ``` 运行: ```bash docetl run pipeline.yaml ``` ---
## 简介 DocETL 是 UC Berkeley EPIC 实验室开源的 LLM 文档处理管线框架,拥有 3,700+ GitHub stars。支持用声明式 YAML 定义复杂文档分析工作流,提供 map(逐个处理)、reduce(分组聚合)、resolve(实体消解)和 filter(过滤)等操作符。配套交互式界面 DocWrangler 可视化构建和测试管线。已在 VLDB 2025 发表学术论文,包含自动优化器可重写管线提升输出质量。 适用于:OpenAI、Anthropic Claude、AWS Bedrock 等任何 LiteLLM 兼容模型。适合用 LLM 处理大量文档集合的研究人员和数据团队。 --- ## 核心操作符 ### map — 逐文档处理 独立处理每个文档:总结、实体提取、分类。 ### reduce — 分组聚合 按关键字聚合多个文档:生成综述、合并发现。 ### resolve — 实体消解 跨文档去重和规范化:作者去重、名称标准化。 ### filter — 条件过滤 按条件保留或删除文档:质量过滤、相关性检查。 ### 自动优化器 自动重写管线,添加迭代精炼、分块和并行化,提升输出质量。 ### DocWrangler 可视化界面 在 docetl.org/playground 拖拽构建管线,实时预览每步输出。 ---
🙏

来源与感谢

> Created by [UC Berkeley EPIC Lab](https://github.com/ucbepic). Licensed under MIT. > > [docetl](https://github.com/ucbepic/docetl) — ⭐ 3,700+

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产