MCP Configs2026年4月2日·1 分钟阅读

Unstructured — Document ETL for LLM Pipelines

Extract clean data from PDFs, DOCX, HTML, images, and emails for RAG and LLM ingestion. 14K+ GitHub stars.

TO
TokRepo精选 · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

```bash pip install "unstructured[pdf,docx]" ``` ```python from unstructured.partition.auto import partition elements = partition(filename="report.pdf") for e in elements: print(f"{type(e).__name__}: {str(e)[:100]}") ``` ---
## 简介 Unstructured 是一个拥有 14,400+ GitHub stars 的开源文档 ETL 库,支持 PDF、Word、PPT、Excel、HTML、邮件、图片等 20+ 格式,提取干净的结构化数据用于 LLM 和 RAG 管线。与 LangChain、LlamaIndex 等主流 RAG 框架无缝集成。 ---
🙏

来源与感谢

> Created by [Unstructured-IO](https://github.com/Unstructured-IO). Licensed under Apache-2.0. > > [unstructured](https://github.com/Unstructured-IO/unstructured) — ⭐ 14,400+

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产