# PDF/DOCX智能文档解析

`PDF` `文档理解` `OCR` `DOCX` `PPTX` `文本提取`

# pdf-word-reader-zh

```bash
$ npx skills add https://github.com/20041002liu-cloud/pdf-word-reader-zh
```

SKILL.md

本技能为 PDF、DOCX 和 PPTX 文件提供端到端的文档理解能力。它将文件路径转化为结构化提取结果、分块证据以及可供分析的报告。

用户提供文档路径，并要求读取、摘要、提取、分析或完整理解其内容。

## 功能概述

- 读取 `.pdf` 文件，支持文本提取及 OCR 兜底
- 读取 `.docx` 文件，支持段落/表格提取
- 自动将 `.pptx` 转换为 PDF，再按 PDF 流程处理
- 将长文本切分为分块证据（`C001`、`C002`……）
- 生成基于证据的结论报告框架

## 工作流程

1. 检测输入类型：PDF、DOCX 或 PPTX。
2. 若为 PPTX，先转换为 PDF（LibreOffice 或 Windows 上的 PowerPoint COM）。
3. 提取结构化内容（文本、页面、可用时含表格）。
4. 对低文本量 PDF 页面启用 OCR 兜底。
5. 构建带有稳定块 ID 的证据分块。
6. 输出包含分块证据索引的分析报告框架。

## 命令

```bash
python scripts/prepare_document_context.py "<输入文件>" --output-dir "output/document-understanding"
```

## 输出文件

- `01_extracted.json`：结构化提取结果
- `02_chunks.json`：分块证据单元
- `03_understanding_report.md`：分析报告框架及证据索引

## 常用选项

- `--disable-ocr`：禁用 OCR 兜底
- `--max-pages N`：仅处理前 N 页（快速运行）
- `--fail-on-empty`：若未提取到文本则报错退出

## 依赖安装

```bash
python -m pip install -r requirements.txt
```

推荐系统工具：

- `tesseract`，需安装中文语言包（`chi_sim`）
- `pdftoppm`（Poppler）
- PPTX 转换：`soffice`（LibreOffice）或 Microsoft PowerPoint（Windows）

## 质量规范

最终分析输出须遵守以下规则：

- 在得出结论前，读取所有分块内容。
- 对关键论点引用块 ID，例如 `[C003][C011]`。
- 区分事实与假设。
- 明确列出缺失的证据。