catalog/repos/20041002liu-cloud--pdf-word-reader-zh.md

2.1 KiB
Raw Permalink Blame History

PDF/DOCX智能文档解析

PDF 文档理解 OCR DOCX PPTX 文本提取

pdf-word-reader-zh

$ npx skills add https://github.com/20041002liu-cloud/pdf-word-reader-zh

SKILL.md

本技能为 PDF、DOCX 和 PPTX 文件提供端到端的文档理解能力。它将文件路径转化为结构化提取结果、分块证据以及可供分析的报告。

用户提供文档路径,并要求读取、摘要、提取、分析或完整理解其内容。

功能概述

  • 读取 .pdf 文件,支持文本提取及 OCR 兜底
  • 读取 .docx 文件,支持段落/表格提取
  • 自动将 .pptx 转换为 PDF再按 PDF 流程处理
  • 将长文本切分为分块证据(C001C002……)
  • 生成基于证据的结论报告框架

工作流程

  1. 检测输入类型PDF、DOCX 或 PPTX。
  2. 若为 PPTX先转换为 PDFLibreOffice 或 Windows 上的 PowerPoint COM
  3. 提取结构化内容(文本、页面、可用时含表格)。
  4. 对低文本量 PDF 页面启用 OCR 兜底。
  5. 构建带有稳定块 ID 的证据分块。
  6. 输出包含分块证据索引的分析报告框架。

命令

python scripts/prepare_document_context.py "<输入文件>" --output-dir "output/document-understanding"

输出文件

  • 01_extracted.json:结构化提取结果
  • 02_chunks.json:分块证据单元
  • 03_understanding_report.md:分析报告框架及证据索引

常用选项

  • --disable-ocr:禁用 OCR 兜底
  • --max-pages N:仅处理前 N 页(快速运行)
  • --fail-on-empty:若未提取到文本则报错退出

依赖安装

python -m pip install -r requirements.txt

推荐系统工具:

  • tesseract,需安装中文语言包(chi_sim
  • pdftoppmPoppler
  • PPTX 转换:sofficeLibreOffice或 Microsoft PowerPointWindows

质量规范

最终分析输出须遵守以下规则:

  • 在得出结论前,读取所有分块内容。
  • 对关键论点引用块 ID例如 [C003][C011]
  • 区分事实与假设。
  • 明确列出缺失的证据。