mc-skills/catalog

mc-skills c8e8049202 catalog: 更新 2026-04-06 19:01

2026-04-06 19:01:37 +08:00

2.1 KiB

Raw Blame History

PDF/DOCX智能文档解析

PDF 文档理解 OCR DOCX PPTX 文本提取

pdf-word-reader-zh

$ npx skills add https://github.com/20041002liu-cloud/pdf-word-reader-zh

SKILL.md

本技能为 PDF、DOCX 和 PPTX 文件提供端到端的文档理解能力。它将文件路径转化为结构化提取结果、分块证据以及可供分析的报告。

用户提供文档路径，并要求读取、摘要、提取、分析或完整理解其内容。

功能概述

读取 .pdf 文件，支持文本提取及 OCR 兜底
读取 .docx 文件，支持段落/表格提取
自动将 .pptx 转换为 PDF，再按 PDF 流程处理
将长文本切分为分块证据（C001、C002……）
生成基于证据的结论报告框架

工作流程

检测输入类型：PDF、DOCX 或 PPTX。
若为 PPTX，先转换为 PDF（LibreOffice 或 Windows 上的 PowerPoint COM）。
提取结构化内容（文本、页面、可用时含表格）。
对低文本量 PDF 页面启用 OCR 兜底。
构建带有稳定块 ID 的证据分块。
输出包含分块证据索引的分析报告框架。

命令

python scripts/prepare_document_context.py "<输入文件>" --output-dir "output/document-understanding"

输出文件

01_extracted.json：结构化提取结果
02_chunks.json：分块证据单元
03_understanding_report.md：分析报告框架及证据索引

常用选项

--disable-ocr：禁用 OCR 兜底
--max-pages N：仅处理前 N 页（快速运行）
--fail-on-empty：若未提取到文本则报错退出

依赖安装

python -m pip install -r requirements.txt

推荐系统工具：

tesseract，需安装中文语言包（chi_sim）
pdftoppm（Poppler）
PPTX 转换：soffice（LibreOffice）或 Microsoft PowerPoint（Windows）

质量规范

最终分析输出须遵守以下规则：

在得出结论前，读取所有分块内容。
对关键论点引用块 ID，例如 [C003][C011]。
区分事实与假设。
明确列出缺失的证据。