1
0
Files
Skill/skills/lyxy-reader-office/SKILL.md
2026-02-25 18:28:45 +08:00

3.0 KiB
Raw Blame History

name, description, compatibility
name description compatibility
lyxy-reader-office 优先解析 docx、xlsx、pptx、pdf 四种办公文档的 skill将文档转换为 Markdown 格式支持全文提取、标题提取、章节提取、正则搜索、字数统计、行数统计PDF 额外支持 OCR 高精度模式。使用时请阅读 scripts/README.md 获取详细用法。 Requires Python 3.6+. DOCX/PPTX/XLSX 无需额外依赖XML 原生解析PDF 至少需要 pypdf。推荐通过 lyxy-runner-python skill 使用 uv 自动管理依赖。

办公文档解析 Skill

将 Microsoft Office 文档(.docx、.pptx、.xlsx和 PDF 文件解析为 Markdown 格式,支持多种查询模式。

Purpose

统一入口:使用 scripts/parser.py 作为统一的命令行入口,自动识别文件类型并分派到对应的格式解析器。

依赖选项:此 skill 必须优先使用 lyxy-runner-python skill 执行,不可用时降级到直接 Python 执行。

When to Use

任何需要读取或解析 .docx、.xlsx、.pptx、.pdf 文件内容的任务都应使用此 skill。

典型场景

  • 文档内容提取:将 Word/PPT/Excel/PDF 文档转换为可读的 Markdown 文本
  • 文档元数据:获取文档的字数、行数等信息
  • 标题分析:提取文档的标题结构
  • 章节提取:提取特定章节的内容
  • 内容搜索:在文档中搜索关键词或模式
  • PDF OCR:对扫描版 PDF 启用 OCR 高精度解析

触发词

  • 中文:"读取/解析/打开 docx/word/xlsx/excel/pptx/pdf 文档"
  • 英文:"read/parse/extract docx/word/xlsx/excel/pptx/powerpoint/pdf"
  • 文件扩展名:.docx.xlsx.pptx.pdf

Quick Reference

参数 说明
(无参数) 输出完整 Markdown 内容
-c 字数统计
-l 行数统计
-t 提取所有标题
-tc <name> 提取指定标题的章节内容
-s <pattern> 正则表达式搜索
-n <num> -s 配合,指定上下文行数
--high-res PDF 专用,启用 OCR 版面分析

Workflow

  1. 检查依赖:优先使用 lyxy-runner-python否则降级到直接 Python 执行
  2. 选择格式:根据文件扩展名自动识别格式
  3. 执行解析:调用 scripts/parser.py 并传入参数
  4. 输出结果:返回 Markdown 格式内容或统计信息

基本语法

# 使用 lyxy-runner-python推荐
uv run --with "markitdown[docx]" scripts/parser.py /path/to/file.docx

# 降级到直接执行
python3 scripts/parser.py /path/to/file.docx

References

详细文档请参阅 references/ 目录:

文件 内容
references/examples.md 各格式完整提取、字数统计、标题提取、章节提取、搜索等示例
references/parsers.md 解析器说明、依赖安装、各格式输出特点、能力说明
references/error-handling.md 限制说明、最佳实践、依赖执行策略

详细用法:请阅读 scripts/README.md 获取完整的命令行参数和依赖安装指南。