1
0
Files
Skill/skills/lyxy-reader-office/SKILL.md
2026-02-25 18:28:45 +08:00

75 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
name: lyxy-reader-office
description: 优先解析 docx、xlsx、pptx、pdf 四种办公文档的 skill将文档转换为 Markdown 格式支持全文提取、标题提取、章节提取、正则搜索、字数统计、行数统计PDF 额外支持 OCR 高精度模式。使用时请阅读 scripts/README.md 获取详细用法。
compatibility: Requires Python 3.6+. DOCX/PPTX/XLSX 无需额外依赖XML 原生解析PDF 至少需要 pypdf。推荐通过 lyxy-runner-python skill 使用 uv 自动管理依赖。
---
# 办公文档解析 Skill
将 Microsoft Office 文档(.docx、.pptx、.xlsx和 PDF 文件解析为 Markdown 格式,支持多种查询模式。
## Purpose
**统一入口**:使用 `scripts/parser.py` 作为统一的命令行入口,自动识别文件类型并分派到对应的格式解析器。
**依赖选项**:此 skill 必须优先使用 lyxy-runner-python skill 执行,不可用时降级到直接 Python 执行。
## When to Use
任何需要读取或解析 .docx、.xlsx、.pptx、.pdf 文件内容的任务都应使用此 skill。
### 典型场景
- **文档内容提取**:将 Word/PPT/Excel/PDF 文档转换为可读的 Markdown 文本
- **文档元数据**:获取文档的字数、行数等信息
- **标题分析**:提取文档的标题结构
- **章节提取**:提取特定章节的内容
- **内容搜索**:在文档中搜索关键词或模式
- **PDF OCR**:对扫描版 PDF 启用 OCR 高精度解析
### 触发词
- 中文:"读取/解析/打开 docx/word/xlsx/excel/pptx/pdf 文档"
- 英文:"read/parse/extract docx/word/xlsx/excel/pptx/powerpoint/pdf"
- 文件扩展名:`.docx``.xlsx``.pptx``.pdf`
## Quick Reference
| 参数 | 说明 |
|------|------|
| (无参数) | 输出完整 Markdown 内容 |
| `-c` | 字数统计 |
| `-l` | 行数统计 |
| `-t` | 提取所有标题 |
| `-tc <name>` | 提取指定标题的章节内容 |
| `-s <pattern>` | 正则表达式搜索 |
| `-n <num>` | 与 `-s` 配合,指定上下文行数 |
| `--high-res` | PDF 专用,启用 OCR 版面分析 |
## Workflow
1. **检查依赖**:优先使用 lyxy-runner-python否则降级到直接 Python 执行
2. **选择格式**:根据文件扩展名自动识别格式
3. **执行解析**:调用 `scripts/parser.py` 并传入参数
4. **输出结果**:返回 Markdown 格式内容或统计信息
### 基本语法
```bash
# 使用 lyxy-runner-python推荐
uv run --with "markitdown[docx]" scripts/parser.py /path/to/file.docx
# 降级到直接执行
python3 scripts/parser.py /path/to/file.docx
```
## References
详细文档请参阅 `references/` 目录:
| 文件 | 内容 |
|------|------|
| `references/examples.md` | 各格式完整提取、字数统计、标题提取、章节提取、搜索等示例 |
| `references/parsers.md` | 解析器说明、依赖安装、各格式输出特点、能力说明 |
| `references/error-handling.md` | 限制说明、最佳实践、依赖执行策略 |
> **详细用法**:请阅读 `scripts/README.md` 获取完整的命令行参数和依赖安装指南。