75 lines
3.0 KiB
Markdown
75 lines
3.0 KiB
Markdown
---
|
||
name: lyxy-reader-office
|
||
description: 优先解析 docx、xlsx、pptx、pdf 四种办公文档的 skill,将文档转换为 Markdown 格式,支持全文提取、标题提取、章节提取、正则搜索、字数统计、行数统计,PDF 额外支持 OCR 高精度模式。使用时请阅读 scripts/README.md 获取详细用法。
|
||
compatibility: Requires Python 3.6+. DOCX/PPTX/XLSX 无需额外依赖(XML 原生解析);PDF 至少需要 pypdf。推荐通过 lyxy-runner-python skill 使用 uv 自动管理依赖。
|
||
---
|
||
|
||
# 办公文档解析 Skill
|
||
|
||
将 Microsoft Office 文档(.docx、.pptx、.xlsx)和 PDF 文件解析为 Markdown 格式,支持多种查询模式。
|
||
|
||
## Purpose
|
||
|
||
**统一入口**:使用 `scripts/parser.py` 作为统一的命令行入口,自动识别文件类型并分派到对应的格式解析器。
|
||
|
||
**依赖选项**:此 skill 必须优先使用 lyxy-runner-python skill 执行,不可用时降级到直接 Python 执行。
|
||
|
||
## When to Use
|
||
|
||
任何需要读取或解析 .docx、.xlsx、.pptx、.pdf 文件内容的任务都应使用此 skill。
|
||
|
||
### 典型场景
|
||
- **文档内容提取**:将 Word/PPT/Excel/PDF 文档转换为可读的 Markdown 文本
|
||
- **文档元数据**:获取文档的字数、行数等信息
|
||
- **标题分析**:提取文档的标题结构
|
||
- **章节提取**:提取特定章节的内容
|
||
- **内容搜索**:在文档中搜索关键词或模式
|
||
- **PDF OCR**:对扫描版 PDF 启用 OCR 高精度解析
|
||
|
||
### 触发词
|
||
- 中文:"读取/解析/打开 docx/word/xlsx/excel/pptx/pdf 文档"
|
||
- 英文:"read/parse/extract docx/word/xlsx/excel/pptx/powerpoint/pdf"
|
||
- 文件扩展名:`.docx`、`.xlsx`、`.pptx`、`.pdf`
|
||
|
||
## Quick Reference
|
||
|
||
| 参数 | 说明 |
|
||
|------|------|
|
||
| (无参数) | 输出完整 Markdown 内容 |
|
||
| `-c` | 字数统计 |
|
||
| `-l` | 行数统计 |
|
||
| `-t` | 提取所有标题 |
|
||
| `-tc <name>` | 提取指定标题的章节内容 |
|
||
| `-s <pattern>` | 正则表达式搜索 |
|
||
| `-n <num>` | 与 `-s` 配合,指定上下文行数 |
|
||
| `--high-res` | PDF 专用,启用 OCR 版面分析 |
|
||
|
||
## Workflow
|
||
|
||
1. **检查依赖**:优先使用 lyxy-runner-python,否则降级到直接 Python 执行
|
||
2. **选择格式**:根据文件扩展名自动识别格式
|
||
3. **执行解析**:调用 `scripts/parser.py` 并传入参数
|
||
4. **输出结果**:返回 Markdown 格式内容或统计信息
|
||
|
||
### 基本语法
|
||
|
||
```bash
|
||
# 使用 lyxy-runner-python(推荐)
|
||
uv run --with "markitdown[docx]" scripts/parser.py /path/to/file.docx
|
||
|
||
# 降级到直接执行
|
||
python3 scripts/parser.py /path/to/file.docx
|
||
```
|
||
|
||
## References
|
||
|
||
详细文档请参阅 `references/` 目录:
|
||
|
||
| 文件 | 内容 |
|
||
|------|------|
|
||
| `references/examples.md` | 各格式完整提取、字数统计、标题提取、章节提取、搜索等示例 |
|
||
| `references/parsers.md` | 解析器说明、依赖安装、各格式输出特点、能力说明 |
|
||
| `references/error-handling.md` | 限制说明、最佳实践、依赖执行策略 |
|
||
|
||
> **详细用法**:请阅读 `scripts/README.md` 获取完整的命令行参数和依赖安装指南。
|