31 lines
2.1 KiB
Markdown
31 lines
2.1 KiB
Markdown
## Why
|
||
|
||
当前项目中仅有 `lyxy-reader-docx` skill 用于解析 DOCX 文档,无法覆盖 XLSX、PPTX、PDF 等常见办公文档格式。用户在日常工作中经常需要大模型读取多种格式的文档,缺少统一的多格式文档解析能力会导致大模型无法有效处理这些文件。需要创建一个统一的办公文档解析 skill,覆盖四种主流格式,并替换功能已被覆盖的旧 skill。
|
||
|
||
## What Changes
|
||
|
||
- 新增 `lyxy-reader-office` skill,支持解析 DOCX、XLSX、PPTX、PDF 四种格式
|
||
- 该 skill 使用 `scripts/parser.py` 作为统一入口,自动识别文件类型并分派到对应的格式解析器
|
||
- 引导大模型在遇到这四种文件时优先激活并使用该 skill
|
||
- 引导大模型通过阅读 `scripts/README.md` 了解脚本的详细使用方式
|
||
- 引导大模型在环境中存在 `lyxy-runner-python` skill 时,必须使用该 skill 来运行 Python 脚本
|
||
- **BREAKING**:删除 `skills/lyxy-reader-docx` 目录,因为其功能已完全被 `lyxy-reader-office` 覆盖
|
||
|
||
## Capabilities
|
||
|
||
### New Capabilities
|
||
|
||
- `office-document-parsing`: 统一的办公文档解析能力,覆盖 DOCX、XLSX、PPTX、PDF 四种格式,支持全文提取、标题提取、章节提取、正则搜索、字数统计、行数统计等功能,PDF 额外支持 OCR 高精度模式
|
||
|
||
### Modified Capabilities
|
||
|
||
- `docx-text-extraction`: 该能力将被 `office-document-parsing` 完全替代,原 spec 不再适用
|
||
|
||
## Impact
|
||
|
||
- **新增文件**:`skills/lyxy-reader-office/SKILL.md`(skill 主文件)
|
||
- **脚本文件**:`skills/lyxy-reader-office/scripts/` 下的所有解析脚本已就绪(parser.py、common.py、docx_parser.py、pptx_parser.py、xlsx_parser.py、pdf_parser.py、README.md)
|
||
- **删除目录**:`skills/lyxy-reader-docx/`(整个目录,包含 SKILL.md、docx_parser.md、scripts/docx_parser.py)
|
||
- **依赖关系**:运行时依赖 Python 3.6+,推荐通过 `lyxy-runner-python` skill 使用 `uv` 自动管理依赖
|
||
- **Spec 变更**:`docx-text-extraction` spec 将被废弃,新增 `office-document-parsing` spec
|