Skill/openspec/changes/archive/2026-02-17-create-lyxy-reader-office/proposal.md at master - Skill - Gitea: Git with a cup of tea

lanyuanxiaoyao/Skill

Files

lanyuanxiaoyao 9f04dac50b 增加lyxy-reader-office skill

2026-02-17 22:50:06 +08:00

2.1 KiB

Raw Permalink Blame History

Why

当前项目中仅有 lyxy-reader-docx skill 用于解析 DOCX 文档，无法覆盖 XLSX、PPTX、PDF 等常见办公文档格式。用户在日常工作中经常需要大模型读取多种格式的文档，缺少统一的多格式文档解析能力会导致大模型无法有效处理这些文件。需要创建一个统一的办公文档解析 skill，覆盖四种主流格式，并替换功能已被覆盖的旧 skill。

What Changes

新增 lyxy-reader-office skill，支持解析 DOCX、XLSX、PPTX、PDF 四种格式
该 skill 使用 scripts/parser.py 作为统一入口，自动识别文件类型并分派到对应的格式解析器
引导大模型在遇到这四种文件时优先激活并使用该 skill
引导大模型通过阅读 scripts/README.md 了解脚本的详细使用方式
引导大模型在环境中存在 lyxy-runner-python skill 时，必须使用该 skill 来运行 Python 脚本
BREAKING：删除 skills/lyxy-reader-docx 目录，因为其功能已完全被 lyxy-reader-office 覆盖

Capabilities

New Capabilities

office-document-parsing: 统一的办公文档解析能力，覆盖 DOCX、XLSX、PPTX、PDF 四种格式，支持全文提取、标题提取、章节提取、正则搜索、字数统计、行数统计等功能，PDF 额外支持 OCR 高精度模式

Modified Capabilities

docx-text-extraction: 该能力将被 office-document-parsing 完全替代，原 spec 不再适用

Impact

新增文件：skills/lyxy-reader-office/SKILL.md（skill 主文件）
脚本文件：skills/lyxy-reader-office/scripts/ 下的所有解析脚本已就绪（parser.py、common.py、docx_parser.py、pptx_parser.py、xlsx_parser.py、pdf_parser.py、README.md）
删除目录：skills/lyxy-reader-docx/（整个目录，包含 SKILL.md、docx_parser.md、scripts/docx_parser.py）
依赖关系：运行时依赖 Python 3.6+，推荐通过 lyxy-runner-python skill 使用 uv 自动管理依赖
Spec 变更：docx-text-extraction spec 将被废弃，新增 office-document-parsing spec