1
0
Files

2.1 KiB
Raw Permalink Blame History

Why

当前项目中仅有 lyxy-reader-docx skill 用于解析 DOCX 文档,无法覆盖 XLSX、PPTX、PDF 等常见办公文档格式。用户在日常工作中经常需要大模型读取多种格式的文档,缺少统一的多格式文档解析能力会导致大模型无法有效处理这些文件。需要创建一个统一的办公文档解析 skill覆盖四种主流格式并替换功能已被覆盖的旧 skill。

What Changes

  • 新增 lyxy-reader-office skill支持解析 DOCX、XLSX、PPTX、PDF 四种格式
  • 该 skill 使用 scripts/parser.py 作为统一入口,自动识别文件类型并分派到对应的格式解析器
  • 引导大模型在遇到这四种文件时优先激活并使用该 skill
  • 引导大模型通过阅读 scripts/README.md 了解脚本的详细使用方式
  • 引导大模型在环境中存在 lyxy-runner-python skill 时,必须使用该 skill 来运行 Python 脚本
  • BREAKING:删除 skills/lyxy-reader-docx 目录,因为其功能已完全被 lyxy-reader-office 覆盖

Capabilities

New Capabilities

  • office-document-parsing: 统一的办公文档解析能力,覆盖 DOCX、XLSX、PPTX、PDF 四种格式支持全文提取、标题提取、章节提取、正则搜索、字数统计、行数统计等功能PDF 额外支持 OCR 高精度模式

Modified Capabilities

  • docx-text-extraction: 该能力将被 office-document-parsing 完全替代,原 spec 不再适用

Impact

  • 新增文件skills/lyxy-reader-office/SKILL.mdskill 主文件)
  • 脚本文件skills/lyxy-reader-office/scripts/ 下的所有解析脚本已就绪parser.py、common.py、docx_parser.py、pptx_parser.py、xlsx_parser.py、pdf_parser.py、README.md
  • 删除目录skills/lyxy-reader-docx/(整个目录,包含 SKILL.md、docx_parser.md、scripts/docx_parser.py
  • 依赖关系:运行时依赖 Python 3.6+,推荐通过 lyxy-runner-python skill 使用 uv 自动管理依赖
  • Spec 变更docx-text-extraction spec 将被废弃,新增 office-document-parsing spec