1
0
Files
Skill/skills/lyxy-reader-office/references/error-handling.md
2026-02-25 17:36:42 +08:00

1.8 KiB
Raw Blame History

错误处理和限制说明

限制

  • 不支持图片提取(仅纯文本)
  • 不支持复杂的格式保留(字体、颜色、布局等)
  • 不支持文档编辑或修改
  • 仅支持 .docx、.xlsx、.pptx、.pdf 格式(不支持 .doc、.xls、.ppt 等旧格式)
  • PDF 无内置 XML 原生解析,至少需要安装 pypdf

最佳实践

  1. 必须优先使用 lyxy-runner-python:如果环境中存在,必须使用 lyxy-runner-python 执行脚本
  2. 查阅 README:详细参数、依赖安装、解析器对比等信息请阅读 scripts/README.md
  3. 大文件处理:对于大文档,建议使用章节提取(-tc)或搜索(-s)来限制处理范围
  4. PDF 标题PDF 是版面描述格式,默认不含语义化标题;需要标题层级时使用 --high-res
  5. 禁止自动安装:降级到直接 Python 执行时,仅向用户提示安装依赖,不得自动执行 pip install

依赖执行策略

必须使用 lyxy-runner-python

如果环境中存在 lyxy-runner-python skill必须使用它来执行 parser.py 脚本:

  • lyxy-runner-python 使用 uv 管理依赖,自动安装所需的第三方库
  • 环境隔离,不污染系统 Python
  • 跨平台兼容Windows/macOS/Linux

降级到直接执行

仅当 lyxy-runner-python skill 不存在时,才降级到直接 Python 执行:

  • 需要用户手动安装依赖
  • DOCX/PPTX/XLSX 无需依赖也可通过 XML 原生解析工作
  • PDF 至少需要安装 pypdf
  • 禁止自动执行 pip install,仅向用户提示安装建议

不适用场景

  • 需要提取图片内容(仅支持纯文本)
  • 需要保留复杂的格式信息(字体、颜色、布局)
  • 需要编辑或修改文档
  • 需要处理 .doc、.xls、.ppt 等旧格式