# 错误处理和限制说明

## 限制

- 不支持图片提取（仅纯文本）
- 不支持复杂的格式保留（字体、颜色、布局等）
- 不支持文档编辑或修改
- 仅支持 .docx、.xlsx、.pptx、.pdf 格式（不支持 .doc、.xls、.ppt 等旧格式）
- PDF 无内置 XML 原生解析，至少需要安装 pypdf

## 最佳实践

1. **必须优先使用 lyxy-runner-python**：如果环境中存在，必须使用 lyxy-runner-python 执行脚本
2. **查阅 README**：详细参数、依赖安装、解析器对比等信息请阅读 `scripts/README.md`
3. **大文件处理**：对于大文档，建议使用章节提取（`-tc`）或搜索（`-s`）来限制处理范围
4. **PDF 标题**：PDF 是版面描述格式，默认不含语义化标题；需要标题层级时使用 `--high-res`
5. **禁止自动安装**：降级到直接 Python 执行时，仅向用户提示安装依赖，不得自动执行 pip install

## 依赖执行策略

### 必须使用 lyxy-runner-python

如果环境中存在 lyxy-runner-python skill，**必须**使用它来执行 parser.py 脚本：
- lyxy-runner-python 使用 uv 管理依赖，自动安装所需的第三方库
- 环境隔离，不污染系统 Python
- 跨平台兼容（Windows/macOS/Linux）

### 降级到直接执行

**仅当** lyxy-runner-python skill 不存在时，才降级到直接 Python 执行：
- 需要用户手动安装依赖
- DOCX/PPTX/XLSX 无需依赖也可通过 XML 原生解析工作
- PDF 至少需要安装 pypdf
- **禁止自动执行 pip install**，仅向用户提示安装建议

## 不适用场景

- 需要提取图片内容（仅支持纯文本）
- 需要保留复杂的格式信息（字体、颜色、布局）
- 需要编辑或修改文档
- 需要处理 .doc、.xls、.ppt 等旧格式