42 lines
1.8 KiB
Markdown
42 lines
1.8 KiB
Markdown
# 错误处理和限制说明
|
||
|
||
## 限制
|
||
|
||
- 不支持图片提取(仅纯文本)
|
||
- 不支持复杂的格式保留(字体、颜色、布局等)
|
||
- 不支持文档编辑或修改
|
||
- 仅支持 .docx、.xlsx、.pptx、.pdf 格式(不支持 .doc、.xls、.ppt 等旧格式)
|
||
- PDF 无内置 XML 原生解析,至少需要安装 pypdf
|
||
|
||
## 最佳实践
|
||
|
||
1. **必须优先使用 lyxy-runner-python**:如果环境中存在,必须使用 lyxy-runner-python 执行脚本
|
||
2. **查阅 README**:详细参数、依赖安装、解析器对比等信息请阅读 `scripts/README.md`
|
||
3. **大文件处理**:对于大文档,建议使用章节提取(`-tc`)或搜索(`-s`)来限制处理范围
|
||
4. **PDF 标题**:PDF 是版面描述格式,默认不含语义化标题;需要标题层级时使用 `--high-res`
|
||
5. **禁止自动安装**:降级到直接 Python 执行时,仅向用户提示安装依赖,不得自动执行 pip install
|
||
|
||
## 依赖执行策略
|
||
|
||
### 必须使用 lyxy-runner-python
|
||
|
||
如果环境中存在 lyxy-runner-python skill,**必须**使用它来执行 parser.py 脚本:
|
||
- lyxy-runner-python 使用 uv 管理依赖,自动安装所需的第三方库
|
||
- 环境隔离,不污染系统 Python
|
||
- 跨平台兼容(Windows/macOS/Linux)
|
||
|
||
### 降级到直接执行
|
||
|
||
**仅当** lyxy-runner-python skill 不存在时,才降级到直接 Python 执行:
|
||
- 需要用户手动安装依赖
|
||
- DOCX/PPTX/XLSX 无需依赖也可通过 XML 原生解析工作
|
||
- PDF 至少需要安装 pypdf
|
||
- **禁止自动执行 pip install**,仅向用户提示安装建议
|
||
|
||
## 不适用场景
|
||
|
||
- 需要提取图片内容(仅支持纯文本)
|
||
- 需要保留复杂的格式信息(字体、颜色、布局)
|
||
- 需要编辑或修改文档
|
||
- 需要处理 .doc、.xls、.ppt 等旧格式
|