59 lines
2.2 KiB
Markdown
59 lines
2.2 KiB
Markdown
# 解析器说明和依赖安装
|
||
|
||
## 多策略解析降级
|
||
|
||
每种文件格式配备多个解析器,按优先级依次尝试,前一个失败自动回退到下一个。
|
||
|
||
详细的解析器优先级和对比请查阅 `scripts/README.md`。
|
||
|
||
## 依赖安装
|
||
|
||
### 使用 uv(推荐)
|
||
|
||
```bash
|
||
# DOCX - 推荐依赖
|
||
uv run --with "markitdown[docx]" skills/lyxy-reader-office/scripts/parser.py /path/to/file.docx
|
||
|
||
# PPTX - 推荐依赖
|
||
uv run --with "markitdown[pptx]" skills/lyxy-reader-office/scripts/parser.py /path/to/file.pptx
|
||
|
||
# XLSX - 推荐依赖
|
||
uv run --with "markitdown[xlsx]" skills/lyxy-reader-office/scripts/parser.py /path/to/file.xlsx
|
||
|
||
# PDF - 推荐依赖
|
||
uv run --with "markitdown[pdf]" --with pypdf skills/lyxy-reader-office/scripts/parser.py /path/to/file.pdf
|
||
|
||
# PDF OCR 高精度模式
|
||
uv run --with docling --with pypdf skills/lyxy-reader-office/scripts/parser.py /path/to/file.pdf --high-res
|
||
```
|
||
|
||
> **注意**:以上为最小推荐依赖,更多解析器依赖和完整安装命令请查阅 `scripts/README.md` 的安装部分。
|
||
|
||
## 各格式输出特点
|
||
|
||
- **DOCX**:标准 Markdown 文档结构
|
||
- **PPTX**:每张幻灯片以 `## Slide N` 为标题,幻灯片之间以 `---` 分隔
|
||
- **XLSX**:以 `## SheetName` 区分工作表,数据以 Markdown 表格呈现
|
||
- **PDF**:纯文本流,使用 `--high-res` 可启用 OCR 版面分析识别标题
|
||
|
||
## 能力说明
|
||
|
||
### 1. 全文转换为 Markdown
|
||
将完整文档解析为 Markdown 格式,移除图片但保留文本格式(标题、列表、表格、粗体、斜体等)。
|
||
|
||
### 2. 获取文档元信息
|
||
- 字数统计(`-c` 参数)
|
||
- 行数统计(`-l` 参数)
|
||
|
||
### 3. 标题列表提取
|
||
提取文档中所有 1-6 级标题(`-t` 参数),按原始层级关系返回。
|
||
|
||
### 4. 指定章节内容提取
|
||
根据标题名称提取特定章节的完整内容(`-tc` 参数),包含上级标题链和所有下级内容。
|
||
|
||
### 5. 正则表达式搜索
|
||
在文档中搜索关键词或模式(`-s` 参数),支持自定义上下文行数(`-n` 参数,默认 2 行)。
|
||
|
||
### 6. PDF OCR 高精度模式
|
||
对 PDF 文件启用 OCR 版面分析(`--high-res` 参数),适用于扫描版 PDF 或需要识别标题层级的场景。
|