- 将 README.md 重构为开发文档,包含开发环境、工作流、代码规范 - 新建 skill/SKILL.md 作为用户文档,包含快速开始和命令选项 - 更新 openspec/config.yaml 添加项目概述和 skill 目录声明
2.4 KiB
2.4 KiB
name, description, license, metadata
| name | description | license | metadata | ||
|---|---|---|---|---|---|
| lyxy-document-reader | 统一文档解析工具 - DOCX/XLSX/PPTX/PDF/HTML/URL 转 Markdown | MIT |
|
快速开始
# 基本解析
uv run lyxy-document-reader document.docx
# URL 解析
uv run lyxy-document-reader https://example.com
命令选项
基本参数
input_path:文件路径或 URL(必需)
互斥操作(选其一)
| 选项 | 说明 |
|---|---|
| 无 | 输出完整 Markdown |
-c / --count |
统计字数 |
-l / --lines |
统计行数 |
-t / --titles |
提取所有标题(1-6级) |
-tc <name> |
提取指定标题及其内容 |
-s <pattern> |
正则搜索 |
辅助选项
| 选项 | 说明 | 配合 |
|---|---|---|
-n <num> / --context <num> |
搜索结果上下文行数(默认2) | -s |
按文档类型使用
DOCX
uv run lyxy-document-reader file.docx
uv run lyxy-document-reader file.pdf
HTML/URL
# 本地文件
uv run lyxy-document-reader page.html
# URL
uv run lyxy-document-reader https://example.com
XLSX
uv run lyxy-document-reader file.xlsx
PPTX
uv run lyxy-document-reader file.pptx
高级用法
搜索内容
# 搜索关键词
uv run lyxy-document-reader file.docx -s "关键词"
# 指定上下文行数
uv run lyxy-document-reader file.docx -s "关键词" -n 5
# 正则表达式
uv run lyxy-document-reader file.docx -s "\d{4}-\d{2}-\d{2}"
提取标题
# 列出所有标题
uv run lyxy-document-reader file.docx -t
# 提取指定标题内容
uv run lyxy-document-reader file.docx -tc "第三章"
Python API
from scripts.core import parse_input, process_content
from scripts.readers import READERS
readers = [ReaderCls() for ReaderCls in READERS]
content, failures = parse_input("document.docx", readers)
if content:
content = process_content(content)
print(content)
错误处理
| 错误信息 | 原因 | 解决 |
|---|---|---|
| 错误: input_path 不能为空 | 未提供输入 | 提供 file_path 或 URL |
| 错误: 不支持的文件类型 | 无对应 reader | 检查文件扩展名 |
| 所有解析方法均失败 | 所有解析器失败 | 检查文件是否损坏 |
| 错误: 无效的正则表达式 | 正则语法错误 | 检查正则语法 |
| 错误: 未找到匹配 | 搜索无结果 | 检查搜索词或正则 |