新增docx解析

2026-02-12 16:23:23 +08:00
parent 004ebe3d4f
commit 53707efaf0
7 changed files with 703 additions and 0 deletions
--- a/openspec/changes/archive/2026-02-12-develop-docx-reader-skill/proposal.md
+++ b/openspec/changes/archive/2026-02-12-develop-docx-reader-skill/proposal.md
@@ -0,0 +1,25 @@
+## Why
+
+大模型在处理 Word 文档时缺乏统一的解析工具，需要能够直接识别并解析 .docx 文件能力的 skill。现有的 docx_parser.py 脚本已经实现了完整的解析功能，将其封装为 skill 可以让大模型在遇到需要读取 docx 文档的场景时优先使用该工具。
+
+## What Changes
+
+- 新增 `docx-reader` skill，封装现有的 `skills/docx-reader/scripts/docx_parser.py` 脚本
+- 创建 skill 定义文件，支持将 .docx 文件转换为纯文本内容
+- skill 定位为 docx 文档解析的优先选择工具
+- 仅支持文本内容提取，不处理图片和格式信息
+
+## Capabilities
+
+### New Capabilities
+- `docx-text-extraction`: 将 DOCX 文档转换为 Markdown 格式文本的能力，支持全文提取、标题提取、章节内容提取和关键词搜索
+
+### Modified Capabilities
+- 无
+
+## Impact
+
+- 新增 `skills/docx-reader/skill.md` - skill 定义文件
+- 依赖现有的 `skills/docx-reader/scripts/docx_parser.py` 解析脚本
+- 新增 Python 依赖：`markitdown` 或 `python-docx`（至少需要安装其一）
+- 影响大模型的技能调用策略，在遇到 .docx 文件时会优先使用该 skill