refactor: 移除 doc 和 ppt reader 支持

移除对旧版 .doc 和 .ppt 格式的支持，以简化项目架构和减少维护负担。变更内容： - 删除 scripts/readers/doc/ 目录 - 删除 scripts/readers/ppt/ 目录 - 从 readers/__init__.py 中移除 DocReader 和 PptReader - 从 utils/file_detection.py 中移除 is_valid_doc 和 is_valid_ppt - 从 config.py 中移除 doc 和 ppt 依赖配置 - 从 advice_generator.py 中移除相关映射 - 更新 CLI 帮助文档 - 更新 README.md 文档 - 删除相关测试用例 - 删除相关规范文档
2026-03-11 00:55:15 +08:00
parent fad0edc46a
commit 65c746c639
22 changed files with 9 additions and 564 deletions
--- a/scripts/lyxy_document_reader.py
+++ b/scripts/lyxy_document_reader.py
@@ -1,5 +1,5 @@
 #!/usr/bin/env python3
-"""文档解析器命令行交互模块，提供命令行接口。支持 DOC、DOCX、XLS、XLSX、PPT、PPTX、PDF、HTML 和 URL。"""
+"""文档解析器命令行交互模块，提供命令行接口。支持 DOCX、XLS、XLSX、PPTX、PDF、HTML 和 URL。"""

 import argparse
 import logging
@@ -39,10 +39,10 @@ from readers import READERS

 def main() -> None:
    parser = argparse.ArgumentParser(
-        description="将 DOC、DOCX、XLS、XLSX、PPT、PPTX、PDF、HTML 文件或 URL 解析为 Markdown"
+        description="将 DOCX、XLS、XLSX、PPTX、PDF、HTML 文件或 URL 解析为 Markdown"
    )

-    parser.add_argument("input_path", help="DOC、DOCX、XLS、XLSX、PPT、PPTX、PDF、HTML 文件或 URL")
+    parser.add_argument("input_path", help="DOCX、XLS、XLSX、PPTX、PDF、HTML 文件或 URL")

    parser.add_argument(
        "-a",