lyxy-document

Author	SHA1	Message	Date
lanyuanxiaoyao	a490b2642c	feat: 新增 PPT 旧格式支持，重构 LibreOffice 转换工具 - 新增 PPT (旧格式) 解析器 - 重构 _utils.py，提取通用 convert_via_libreoffice 函数 - 更新依赖配置，添加 PPT 相关依赖 - 完善文档，更新 README 和 SKILL.md - 添加 PPT 文件检测函数 - 新增 PPT 解析器测试用例	2026-03-16 22:49:04 +08:00
lanyuanxiaoyao	e0c6ed1638	feat: 新增 .doc 格式支持，借助 LibreOffice soffice - 提取 LibreOffice 解析逻辑为公共工具函数 _utils.parse_via_libreoffice() - 新增 DocReader 独立 Reader，支持 .doc 格式 - 新增 is_valid_doc() 文件验证函数（复用 OLE2 检测） - 新增 doc 格式依赖配置（独立配置） - 新增完整的测试套件，使用静态测试文件 - 更新 README.md 和 SKILL.md，添加 .doc 格式支持说明 - 新增 openspec/specs/doc-reader/spec.md 规范文档 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-16 10:40:43 +08:00
lanyuanxiaoyao	0dd7aa221c	feat: 新增 LibreOffice soffice DOCX 解析器 - 新增 scripts/readers/docx/libreoffice.py - 在 MarkItDown 之后、python-docx 之前插入解析器 - 新增 tests/test_readers/test_docx/test_libreoffice.py - 更新 openspec/specs/docx-reader/spec.md Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2026-03-15 22:04:39 +08:00
lanyuanxiaoyao	65c746c639	refactor: 移除 doc 和 ppt reader 支持移除对旧版 .doc 和 .ppt 格式的支持，以简化项目架构和减少维护负担。变更内容： - 删除 scripts/readers/doc/ 目录 - 删除 scripts/readers/ppt/ 目录 - 从 readers/__init__.py 中移除 DocReader 和 PptReader - 从 utils/file_detection.py 中移除 is_valid_doc 和 is_valid_ppt - 从 config.py 中移除 doc 和 ppt 依赖配置 - 从 advice_generator.py 中移除相关映射 - 更新 CLI 帮助文档 - 更新 README.md 文档 - 删除相关测试用例 - 删除相关规范文档	2026-03-11 00:55:15 +08:00
lanyuanxiaoyao	cf10458dd6	feat: 添加 doc/xls/ppt 旧格式文档支持 - 新增 DocReader，支持 markitdown 和 pypandoc-binary 解析器 - 新增 XlsReader，支持 unstructured、markitdown 和 pandas+xlrd 解析器 - 新增 PptReader，支持 markitdown 解析器 - 添加 olefile 依赖用于验证 OLE2 格式 - 更新 config.py 添加 doc/xls/ppt 依赖配置 - 更新 --advice 支持 doc/xls/ppt 格式 - 添加相应的测试用例 - 同步 specs 到主目录	2026-03-10 23:09:13 +08:00
lanyuanxiaoyao	688933c228	fix: 移除 cleaner.py 顶层导入，完善 README 测试指引 - 移除 cleaner.py 中 beautifulsoup4 的顶层导入，改为完全依赖函数内动态导入 - 新增 README 快速开始章节，提供验证环境和基础测试命令 - 完善测试前置依赖说明，明确仅需 chardet 即可运行基础测试 - 更新所有测试命令，移除不必要的 --with beautifulsoup4	2026-03-10 11:08:51 +08:00
lanyuanxiaoyao	9daff73589	refactor: 调整模块导入路径，简化引用结构 - 更新 openspec/config.yaml 中 git 任务相关说明 - 将 scripts.core.* 改为 core.，scripts.readers. 改为 readers.* - 优化 lyxy_document_reader.py 中 sys.path 设置方式 - 同步更新所有测试文件的导入路径	2026-03-09 15:44:51 +08:00
lanyuanxiaoyao	47038475d4	refactor: 将 HTML 下载器拆分为子包结构将 scripts/readers/html/downloader.py (263行) 拆分为 downloader/ 子包，各下载器独立维护： - 创建 downloader/ 子包，包含 __init__.py、common.py 和 4 个下载器模块 - common.py 集中管理公共配置（USER_AGENT、CHROME_ARGS 等） - 各下载器统一接口 download(url: str) -> Tuple[Optional[str], Optional[str]] - 在 __init__.py 定义 DOWNLOADERS 列表显式注册，参考 parser 模式 - 更新 html/__init__.py 导入语句，从 .downloader import download_html - 添加完整的类型注解，提升代码可维护性	2026-03-09 01:13:42 +08:00
lanyuanxiaoyao	1aea561277	refactor: 重构 Reader 内部工具函数到独立模块 - 新增 scripts/readers/_utils.py 作为 Reader 内部共享工具模块 - 将 parse_with_markitdown 等函数从 core/markdown.py 迁移到 _utils.py - 函数重命名：parse_with_xxx → parse_via_xxx，_unstructured_elements_to_markdown → convert_unstructured_to_markdown - 更新 17 个 Reader 实现文件的 import 路径 - 从 core/__init__.py 移除已迁移函数的导出 - 新增测试文件 tests/test_readers/test_utils.py - 新增 spec 文档 openspec/specs/reader-internal-utils/spec.md 这次重构明确了模块边界：core/ 提供公共 API，readers/_utils.py 提供 Reader 内部工具	2026-03-09 00:56:05 +08:00
lanyuanxiaoyao	b80c635f07	refactor: 完善降级链的异常捕获机制为所有 Reader 的 parser 循环添加 try-except 防护层，确保即使 parser 抛出意外异常，降级链也能继续尝试下一个 parser。主要变更： - 所有 Reader (DocxReader/PdfReader/XlsxReader/PptxReader/HtmlReader) 的 parse 方法中添加防护层，捕获意外异常并标记为 [意外异常] - cleaner.clean_html_content() 添加异常处理，返回 (content, error) 元组 - HtmlReader.parse() 更新 cleaner 调用方式，处理新的返回值格式 - BaseReader 添加详细的异常处理规范文档设计原则：双层异常保护 - Parser 层：捕获预期的解析失败（库未安装、格式不支持） - Reader 层：捕获意外的编程错误（NoneType、索引越界等）	2026-03-09 00:26:51 +08:00
lanyuanxiaoyao	2b81dd49fe	refactor: 统一 HTML Reader 的 parse 签名，使用文件路径参数将所有 HTML Parser 的函数签名从接收 HTML 字符串改为接收文件路径，与其他 Reader（PDF、DOCX 等）保持一致。主要变更： - 修改 PARSERS 列表，移除 lambda 表达式，直接传递函数引用 - 在 HtmlReader.parse() 中统一管理临时文件（UTF-8 编码） - 每个 Parser 使用独立的临时文件副本，用完即清理 - 移除 download_and_parse() 方法，逻辑合并到 parse() 中 - 更新相关测试，改为直接传递文件路径受影响的 Parser： - trafilatura.parse(html_content) -> parse(file_path) - domscribe.parse(html_content) -> parse(file_path) - markitdown.parse(html_content, temp_file_path) -> parse(file_path) - html2text.parse(html_content) -> parse(file_path)	2026-03-09 00:05:23 +08:00
lanyuanxiaoyao	09904aefdc	refactor: 移除 BaseReader 中未使用的 supported_extensions 属性从 BaseReader 抽象基类及所有 Reader 子类中移除 supported_extensions 属性，该属性在代码库中从未被实际调用，仅作为元数据存在。	2026-03-08 22:56:32 +08:00
lanyuanxiaoyao	7eab1dcef1	test: 添加全面的测试套件，覆盖所有 Reader 实现 - 测试数量从 83 个增加到 193 个 (+132%) - 代码覆盖率从 48% 提升到 69% (+44%) - 为每种文档格式的所有 Reader 实现创建独立测试 - 添加跨 Reader 的一致性验证测试 - 新增 4 个测试规范 (cli-testing, exception-testing, reader-testing, test-fixtures) - 更新 README 测试统计信息测试覆盖: - DOCX: python-docx, markitdown, docling, native-xml, pypandoc, unstructured - PDF: pypdf, markitdown, docling, docling-ocr, unstructured, unstructured-ocr - HTML: html2text, markitdown, trafilatura, domscribe - PPTX: python-pptx, markitdown, docling, native-xml, unstructured - XLSX: pandas, markitdown, docling, native-xml, unstructured - CLI: 所有命令行选项和错误处理所有 193 个测试通过。	2026-03-08 22:20:21 +08:00
lanyuanxiaoyao	15b63800a8	refactor: 将核心代码迁移到 scripts 目录 - 创建 scripts/ 目录作为核心代码根目录 - 移动 core/, readers/, utils/ 到 scripts/ 下 - 移动 config.py, lyxy_document_reader.py 到 scripts/ - 移动 encoding_detection.py 到 scripts/utils/ - 更新 pyproject.toml 中的入口点路径和 pytest 配置 - 更新所有内部导入语句为 scripts.* 模块 - 更新 README.md 目录结构说明 - 更新 openspec/config.yaml 添加目录结构说明 - 删除无用的 main.py 此变更使项目结构更清晰，便于区分核心代码与测试、文档等支撑文件。	2026-03-08 17:41:03 +08:00

14 Commits