lyxy-document

Author	SHA1	Message	Date
lanyuanxiaoyao	6e75c99d5b	chore: 更新 Claude Code 权限设置 - 将 WebSearch 从 allow 列表移到 deny 列表	2026-03-09 14:39:44 +08:00
lanyuanxiaoyao	d860e17b2c	feat: 添加 PyArmor 代码混淆支持 - 新增 --obfuscate 命令行参数，支持使用 PyArmor 混淆代码 - 通过 uv run --with pyarmor 按需加载 PyArmor，不污染主机环境 - 添加友好的错误提示，引导用户正确使用 --with pyarmor - 保持非混淆模式完全向后兼容 - 更新 skill-packaging spec，新增混淆相关需求	2026-03-09 14:36:52 +08:00
lanyuanxiaoyao	c140bda66b	docs: 移除 pyproject.toml，改为 uv run --with 依赖管理方式 - 移除 pyproject.toml 和 uv.lock - 更新 SKILL.md：使用 uv run --with 按需加载依赖 - 更新 README.md：添加多行格式的测试命令 - 更新项目规范文档 - 修复脚本：支持从任意位置执行 - 新增 uv-with-dependency-management 规范	2026-03-09 14:14:33 +08:00
lanyuanxiaoyao	dfe6904f4c	feat: 添加多平台依赖支持为不同平台提供特定的依赖 extras，解决 macOS x86_64 的依赖兼容性问题。 - 添加平台特定的 PDF 解析 extras：pdf-win, pdf-macos-intel, pdf-macos-arm, pdf-linux - 添加平台特定的 Office 文档 extras：office-win, office-macos-intel, office-macos-arm, office-linux - macOS x86_64 使用硬编码版本：docling==2.40.0, docling-parse==4.0.0 - 移除通用的 pdf 和 office extras，强制用户选择平台 - 更新 SKILL.md 添加详细的多平台依赖安装指南 - 更新 README.md 添加平台特定安装说明 - 在 .gitignore 中添加 uv.lock - 删除现有的 uv.lock 文件 - 创建 multi-platform-dependencies 规范文档	2026-03-09 10:49:53 +08:00
lanyuanxiaoyao	b2fb418a06	refactor: 将 skill 文档移动到项目根目录 - 将 skill/SKILL.md 移动至根目录 SKILL.md - 更新 build.py 中的路径配置 - 更新 openspec/config.yaml 中的文档位置说明	2026-03-09 10:05:40 +08:00
lanyuanxiaoyao	58093e0877	feat: 添加 skill 打包脚本 build.py 新增 build.py 实现 skill 自动化打包： - 一键完成 skill/SKILL.md 和 scripts/ 打包到 build/ - 时间戳版本号格式 YYYYMMDD_HHMMSS - 仅复制 .py 文件，避免创建空目录 - 添加 skill-packaging spec 文档	2026-03-09 01:37:36 +08:00
lanyuanxiaoyao	47038475d4	refactor: 将 HTML 下载器拆分为子包结构将 scripts/readers/html/downloader.py (263行) 拆分为 downloader/ 子包，各下载器独立维护： - 创建 downloader/ 子包，包含 __init__.py、common.py 和 4 个下载器模块 - common.py 集中管理公共配置（USER_AGENT、CHROME_ARGS 等） - 各下载器统一接口 download(url: str) -> Tuple[Optional[str], Optional[str]] - 在 __init__.py 定义 DOWNLOADERS 列表显式注册，参考 parser 模式 - 更新 html/__init__.py 导入语句，从 .downloader import download_html - 添加完整的类型注解，提升代码可维护性	2026-03-09 01:13:42 +08:00
lanyuanxiaoyao	1aea561277	refactor: 重构 Reader 内部工具函数到独立模块 - 新增 scripts/readers/_utils.py 作为 Reader 内部共享工具模块 - 将 parse_with_markitdown 等函数从 core/markdown.py 迁移到 _utils.py - 函数重命名：parse_with_xxx → parse_via_xxx，_unstructured_elements_to_markdown → convert_unstructured_to_markdown - 更新 17 个 Reader 实现文件的 import 路径 - 从 core/__init__.py 移除已迁移函数的导出 - 新增测试文件 tests/test_readers/test_utils.py - 新增 spec 文档 openspec/specs/reader-internal-utils/spec.md 这次重构明确了模块边界：core/ 提供公共 API，readers/_utils.py 提供 Reader 内部工具	2026-03-09 00:56:05 +08:00
lanyuanxiaoyao	b80c635f07	refactor: 完善降级链的异常捕获机制为所有 Reader 的 parser 循环添加 try-except 防护层，确保即使 parser 抛出意外异常，降级链也能继续尝试下一个 parser。主要变更： - 所有 Reader (DocxReader/PdfReader/XlsxReader/PptxReader/HtmlReader) 的 parse 方法中添加防护层，捕获意外异常并标记为 [意外异常] - cleaner.clean_html_content() 添加异常处理，返回 (content, error) 元组 - HtmlReader.parse() 更新 cleaner 调用方式，处理新的返回值格式 - BaseReader 添加详细的异常处理规范文档设计原则：双层异常保护 - Parser 层：捕获预期的解析失败（库未安装、格式不支持） - Reader 层：捕获意外的编程错误（NoneType、索引越界等）	2026-03-09 00:26:51 +08:00
lanyuanxiaoyao	2b81dd49fe	refactor: 统一 HTML Reader 的 parse 签名，使用文件路径参数将所有 HTML Parser 的函数签名从接收 HTML 字符串改为接收文件路径，与其他 Reader（PDF、DOCX 等）保持一致。主要变更： - 修改 PARSERS 列表，移除 lambda 表达式，直接传递函数引用 - 在 HtmlReader.parse() 中统一管理临时文件（UTF-8 编码） - 每个 Parser 使用独立的临时文件副本，用完即清理 - 移除 download_and_parse() 方法，逻辑合并到 parse() 中 - 更新相关测试，改为直接传递文件路径受影响的 Parser： - trafilatura.parse(html_content) -> parse(file_path) - domscribe.parse(html_content) -> parse(file_path) - markitdown.parse(html_content, temp_file_path) -> parse(file_path) - html2text.parse(html_content) -> parse(file_path)	2026-03-09 00:05:23 +08:00
lanyuanxiaoyao	09904aefdc	refactor: 移除 BaseReader 中未使用的 supported_extensions 属性从 BaseReader 抽象基类及所有 Reader 子类中移除 supported_extensions 属性，该属性在代码库中从未被实际调用，仅作为元数据存在。	2026-03-08 22:56:32 +08:00
lanyuanxiaoyao	7eab1dcef1	test: 添加全面的测试套件，覆盖所有 Reader 实现 - 测试数量从 83 个增加到 193 个 (+132%) - 代码覆盖率从 48% 提升到 69% (+44%) - 为每种文档格式的所有 Reader 实现创建独立测试 - 添加跨 Reader 的一致性验证测试 - 新增 4 个测试规范 (cli-testing, exception-testing, reader-testing, test-fixtures) - 更新 README 测试统计信息测试覆盖: - DOCX: python-docx, markitdown, docling, native-xml, pypandoc, unstructured - PDF: pypdf, markitdown, docling, docling-ocr, unstructured, unstructured-ocr - HTML: html2text, markitdown, trafilatura, domscribe - PPTX: python-pptx, markitdown, docling, native-xml, unstructured - XLSX: pandas, markitdown, docling, native-xml, unstructured - CLI: 所有命令行选项和错误处理所有 193 个测试通过。	2026-03-08 22:20:21 +08:00
lanyuanxiaoyao	c35bbc90b5	docs: 优化 skill 文档并添加更新原则优化 skill/SKILL.md 遵循 Claude Skill 构建指南： - 重写 YAML frontmatter，添加触发词和 compatibility 字段 - 新增 Purpose、When to Use、Quick Reference、Workflow 章节 - 说明双路径执行策略（lyxy-runner-python 优先，回退主机 Python） - 修正依赖说明，使用具体 pip 包名在 README.md 中添加 Skill 文档规范章节，明确更新原则新增 openspec/specs/skill-documentation/ 规范文件	2026-03-08 18:43:07 +08:00
lanyuanxiaoyao	8063e24f99	chore: 简化 pyproject.toml 配置 - 移除 dev 分组中的 black、isort、mypy 依赖 - 移除 [project.scripts] 命令行入口配置 - 移除 [build-system] 构建系统配置 - 移除所有工具配置（black、isort、mypy、pytest）	2026-03-08 18:18:58 +08:00
lanyuanxiaoyao	b98e70383c	docs: 分离用户文档与开发文档 - 将 README.md 重构为开发文档，包含开发环境、工作流、代码规范 - 新建 skill/SKILL.md 作为用户文档，包含快速开始和命令选项 - 更新 openspec/config.yaml 添加项目概述和 skill 目录声明	2026-03-08 18:08:44 +08:00
lanyuanxiaoyao	15b63800a8	refactor: 将核心代码迁移到 scripts 目录 - 创建 scripts/ 目录作为核心代码根目录 - 移动 core/, readers/, utils/ 到 scripts/ 下 - 移动 config.py, lyxy_document_reader.py 到 scripts/ - 移动 encoding_detection.py 到 scripts/utils/ - 更新 pyproject.toml 中的入口点路径和 pytest 配置 - 更新所有内部导入语句为 scripts.* 模块 - 更新 README.md 目录结构说明 - 更新 openspec/config.yaml 添加目录结构说明 - 删除无用的 main.py 此变更使项目结构更清晰，便于区分核心代码与测试、文档等支撑文件。	2026-03-08 17:41:03 +08:00
lanyuanxiaoyao	750ef50a8d	refactor: 重构解析器架构并添加编码检测和配置管理简化 parse_input() 为纯调度器，通过遍历 readers 的 supports() 方法识别输入类型，移除 URL 特殊处理和文件检查逻辑。各 reader 的 parse() 方法负责完整验证（文件存在、格式有效性）。新增功能： - 添加 chardet 编码自动检测，支持多种中文编码回退机制 - 创建统一配置类管理编码、下载超时、日志等级等配置项 - HTML reader 支持本地文件编码检测和 URL 统一处理安全性改进： - 修复 safe_open_zip() 路径遍历漏洞，使用 pathlib 规范化路径 - 添加边界检查，search_markdown() 检查负数参数其他改进： - 修复类型注解（argparse.Namespace） - 日志系统仅输出 ERROR 级别，避免干扰 Markdown 输出 - 更新 BaseReader 接口文档，明确 supports() 和 parse() 职责划分 - 同步 delta specs 到主 specs（document-reading、html-reader、configuration、encoding-detection）	2026-03-08 16:33:40 +08:00
lanyuanxiaoyao	eb044d37d9	chore: 将 openspec/changes/archive 移出 git 跟踪 - 在 .gitignore 中添加 openspec/changes/archive - 从 git 缓存中移除已跟踪的 archive 目录内容	2026-03-08 14:16:49 +08:00
lanyuanxiaoyao	6c003d73f3	docs: 同步 delta specs 到主 specs 从归档的 unify-document-readers change 同步 delta specs 到主 specs 目录。新增 specs： - document-reading - 统一文档读取核心能力 - docx-reader - DOCX 文档解析能力 - xlsx-reader - XLSX 文档解析能力 - pptx-reader - PPTX 文档解析能力 - pdf-reader - PDF 文档解析能力（含 OCR） - html-reader - HTML/URL 文档解析能力	2026-03-08 13:52:30 +08:00
lanyuanxiaoyao	833018d451	feat: 统一文档解析器项目 - 迁移 lyxy-reader-office 和 lyxy-reader-html ## 功能特性 - 建立统一的项目结构，包含 core/、readers/、utils/、tests/ 模块 - 迁移 lyxy-reader-office 的所有解析器（docx、xlsx、pptx、pdf） - 迁移 lyxy-reader-html 的所有解析器（html、url 下载） - 统一 CLI 入口为 lyxy_document_reader.py - 统一 Markdown 后处理逻辑 - 按文件类型组织 readers，每个解析器独立文件 - 依赖分组按文件类型细分（docx、xlsx、pptx、pdf、html、http） - PDF OCR 解析器优先，无参数控制 - 使用 logging 模块替代简单 print - 设计完整的单元测试结构 - 重写项目文档 ## 新增目录/文件 - core/ - 核心模块（异常体系、Markdown 工具、解析调度器） - readers/ - 格式阅读器（base.py + docx/xlsx/pptx/pdf/html） - utils/ - 工具函数（文件类型检测） - tests/ - 测试（conftest.py + test_core/ + test_readers/ + test_utils/） - lyxy_document_reader.py - 统一 CLI 入口 ## 依赖分组 - docx - DOCX 文档解析支持 - xlsx - XLSX 文档解析支持 - pptx - PPTX 文档解析支持 - pdf - PDF 文档解析支持（含 OCR） - html - HTML/URL 解析支持 - http - HTTP/URL 下载支持 - office - Office 格式组合（docx/xlsx/pptx/pdf） - web - Web 格式组合（html/http） - full - 完整功能 - dev - 开发依赖	2026-03-08 13:46:37 +08:00
lanyuanxiaoyao	eb8973495e	docs: 添加 git 提交信息格式规范	2026-03-08 11:51:06 +08:00
lanyuanxiaoyao	aa14ddc942	chore: 初始化 lyxy-document 项目 - 项目配置（pyproject.toml, uv.lock） - 初始入口文件 main.py - OpenSpec 配置和工作流 - Claude Code 技能和命令配置 - 项目文档（README.md, CLAUDE.md, AGENTS.md）	2026-03-08 11:50:34 +08:00

22 Commits