lyxy-document

lanyuanxiaoyao/lyxy-document

Fork 0

Commit Graph

Author	SHA1	Message	Date
lanyuanxiaoyao	2b81dd49fe	refactor: 统一 HTML Reader 的 parse 签名，使用文件路径参数将所有 HTML Parser 的函数签名从接收 HTML 字符串改为接收文件路径，与其他 Reader（PDF、DOCX 等）保持一致。主要变更： - 修改 PARSERS 列表，移除 lambda 表达式，直接传递函数引用 - 在 HtmlReader.parse() 中统一管理临时文件（UTF-8 编码） - 每个 Parser 使用独立的临时文件副本，用完即清理 - 移除 download_and_parse() 方法，逻辑合并到 parse() 中 - 更新相关测试，改为直接传递文件路径受影响的 Parser： - trafilatura.parse(html_content) -> parse(file_path) - domscribe.parse(html_content) -> parse(file_path) - markitdown.parse(html_content, temp_file_path) -> parse(file_path) - html2text.parse(html_content) -> parse(file_path)	2026-03-09 00:05:23 +08:00
lanyuanxiaoyao	750ef50a8d	refactor: 重构解析器架构并添加编码检测和配置管理简化 parse_input() 为纯调度器，通过遍历 readers 的 supports() 方法识别输入类型，移除 URL 特殊处理和文件检查逻辑。各 reader 的 parse() 方法负责完整验证（文件存在、格式有效性）。新增功能： - 添加 chardet 编码自动检测，支持多种中文编码回退机制 - 创建统一配置类管理编码、下载超时、日志等级等配置项 - HTML reader 支持本地文件编码检测和 URL 统一处理安全性改进： - 修复 safe_open_zip() 路径遍历漏洞，使用 pathlib 规范化路径 - 添加边界检查，search_markdown() 检查负数参数其他改进： - 修复类型注解（argparse.Namespace） - 日志系统仅输出 ERROR 级别，避免干扰 Markdown 输出 - 更新 BaseReader 接口文档，明确 supports() 和 parse() 职责划分 - 同步 delta specs 到主 specs（document-reading、html-reader、configuration、encoding-detection）	2026-03-08 16:33:40 +08:00
lanyuanxiaoyao	6c003d73f3	docs: 同步 delta specs 到主 specs 从归档的 unify-document-readers change 同步 delta specs 到主 specs 目录。新增 specs： - document-reading - 统一文档读取核心能力 - docx-reader - DOCX 文档解析能力 - xlsx-reader - XLSX 文档解析能力 - pptx-reader - PPTX 文档解析能力 - pdf-reader - PDF 文档解析能力（含 OCR） - html-reader - HTML/URL 文档解析能力	2026-03-08 13:52:30 +08:00

Author

SHA1

Message

Date

lanyuanxiaoyao

2b81dd49fe

refactor: 统一 HTML Reader 的 parse 签名，使用文件路径参数

将所有 HTML Parser 的函数签名从接收 HTML 字符串改为接收文件路径，
与其他 Reader（PDF、DOCX 等）保持一致。

主要变更：
- 修改 PARSERS 列表，移除 lambda 表达式，直接传递函数引用
- 在 HtmlReader.parse() 中统一管理临时文件（UTF-8 编码）
- 每个 Parser 使用独立的临时文件副本，用完即清理
- 移除 download_and_parse() 方法，逻辑合并到 parse() 中
- 更新相关测试，改为直接传递文件路径

受影响的 Parser：
- trafilatura.parse(html_content) -> parse(file_path)
- domscribe.parse(html_content) -> parse(file_path)
- markitdown.parse(html_content, temp_file_path) -> parse(file_path)
- html2text.parse(html_content) -> parse(file_path)

2026-03-09 00:05:23 +08:00

lanyuanxiaoyao

750ef50a8d

refactor: 重构解析器架构并添加编码检测和配置管理

简化 parse_input() 为纯调度器，通过遍历 readers 的 supports() 方法识别输入类型，移除 URL 特殊处理和文件检查逻辑。各 reader 的 parse() 方法负责完整验证（文件存在、格式有效性）。

新增功能：
- 添加 chardet 编码自动检测，支持多种中文编码回退机制
- 创建统一配置类管理编码、下载超时、日志等级等配置项
- HTML reader 支持本地文件编码检测和 URL 统一处理

安全性改进：
- 修复 safe_open_zip() 路径遍历漏洞，使用 pathlib 规范化路径
- 添加边界检查，search_markdown() 检查负数参数

其他改进：
- 修复类型注解（argparse.Namespace）
- 日志系统仅输出 ERROR 级别，避免干扰 Markdown 输出
- 更新 BaseReader 接口文档，明确 supports() 和 parse() 职责划分
- 同步 delta specs 到主 specs（document-reading、html-reader、configuration、encoding-detection）

2026-03-08 16:33:40 +08:00

lanyuanxiaoyao

6c003d73f3

docs: 同步 delta specs 到主 specs

从归档的 unify-document-readers change 同步 delta specs 到主 specs 目录。

新增 specs：
- document-reading - 统一文档读取核心能力
- docx-reader - DOCX 文档解析能力
- xlsx-reader - XLSX 文档解析能力
- pptx-reader - PPTX 文档解析能力
- pdf-reader - PDF 文档解析能力（含 OCR）
- html-reader - HTML/URL 文档解析能力

2026-03-08 13:52:30 +08:00

3 Commits