lyxy-document/scripts/readers/base.py

"""Reader 基类，定义所有文档阅读器的公共接口。"""

from abc import ABC, abstractmethod
from pathlib import Path
from typing import List, Optional, Tuple


class BaseReader(ABC):
    """文档阅读器基类。"""

    @property
    @abstractmethod
    def supported_extensions(self) -> List[str]:
        """返回支持的文件扩展名列表（如 ['.docx', '.doc']）。"""
        pass

    @abstractmethod
    def supports(self, file_path: str) -> bool:
        """
        判断是否支持给定的输入（轻量检查）。

        仅做初步判断（如扩展名、URL 模式），不进行完整验证。
        完整验证（文件存在、格式有效性）在 parse() 中进行。
        不访问文件系统，不打开文件。

        Args:
            file_path: 文件路径或 URL

        Returns:
            True 如果可能支持，False 否则
        """
        pass

    @abstractmethod
    def parse(self, file_path: str) -> Tuple[Optional[str], List[str]]:
        """
        解析文件并返回 Markdown 内容。

        需要检查文件存在和格式有效性，然后执行实际解析逻辑。

        Args:
            file_path: 文件路径或 URL

        Returns: (content, failures)
        - content: 成功时返回 Markdown 内容，失败时返回 None
        - failures: 各解析器的失败原因列表
        """
        pass