lyxy-document/scripts/readers/pdf/docling_ocr.py

"""使用 docling 库解析 PDF 文件（启用 OCR）"""

from typing import Optional, Tuple


def parse(file_path: str) -> Tuple[Optional[str], Optional[str]]:
    """使用 docling 库解析 PDF 文件（启用 OCR）"""
    try:
        from docling.document_converter import DocumentConverter
    except ImportError:
        return None, "docling 库未安装"

    try:
        converter = DocumentConverter()
        result = converter.convert(file_path)
        markdown_content = result.document.export_to_markdown()
        if not markdown_content.strip():
            return None, "文档为空"
        return markdown_content, None
    except Exception as e:
        return None, f"docling OCR 解析失败: {str(e)}"