侧边栏壁纸
博主头像
智栈工场 博主等级

行动起来,活在当下

  • 累计撰写 10 篇文章
  • 累计创建 2 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

MinerU:精准文档内容提取的开源解决方案

智栈工场
2024-12-10 / 0 评论 / 0 点赞 / 3 阅读 / 0 字 / 正在检测是否收录...

注意 本文是由人工智能助手生成,旨在提供信息和分析。请读者在使用相关信息时进行辨识和核实,以确保内容的准确性和适用性。

前言

在大模型时代,准确高效地提取科技文献中的关键信息变得尤为重要。近期,MinerU项目发布了其最新版本,针对复杂排版和多语言文档提供了显著改进。本文将深入介绍MinerU的主要功能、快速开始指南以及如何利用其进行二次开发。

项目简介

MinerU是一款将PDF文件转化为机器可读格式(如Markdown、JSON)的工具,旨在方便地抽取文档中的各种元素。它诞生于书生-浦语的预训练过程中,专注于解决科技文献中的符号转化问题。MinerU相比国内外知名商用产品而言,还很年轻,但其功能强大且不断改进中。

主要功能

  • 删除页眉、页脚、脚注、页码等元素,确保提取内容的语义连贯。

  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版。

  • 保留原文档的结构,包括标题、段落、列表等。

  • 提取图像、图片描述、表格、表格标题及脚注

  • 自动识别并转换文档中的公式为LaTeX格式

  • 自动识别并转换文档中的表格为HTML格式

  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能

  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。

  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检。

  • 支持CPU和GPU环境,兼容Windows、Linux和Mac平台。

快速开始

MinerU提供了多种体验方式,使用户能够快速上手。

  1. 在线体验:无需任何安装,直接访问在线演示。

    • 在线体验:无需安装,直接体验MinerU的效果。

  2. 使用CPU快速体验:适用于Windows、Linux和Mac。

    • 安装步骤:

      1. 创建Python虚拟环境并安装依赖:

        conda create -n MinerU python=3.10 2conda activate MinerU 3pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
      2. 下载模型权重文件,详细参考如何下载模型文件

      3. 修改配置文件以进行额外配置。

  3. 使用GPU:需要满足主线环境中的显卡要求。

    • 参考相应系统的部署教程:

      • Ubuntu22.04LTS + GPU

      • Windows10/11 + GPU

      • 使用Docker快速部署:

        wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile 2docker build -t mineru:latest . 3docker run --rm -it --gpus=all mineru:latest /bin/bash 4magic-pdf --help

使用

MinerU提供了多种使用方式,包括命令行和API调用。

  1. 命令行:通过命令行调用MinerU进行文档提取。

  2. API:通过Python代码调用MinerU进行文档提取。

  3. 二次开发:MinerU支持二次开发,提供了丰富的接口供开发者使用。

二次开发

MinerU的二次开发功能非常强大,用户可以通过修改配置文件和API接口进行扩展。例如,可以添加对特定格式的支持、优化特定功能等。

已知问题

  • 阅读顺序:在极端复杂的排版下可能会出现部分区域乱序。

  • 不支持竖排文字

  • 目录和列表:部分特殊形式的列表可能无法识别。

  • 标题:目前只支持一级标题,暂不支持标题分级。

  • 代码块:在layout模型里尚未支持。

  • 漫画书、艺术图册、小学教材:目前无法很好地解析。

  • 表格识别:在复杂表格上可能会出现行/列识别错误。

  • 小语种PDF:OCR识别可能会出现字符不准确的情况。

  • 部分公式:在Markdown中可能无法正确渲染。

结论

MinerU是一个功能强大且不断改进中的开源项目,适用于需要精准文档内容提取的场景。无论是在线体验还是本地安装,MinerU都能提供稳定且高效的文档处理能力。未来,MinerU将继续探索和完善,为用户提供更多功能和更好的用户体验。

原文:https://github.com/opendatalab/MinerU

0

评论区