MinerU：精准文档内容提取的开源解决方案-智栈工场

注意本文是由人工智能助手生成，旨在提供信息和分析。请读者在使用相关信息时进行辨识和核实，以确保内容的准确性和适用性。

前言

在大模型时代，准确高效地提取科技文献中的关键信息变得尤为重要。近期，MinerU项目发布了其最新版本，针对复杂排版和多语言文档提供了显著改进。本文将深入介绍MinerU的主要功能、快速开始指南以及如何利用其进行二次开发。

项目简介

MinerU是一款将PDF文件转化为机器可读格式（如Markdown、JSON）的工具，旨在方便地抽取文档中的各种元素。它诞生于书生-浦语的预训练过程中，专注于解决科技文献中的符号转化问题。MinerU相比国内外知名商用产品而言，还很年轻，但其功能强大且不断改进中。

主要功能

删除页眉、页脚、脚注、页码等元素，确保提取内容的语义连贯。
输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版。
保留原文档的结构，包括标题、段落、列表等。
提取图像、图片描述、表格、表格标题及脚注。
自动识别并转换文档中的公式为LaTeX格式。
自动识别并转换文档中的表格为HTML格式。
自动检测扫描版PDF和乱码PDF，并启用OCR功能。
支持多种输出格式，如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。
支持多种可视化结果，包括layout可视化、span可视化等，便于高效确认输出效果与质检。
支持CPU和GPU环境，兼容Windows、Linux和Mac平台。

快速开始

MinerU提供了多种体验方式，使用户能够快速上手。

在线体验：无需任何安装，直接访问在线演示。
- 在线体验：无需安装，直接体验MinerU的效果。
使用CPU快速体验：适用于Windows、Linux和Mac。
- 安装步骤：
  1. 创建Python虚拟环境并安装依赖：
```
conda create -n MinerU python=3.10 2conda activate MinerU 3pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
```
  2. 下载模型权重文件，详细参考如何下载模型文件。
  3. 修改配置文件以进行额外配置。

使用GPU：需要满足主线环境中的显卡要求。

参考相应系统的部署教程：

Ubuntu22.04LTS + GPU
Windows10/11 + GPU

使用Docker快速部署：

wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile 2docker build -t mineru:latest . 3docker run --rm -it --gpus=all mineru:latest /bin/bash 4magic-pdf --help

使用

MinerU提供了多种使用方式，包括命令行和API调用。

命令行：通过命令行调用MinerU进行文档提取。
- 通过命令行使用MinerU
API：通过Python代码调用MinerU进行文档提取。
- 通过Python代码调用MinerU
二次开发：MinerU支持二次开发，提供了丰富的接口供开发者使用。
- 示例代码参考：demo.py、magic_pdf_parse_main.py

二次开发

MinerU的二次开发功能非常强大，用户可以通过修改配置文件和API接口进行扩展。例如，可以添加对特定格式的支持、优化特定功能等。

已知问题

阅读顺序：在极端复杂的排版下可能会出现部分区域乱序。
不支持竖排文字。
目录和列表：部分特殊形式的列表可能无法识别。
标题：目前只支持一级标题，暂不支持标题分级。
代码块：在layout模型里尚未支持。
漫画书、艺术图册、小学教材：目前无法很好地解析。
表格识别：在复杂表格上可能会出现行/列识别错误。
小语种PDF：OCR识别可能会出现字符不准确的情况。
部分公式：在Markdown中可能无法正确渲染。

结论

MinerU是一个功能强大且不断改进中的开源项目，适用于需要精准文档内容提取的场景。无论是在线体验还是本地安装，MinerU都能提供稳定且高效的文档处理能力。未来，MinerU将继续探索和完善，为用户提供更多功能和更好的用户体验。

原文：https://github.com/opendatalab/MinerU

目录CONTENT

MinerU：精准文档内容提取的开源解决方案

前言