PDFの壁を打ち破る:数式・表・多段組対応のデータ抽出ツール MinerUの威力


PDFの壁を打ち破る:数式・表・多段組対応のデータ抽出ツール MinerUの威力

opendatalab/MinerU

2025-10-14

ホテルのコンシェルジュのように、このツールをどのように活用できるか、導入方法、そしてサンプルコードまで、分かりやすく丁寧にご案内しますね。

MinerUは、一言でいうと「複雑なPDFなどの非構造化データを、大規模言語モデル(LLM)がすぐに使える、構造化されたデータ(MarkdownやJSON)に魔法のように変換してくれる」Pythonライブラリです。

PDFは、論文、契約書、技術仕様書、報告書など、重要な情報源でありながら、データとして扱うには非常に手間がかかります。従来のPDFパースは、レイアウトが崩れたり、表や数式が文字化けしたりと、苦労が絶えませんでした。

MinerUは、この「PDFからのデータ抽出と前処理の苦痛」を解消してくれます。

課題(Before MinerU)メリット(After MinerU)
データ前処理の地獄: PDFから手作業でコピペ、または複雑な正規表現やカスタムスクリプトで抽出。LLM-Readyなデータ: 高精度で構造を保ったMarkdownやJSONを自動生成。前処理時間が激減。
レイアウトの複雑さ: 多段組、ヘッダー/フッター、脚注が混在し、テキストがバラバラになる。正確な読み順の確保: 人間が読む自然な順序でテキストを再構成。エージェント(Agentic Workflow)の入力として最適。
非構造化データの壁: 表や数式をデータ化するのが困難。OCRが必要な場合もある。リッチなデータ抽出: 表をHTMLに、数式を$\LaTeX$に変換してくれます。スキャンPDFのOCRも自動で対応。
エージェント開発のボトルネック: 信頼性の低いPDF抽出結果が、エージェントの意思決定を歪ませる。信頼性の高い入力: クリーンで構造化されたデータにより、エージェントの処理精度と信頼性が向上。

MinerUはPythonで提供されています。セットアップは非常にシンプルです。

Python 3.8以上が必要です。仮想環境(venvcondaなど)での作業を強くお勧めします。

pipを使って簡単にインストールできます。

# ターミナルで実行
pip install mineru

OCR機能など、特定の機能を利用する場合は、追加の依存関係をインストールすることが推奨されています。

# 拡張機能を使いたい場合はこちら
# 詳細な要件は公式のGitHubリポジトリをご確認ください。
# 例: pip install mineru[ocr, all] など

ここでは、PDFファイルを読み込み、Markdown形式とJSON形式に変換する基本的なコードをご紹介します。

import os
from mineru.pdf import PDFMiner
from mineru.schemas import OutputFormat

# 1. MinerUクライアントの初期化
# 多くの設定がありますが、基本はこのままでOK
miner = PDFMiner(
    # デフォルトではMarkdown形式で構造を保持
    output_format=OutputFormat.MARKDOWN_MULTI_MODAL
)

# 2. 解析したいPDFファイルのパスを指定
pdf_path = "specification.pdf"

# ※ 注意: このサンプルを実行するには、作業ディレクトリに 'specification.pdf' を配置してください。
if not os.path.exists(pdf_path):
    print(f"エラー: ファイル '{pdf_path}' が見つかりません。テスト用のPDFを配置してください。")
else:
    print(f"'{pdf_path}' の解析を開始します...")

    # 3. PDFの解析を実行
    # parse_pdfメソッドは、指定したフォーマット(ここではMarkdown)の文字列を返します。
    # 結果は MinerUResult オブジェクトとして返されます。
    result = miner.parse_pdf(pdf_path)

    # --- 結果の確認と保存 ---

    # 4. Markdown形式の出力を取得し、ファイルに保存
    markdown_content = result.get_content(OutputFormat.MARKDOWN_MULTI_MODAL)
    output_md_path = "output_spec.md"

    with open(output_md_path, "w", encoding="utf-8") as f:
        f.write(markdown_content)

    print("-" * 30)
    print(f"Markdown形式での抽出が完了しました。ファイル: {output_md_path}")
    print("\n--- 抽出されたMarkdownのプレビュー (最初の一部) ---")
    print(markdown_content[:500] + "...") # 最初の500文字を表示

    # 5. JSON形式の出力を取得(より構造化されたデータ向け)
    # JSON形式は、段落、表、数式などがオブジェクトとして格納され、プログラムで扱いやすいです。
    json_content = result.get_content(OutputFormat.JSON_READ_ORDER)
    output_json_path = "output_spec.json"

    with open(output_json_path, "w", encoding="utf-8") as f:
        f.write(json_content)
    
    print("-" * 30)
    print(f"JSON形式での抽出が完了しました。ファイル: {output_json_path}")
    print("\n--- 抽出されたJSONデータのプレビュー (最初の一部) ---")
    import json
    json_data = json.loads(json_content)
    # JSONデータの中身の構造を確認
    print(f"ルート要素のキー: {list(json_data.keys())}")
    if 'pages' in json_data and json_data['pages']:
        print(f"最初のページの要素数: {len(json_data['pages'][0]['elements'])}")
    print("...")

Markdownデータ(output_spec.md
LLMのコンテキストウィンドウにそのまま入力し、要約、質問応答、特定の情報抽出を行う。 例: 「この仕様書に記載されているセキュリティ要件を3点抽出せよ」

JSONデータ(output_spec.json
データをパースし、特定のセクション(例
表データ)をデータベースに格納したり、プログラム的に処理したりする。 例: JSON内のtype: 'table'のエントリを抽出し、pandas DataFrameに変換して分析する。


opendatalab/MinerU




ACL 2025発表の「Dolphin」がエンジニアにもたらす変革

おいおい、今日のバーベキュー、最高の肉が手に入ったぜ! あ、〇〇ちゃん、今日もお肉焼くの上手だね!「いやぁ、そんなことないっすよ。この網の熱を均一にする技術、まるでドキュメントのレイアウトを完璧に読み取るAIみたいじゃないですか!」え?なんだって?


ソフトウェアエンジニア必見!PyTorch導入ガイドとGPU活用で実現する高速ディープラーニング

PyTorchは、FacebookのAI研究グループによって開発された、Pythonベースのオープンソース機械学習ライブラリです。特に深層学習(ディープラーニング)の研究や開発で非常に人気があります。ユーザーさんが指定してくださった説明にあるように、その核となる要素は以下の2点です。


証拠物件(EPUB)を逃がすな。calibredbで実現する、エンジニア流・電子書籍取り調べ術

エンジニアの皆さん、お疲れ様です。今日は、電子書籍界の「巨大な証拠保管庫」こと calibre について、警察のガサ入れ…ではなく、技術的な「現場検証」をしていきましょう。電子書籍の管理ソフトとして有名な calibre ですが、中身は Python で書かれた超巨大なオープンソースプロジェクト です。エンジニアにとっては、ただの「本棚」以上の価値があります。


ソフトウェアエンジニア必見! MCPでAI開発の密室を突破する

おいおい、一体どういうことだ!? この部屋は完全に密室じゃないか!…おっと、すみません。ついドラマの役に入り込んでしまいました。でも、この密室、実は我々ソフトウェアエンジニアの目の前にある「AI開発の密室」かもしれません。「ん? AIの密室ってどういうこと?」と、あなたは首を傾げていますね。ご説明しましょう。


ハルシネーションを許さない。LangExtractで実現する根拠(ソース)付きの情報抽出の実践

「彼女の下着は何色?」という、一歩間違えれば通報案件の問いを、LangExtractがどう鮮やかに(かつ紳士的に)解決するのか……。コント仕立てのサンプルコードと一緒に見ていきましょう!一言でいうと、「LLMを使って、超高精度かつ『証拠付き』でテキストを構造化データ(JSON等)にするライブラリ」です。


ダース・ベイダーが教えるOdoo入門:Pythonでビジネスアプリを構築

ルーク 父上、それは何ですか? ジェダイの力がビジネスを成長させるんですか?ダース・ベイダー フッフッフ. ..。ジェダイの力も素晴らしいが、これは企業を支配する力だ! ソフトウェアエンジニアにとって、このOdooは、まるでフォースのように強力な武器となる。


【攻略本】RAG_Techniques:エンジニアのためのAI検索コンボ技・完全マスターガイド

NirDiamant/RAG_Techniques は、AI開発の世界における「最新アーケードゲームの攻略ガイド」のようなリポジトリです。普通のRAG(検索拡張生成)が「パンチマシン」だとしたら、ここは「コンボ技」や「隠しコマンド」が満載の格闘ゲーム会場といったところでしょうか。


【エンジニア向け】Ollama Pythonライブラリ徹底解説:ローカルLLMをアプリケーションに手軽に組み込む方法

「Ollama Python library」は、ローカル環境で動作するLLM実行環境「Ollama」を、Pythonコードから簡単に操作するための公式ライブラリです。これがエンジニアにとってどのように役立つかというと、主に以下の点があります。


現場直結!Difyで始めるプロダクションレディなエージェントワークフロー入門

(現場は薄暗い取り調べ室。刑事役の私と、容疑者役のDifyが向かい合っています)私(刑事) さて、Difyくん。キミは一体何者なんだ?「Production-ready platform for agentic workflow development」… ソフトウェアエンジニアにとって、どういう意味があるのか、正直に話してもらおうか!


35の雑音をAIが「大吟醸」に精製!ソフトウェア開発者のための情報過多対策ツール最前線

さあ、今宵は情報過多を乗りこなすための特選ツールの飲み比べです!これが今回ご紹介する「TrendRadar」です!口に含むと、情報が雑味なく整理されて、まるでクリアな大吟醸のようにスッと入ってきます。味わい(機能) 35以上のプラットフォーム(ニュース、SNS、専門メディア)から熱点を集約し、AIが「これは重要だ!」という情報だけを厳選してくれます。さらに、AI対話分析でトレンド追跡、感情分析、相似検索など13種のディープな分析が可能。