正直、驚きました。
「えっ、国立の機関がここまで実用的なツールを無料で出してくれるの!?国立国会図書館すごい!!」ってなりました。国立国会図書館(NDL)のNDLラボが、2026年2月に NDLOCR-Lite を公開しました。

これは図書や雑誌のスキャン画像からテキストを高精度で起こせるOCRソフトで、最大のポイントは「GPUが一切不要」というところ。今までのNDLOCRは研究者や機関向けでGPU必須だったんですけど、Lite版は普通のノートPCや家庭用PCでサクサク動くように軽量化。しかもデスクトップアプリとして提供されてて、マウスだけで操作できるのも最高です。

どんな人に刺さる?
古本の目録を作りたい人
資料をデジタル化してテキスト検索したい人
研究や執筆で大量の文字起こしが必要な人
プライバシーを守りつつローカルで完結させたい人

特に嬉しいのは英文や手書き文字にも実験的に対応している点。縦書きの日本語ももちろんOKです。実際に使ってみた印象(他の方のレビューも参考に)
・活字の印刷物はかなり高精度(98%前後という声も)
・手書きは「実験的」だけあって完璧ではないけど、意外と読めるケースが多い
・処理が速い(1ページあたり1〜2秒程度の報告多数)
・データが外部に送られないので安心
ndlocr

インストールした画面。さすがにそっけないw

インストールはGitHubから自分のOS版(Windows / Mac / Linux)をダウンロードするだけ。
ZIPを解凍してexe(または相当ファイル)を起動すればすぐ使えます。
公式ダウンロード:
https://github.com/ndl-lab/ndlocr-lite/releases
使い方の詳しいガイドはこちら:
https://lab.ndl.go.jp/data_set/ndlocrlite-usage/
ライセンスは CC BY 4.0 なので、クレジット表記さえすればブログや自分のプロジェクトで使ってもOK。商用利用も問題なしです。

快挙!と叫びたい!!昔のOCRと違って、AIが裏で動いているのでスキャン画像が多少粗くても意外と頑張ってくれそうです。
自分は古いスタンドスキャナーを持っているので、*本をばらさずに(自炊せずに)どこまでいけるか実験してみるつもりです。人間の目には粗い150dpiくらいでもいけるんじゃないか…と期待しています。結果が出たらまたブログで報告しますね!

ちょっとやってみました。

ndlocr2

グロタンディーク、『収穫と蒔いた種と』



技術的な補足
使用されているモデルレイアウト認識:DEIMv2(Real-Time Object Detection Meets DINOv3関連のモデル)を採用。

文字列認識:PARSeq(Scene text recognition with permuted autoregressive sequence models)を採用。

読み順整序:従来のNDLOCRと同じモジュールを使用。

これらの機械学習モデルは、PyTorchで学習した後、ONNX形式に変換して軽量化・推論に利用されています。開発者向けに学習・モデル変換の手順もGitHubに公開されています。

動作環境(公式確認済み)
OS:Windows 11、macOS Sequoia、Ubuntu 22.04
GPU:不要(CPUのみ)
形態:デスクトップGUIアプリ(マウス操作で完結)+ CLI版も利用可能
インストール:GitHub ReleasesからOS別のZIPをダウンロード → 解凍して起動するだけ。