次世代デジタルライブラリーの紹介と史料リンク集

次世代デジタルライブラリーとは？

国立国会図書館より提供されている 次世代デジタルライブラリー が、めちゃくちゃ便利なことに今更ながら気づきました。

どういうサービスかというと、公式ではこのように説明されています。

次世代デジタルライブラリーは、国立国会図書館次世代システム開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。全文テキスト検索機能や機械学習を用いた自動処理、International Image Interoperability Framework（IIIF） API等の技術的有効性を検証することを目的としています。

検索対象は「国立国会図書館デジタルコレクション」でインターネット公開をしている著作権保護期間満了となった図書及び古典籍のデジタル化資料（約35万点）です。

次世代デジタルライブラリー | NDLラボより

システムの技術的有効性を検証することを目的とした 実験的な検索サービス とある点は留意しておく必要がありますが、国立国会図書館デジタルコレクション（旧・近代デジタルライブラリー）でインターネット公開され、著作権の保護期間が終わっている全ての図書と古典籍を対象に、全文検索できるという、素晴らしいサービスです。

次世代デジタルライブラリーのどこが便利？

全文検索機能自体は、現在、国立国会図書館デジタルコレクションでも可能となっていて、おそらく次世代デジタルライブラリーでも同じ検索APIが利用されているものと思われますが、個人的に大きな違いと考えているのが、検索結果ページが個別にURLを持っていることです。

たとえば、こういう感じです。

例(1)のように複数の図書を対象とした検索の場合でも、詳細を見るためには例(2)のような各図書の検索結果に遷移するわけですが、このページが非常に分かりやすいんです。

例(2)のスクリーンショット（左ペイン）

複数のページを対象とした検索結果では、このように左ペインにて、各コマの該当箇所を切り抜いてキーワードがハイライト表示されます。コマ番号の部分は該当コマへのリンクになっています。

検索語をデコードすると、このページのURLはこういう構造になっています。

https://lab.ndl.go.jp/dl/book/1155150?keyword=右京大夫

1155150 の部分は、国立国会図書館によってデジタル化資料ごとに付与されている識別子、NDLJP（PID）です。

※詳しくはオープンデータセット｜国立国会図書館-National Diet Library および書誌IDリストについて（txt: 6 KB）を参照してください。

https://lab.ndl.go.jp/dl/book/1155150

対象資料のNDLJP(PID)が判明していれば、次世代デジタルライブラリーにおける資料のURLも分かるということですね。

そして、その後ろに付与されているパラメータ「keyword=右京大夫」が検索語になります。

今どきのブラウザであれば、検索語のエンコードは勝手にやってくれると思いますので…

https://lab.ndl.go.jp/dl/book/1155150?keyword=赤松

こんな感じでURLをブラウザのアドレスバーにペーストすれば、同じ資料での別の検索語による検索結果ページが見られるわけです。

例(3)のスクリーンショット（右ペイン、文書へのピン表示）

左ペインのコマ番号のリンクから、247コマのページを開いたところです。検索語の該当箇所にはマーカーが表示されていて、分かりやすいですね。

このページのURLはこうなっています。

https://lab.ndl.go.jp/dl/book/1155150?keyword=右京大夫&page=247

URLにまた別のパラメータ「page=247」が付与されていますが、これがコマ番号になります。

例(3)のスクリーンショット（テキスト表示）

更に、247コマのページから右上部のツールバー（？）の右端のアイコン「テキスト表示」をクリックしたところです。

このように、モーダル形式でテキストが表示され、検索語の該当箇所がハイライト表示されます。そして当然、このテキストは範囲選択してコピーできます！

時々、旧字そのままだったり、異体字になっていたり、ルビや補足として書かれた文字がうまく配置されていないこともありますが、目視での人力タイピングに比べると、テキスト化の効率は段違いです。

（読みが分かっている漢字でも、IMEに辞書登録されていなかったりして、変換の困難さで無駄に時間を掛けたことのある方、大勢いるんじゃないでしょうか……）

これだけでも非常に便利なのですが、前述の通り、この検索結果ページのURLは「資料のNDLJP(PID)」＋「検索語」＋「コマ番号」で構成されています。

つまり、SNSやブログで典拠を示す際に、「この史料集に含まれるこの史料のここに書いてます」というのがURLで明示でき、閲覧者はそれを自分の目ですぐに確認できるわけですよ。

このような引用の方法は紙の本では実現できませんし、現状、動画配信サービス等でも実現は困難でしょう。（Youtubeでは動画の一部にリンクを埋め込む機能はあるようですが、このような使い方は想定されていないと思います。）

なお、次世代デジタルライブラリーでは、国立国会図書館のOCRテキスト化事業の成果が順次反映されていくようですので、例(1)のように複数の図書を対象とした検索の場合、後から検索結果の内容が変わる可能性がありますが、例(2)や例(3)のように対象の図書を特定した検索結果であれば、内容が変わる可能性はほぼないはずです。

（この点については公式の説明にも「テキストデータは検索のために機械的処理を施したものであり、原則として修正依頼には応じておりません。」とあり、OCRによるテキスト化に漏れや誤りがある場合でも原則的には修正されないようです。）

このブログでは今後、次世代デジタルライブラリーの全文検索を活用するとともに、検索結果ページのURLを用いた典拠の明示を実践していきたいと思います。

国立国会図書館のOCR関連事業しゅごい……

~~次世代デジタルライブラリーにおける全文検索機能のベースとなっているのが、OCR処理プログラム NDLOCR です。~~

（追記：これについては僕の誤解でしたので、以下訂正します。※Twitterにて開発者の青池さまよりご指摘いただきました）

次世代デジタルライブラリーの全文検索機能には、活字資料については令和3年度のOCRテキスト化事業で作成されたデータが利用され、くずし字や異体字、変体仮名等が含まれる古典籍資料については、令和3年度に委託開発されたOCR処理プログラム「NDLOCR」を部分的に取り入れつつ、令和4年度に独自開発された「NDL古典籍OCR」によってテキスト化したデータが利用されているそうです。

つまり、国立国会図書館のOCR関連事業の成果を元に、実験的サービスとして提供されているのが、次世代デジタルライブラリーなんですね。

詳細は、NDLラボの下記ページをご参照ください。