k-holyの史跡巡り・歴史学習メモ

趣味の史跡巡りを楽しむために学んだことを公開している「学習メモ」です。

次世代デジタルライブラリーの紹介と史料リンク集

次世代デジタルライブラリーとは?

国立国会図書館より提供されている 次世代デジタルライブラリー が、めちゃくちゃ便利なことに今更ながら気づきました。

どういうサービスかというと、公式ではこのように説明されています。

次世代デジタルライブラリーは、国立国会図書館次世代システム開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。全文テキスト検索機能や機械学習を用いた自動処理、International Image Interoperability Framework(IIIF) API等の技術的有効性を検証することを目的としています。

検索対象は「国立国会図書館デジタルコレクション」でインターネット公開をしている著作権保護期間満了となった図書及び古典籍のデジタル化資料(約35万点)です。

次世代デジタルライブラリー | NDLラボ より

システムの技術的有効性を検証することを目的とした 実験的な検索サービス とある点は留意しておく必要がありますが、国立国会図書館デジタルコレクション(旧・近代デジタルライブラリー)でインターネット公開され、著作権の保護期間が終わっている全ての図書と古典籍を対象に、全文検索できるという、素晴らしいサービスです。

次世代デジタルライブラリーのどこが便利?

全文検索機能自体は、現在、国立国会図書館デジタルコレクションでも可能となっていて、おそらく次世代デジタルライブラリーでも同じ検索APIが利用されているものと思われますが、個人的に大きな違いと考えているのが、検索結果ページが個別にURLを持っていることです。

たとえば、こういう感じです。

例(1)のように複数の図書を対象とした検索の場合でも、詳細を見るためには例(2)のような各図書の検索結果に遷移するわけですが、このページが非常に分かりやすいんです。

複数のページを対象とした検索結果では、このように左ペインにて、各コマの該当箇所を切り抜いてキーワードがハイライト表示されます。コマ番号の部分は該当コマへのリンクになっています。

検索語をデコードすると、このページのURLはこういう構造になっています。

https://lab.ndl.go.jp/dl/book/1155150?keyword=右京大夫

1155150 の部分は、国立国会図書館によってデジタル化資料ごとに付与されている識別子、NDLJP(PID)です。

※詳しくは オープンデータセット|国立国会図書館-National Diet Library および 書誌IDリストについて(txt: 6 KB) を参照してください。

https://lab.ndl.go.jp/dl/book/1155150

対象資料のNDLJP(PID)が判明していれば、次世代デジタルライブラリーにおける資料のURLも分かるということですね。

そして、その後ろに付与されているパラメータ「keyword=右京大夫」が検索語になります。

今どきのブラウザであれば、検索語のエンコードは勝手にやってくれると思いますので…

https://lab.ndl.go.jp/dl/book/1155150?keyword=赤松

こんな感じでURLをブラウザのアドレスバーにペーストすれば、同じ資料での別の検索語による検索結果ページが見られるわけです。

左ペインのコマ番号のリンクから、247コマのページを開いたところです。検索語の該当箇所にはマーカーが表示されていて、分かりやすいですね。

このページのURLはこうなっています。

https://lab.ndl.go.jp/dl/book/1155150?keyword=右京大夫&page=247

URLにまた別のパラメータ「page=247」が付与されていますが、これがコマ番号になります。

更に、247コマのページから右上部のツールバー(?)の右端のアイコン「テキスト表示」をクリックしたところです。

このように、モーダル形式でテキストが表示され、検索語の該当箇所がハイライト表示されます。そして当然、このテキストは範囲選択してコピーできます!

時々、旧字そのままだったり、異体字になっていたり、ルビや補足として書かれた文字がうまく配置されていないこともありますが、目視での人力タイピングに比べると、テキスト化の効率は段違いです。

(読みが分かっている漢字でも、IMEに辞書登録されていなかったりして、変換の困難さで無駄に時間を掛けたことのある方、大勢いるんじゃないでしょうか……)

これだけでも非常に便利なのですが、前述の通り、この検索結果ページのURLは「資料のNDLJP(PID)」+「検索語」+「コマ番号」で構成されています。

つまり、SNSやブログで典拠を示す際に、「この史料集に含まれるこの史料のここに書いてます」というのがURLで明示でき、閲覧者はそれを自分の目ですぐに確認できるわけですよ。

このような引用の方法は紙の本では実現できませんし、現状、動画配信サービス等でも実現は困難でしょう。(Youtubeでは動画の一部にリンクを埋め込む機能はあるようですが、このような使い方は想定されていないと思います。)

なお、次世代デジタルライブラリーでは、国立国会図書館OCRテキスト化事業の成果が順次反映されていくようですので、例(1)のように複数の図書を対象とした検索の場合、後から検索結果の内容が変わる可能性がありますが、例(2)や例(3)のように対象の図書を特定した検索結果であれば、内容が変わる可能性はほぼないはずです。

(この点については公式の説明にも「テキストデータは検索のために機械的処理を施したものであり、原則として修正依頼には応じておりません。」とあり、OCRによるテキスト化に漏れや誤りがある場合でも原則的には修正されないようです。)

このブログでは今後、次世代デジタルライブラリーの全文検索を活用するとともに、検索結果ページのURLを用いた典拠の明示を実践していきたいと思います。

国立国会図書館OCR関連事業しゅごい……

次世代デジタルライブラリーにおける全文検索機能のベースとなっているのが、OCR処理プログラム NDLOCR です。

(追記:これについては僕の誤解でしたので、以下訂正します。※Twitterにて開発者の青池さまよりご指摘いただきました)

次世代デジタルライブラリーの全文検索機能には、活字資料については令和3年度のOCRテキスト化事業で作成されたデータが利用され、くずし字や異体字変体仮名等が含まれる古典籍資料については、令和3年度に委託開発されたOCR処理プログラム「NDLOCR」を部分的に取り入れつつ、令和4年度に独自開発された「NDL古典籍OCR」によってテキスト化したデータが利用されているそうです。

つまり、国立国会図書館OCR関連事業の成果を元に、実験的サービスとして提供されているのが、次世代デジタルライブラリーなんですね。

詳細は、NDLラボの下記ページをご参照ください。

OCR処理プログラム「NDLOCR」に関して、どんな工夫が必要だったのか、分かりやすい記事がITmediaにありましたので、紹介します。(開発元「モルフォAIソリューションズ」のPR記事)

近代の活字資料をテキスト化するにあたり、旧字旧仮名、縦書きと横書きの混在といった問題があり、既存のOCR処理プログラムでは困難だったため、AIを活用した専用のソフトウェアを開発されたようです。

特に「レイアウト解析」による本文行の認識にAIが活用され、認識精度と処理速度を両立するため苦心されたことが窺えました。

また、NDLOCRの開発成果を活用した市販のOCRソフト「FROG AI-OCR」も販売され、大学や地方図書館でも利用されているとのこと。

現時点で次世代デジタルライブラリーの全文検索で利用されているデータはこのNDLOCRを使ったものではありませんが、国立国会図書館では今後、更に品質が高まったNDLOCRを活用して資料のテキスト化を進められる予定だそうです。(Twitterにて開発者の青池さまよりご教示いただきました)

次世代デジタルライブラリーでも、その成果が反映されていくと思われます。このような素晴らしい技術の恩恵を無料で受けられることに感謝しつつ、僕もこれからどんどん活用していきたいと思います。

併せて、史料を翻刻して出版された先人の方々にも感謝します。すでに著作権保護期間が満了しているからこそ、パブリックドメインとして無料で読めるわけですので。

著作権の保護期間は著作者の死後70年(改正前の旧法では50年)です。詳しくは 著作物等の保護期間の延長に関するQ&A | 文化庁 をご参照ください。

【随時更新】次世代デジタルライブラリーの史料リンク集

今後の活用のため、同時代史料を含む図書のURLをざっと調べました。せっかくなのでここに掲載しておきます。

あれが無いぞ!といったツッコミもあるかと思いますが、あくまで個人的な選定基準によるリストなので、ご了承ください。内容は随時更新する可能性があります。

なお、僕の個人的な対象期間はだいたい永享以後の室町後期、義教から義昭までです。(この範囲での情報提供は大歓迎です!まだまだ漏れがたくさんあると思います。)