次世代デジタルライブラリーの紹介と史料リンク集
次世代デジタルライブラリーとは?
国立国会図書館より提供されている 次世代デジタルライブラリー が、めちゃくちゃ便利なことに今更ながら気づきました。
どういうサービスかというと、公式ではこのように説明されています。
次世代デジタルライブラリーは、国立国会図書館次世代システム開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。全文テキスト検索機能や機械学習を用いた自動処理、International Image Interoperability Framework(IIIF) API等の技術的有効性を検証することを目的としています。
検索対象は「国立国会図書館デジタルコレクション」でインターネット公開をしている著作権保護期間満了となった図書及び古典籍のデジタル化資料(約35万点)です。
システムの技術的有効性を検証することを目的とした 実験的な検索サービス とある点は留意しておく必要がありますが、国立国会図書館デジタルコレクション(旧・近代デジタルライブラリー)でインターネット公開され、著作権の保護期間が終わっている全ての図書と古典籍を対象に、全文検索できるという、素晴らしいサービスです。
次世代デジタルライブラリーのどこが便利?
全文検索機能自体は、現在、国立国会図書館デジタルコレクションでも可能となっていて、おそらく次世代デジタルライブラリーでも同じ検索APIが利用されているものと思われますが、個人的に大きな違いと考えているのが、検索結果ページが個別にURLを持っていることです。
たとえば、こういう感じです。
- 例(1)「日本史」カテゴリを指定して「右京大夫」で検索した結果
- 例(2)「大乗院寺社雑事記 第1巻 尋尊大僧正記 1-9」から「右京大夫」で検索した結果
- 例(3)「大乗院寺社雑事記 第1巻 尋尊大僧正記 1-9」の247コマから「右京大夫」で検索した結果
例(1)のように複数の図書を対象とした検索の場合でも、詳細を見るためには例(2)のような各図書の検索結果に遷移するわけですが、このページが非常に分かりやすいんです。
- 例(2)のスクリーンショット(左ペイン)
複数のページを対象とした検索結果では、このように左ペインにて、各コマの該当箇所を切り抜いてキーワードがハイライト表示されます。コマ番号の部分は該当コマへのリンクになっています。
検索語をデコードすると、このページのURLはこういう構造になっています。
https://lab.ndl.go.jp/dl/book/1155150?keyword=右京大夫
1155150 の部分は、国立国会図書館によってデジタル化資料ごとに付与されている識別子、NDLJP(PID)です。
※詳しくは オープンデータセット|国立国会図書館-National Diet Library および 書誌IDリストについて(txt: 6 KB) を参照してください。
https://lab.ndl.go.jp/dl/book/1155150
対象資料のNDLJP(PID)が判明していれば、次世代デジタルライブラリーにおける資料のURLも分かるということですね。
そして、その後ろに付与されているパラメータ「keyword=右京大夫」が検索語になります。
今どきのブラウザであれば、検索語のエンコードは勝手にやってくれると思いますので…
https://lab.ndl.go.jp/dl/book/1155150?keyword=赤松
こんな感じでURLをブラウザのアドレスバーにペーストすれば、同じ資料での別の検索語による検索結果ページが見られるわけです。
- 例(3)のスクリーンショット(右ペイン、文書へのピン表示)
左ペインのコマ番号のリンクから、247コマのページを開いたところです。検索語の該当箇所にはマーカーが表示されていて、分かりやすいですね。
このページのURLはこうなっています。
https://lab.ndl.go.jp/dl/book/1155150?keyword=右京大夫&page=247
URLにまた別のパラメータ「page=247」が付与されていますが、これがコマ番号になります。
- 例(3)のスクリーンショット(テキスト表示)
更に、247コマのページから右上部のツールバー(?)の右端のアイコン「テキスト表示」をクリックしたところです。
このように、モーダル形式でテキストが表示され、検索語の該当箇所がハイライト表示されます。そして当然、このテキストは範囲選択してコピーできます!
時々、旧字そのままだったり、異体字になっていたり、ルビや補足として書かれた文字がうまく配置されていないこともありますが、目視での人力タイピングに比べると、テキスト化の効率は段違いです。
(読みが分かっている漢字でも、IMEに辞書登録されていなかったりして、変換の困難さで無駄に時間を掛けたことのある方、大勢いるんじゃないでしょうか……)
これだけでも非常に便利なのですが、前述の通り、この検索結果ページのURLは「資料のNDLJP(PID)」+「検索語」+「コマ番号」で構成されています。
つまり、SNSやブログで典拠を示す際に、「この史料集に含まれるこの史料のここに書いてます」というのがURLで明示でき、閲覧者はそれを自分の目ですぐに確認できるわけですよ。
このような引用の方法は紙の本では実現できませんし、現状、動画配信サービス等でも実現は困難でしょう。(Youtubeでは動画の一部にリンクを埋め込む機能はあるようですが、このような使い方は想定されていないと思います。)
なお、次世代デジタルライブラリーでは、国立国会図書館のOCRテキスト化事業の成果が順次反映されていくようですので、例(1)のように複数の図書を対象とした検索の場合、後から検索結果の内容が変わる可能性がありますが、例(2)や例(3)のように対象の図書を特定した検索結果であれば、内容が変わる可能性はほぼないはずです。
(この点については公式の説明にも「テキストデータは検索のために機械的処理を施したものであり、原則として修正依頼には応じておりません。」とあり、OCRによるテキスト化に漏れや誤りがある場合でも原則的には修正されないようです。)
このブログでは今後、次世代デジタルライブラリーの全文検索を活用するとともに、検索結果ページのURLを用いた典拠の明示を実践していきたいと思います。
国立国会図書館のOCR関連事業しゅごい……
次世代デジタルライブラリーにおける全文検索機能のベースとなっているのが、OCR処理プログラム NDLOCR です。
(追記:これについては僕の誤解でしたので、以下訂正します。※Twitterにて開発者の青池さまよりご指摘いただきました)
次世代デジタルライブラリーの全文検索機能には、活字資料については令和3年度のOCRテキスト化事業で作成されたデータが利用され、くずし字や異体字、変体仮名等が含まれる古典籍資料については、令和3年度に委託開発されたOCR処理プログラム「NDLOCR」を部分的に取り入れつつ、令和4年度に独自開発された「NDL古典籍OCR」によってテキスト化したデータが利用されているそうです。
つまり、国立国会図書館のOCR関連事業の成果を元に、実験的サービスとして提供されているのが、次世代デジタルライブラリーなんですね。
詳細は、NDLラボの下記ページをご参照ください。
OCR処理プログラム「NDLOCR」に関して、どんな工夫が必要だったのか、分かりやすい記事がITmediaにありましたので、紹介します。(開発元「モルフォAIソリューションズ」のPR記事)
近代の活字資料をテキスト化するにあたり、旧字旧仮名、縦書きと横書きの混在といった問題があり、既存のOCR処理プログラムでは困難だったため、AIを活用した専用のソフトウェアを開発されたようです。
特に「レイアウト解析」による本文行の認識にAIが活用され、認識精度と処理速度を両立するため苦心されたことが窺えました。
また、NDLOCRの開発成果を活用した市販のOCRソフト「FROG AI-OCR」も販売され、大学や地方図書館でも利用されているとのこと。
現時点で次世代デジタルライブラリーの全文検索で利用されているデータはこのNDLOCRを使ったものではありませんが、国立国会図書館では今後、更に品質が高まったNDLOCRを活用して資料のテキスト化を進められる予定だそうです。(Twitterにて開発者の青池さまよりご教示いただきました)
次世代デジタルライブラリーでも、その成果が反映されていくと思われます。このような素晴らしい技術の恩恵を無料で受けられることに感謝しつつ、僕もこれからどんどん活用していきたいと思います。
併せて、史料を翻刻して出版された先人の方々にも感謝します。すでに著作権保護期間が満了しているからこそ、パブリックドメインとして無料で読めるわけですので。
※著作権の保護期間は著作者の死後70年(改正前の旧法では50年)です。詳しくは 著作物等の保護期間の延長に関するQ&A | 文化庁 をご参照ください。
【随時更新】次世代デジタルライブラリーの史料リンク集
今後の活用のため、同時代史料を含む図書のURLをざっと調べました。せっかくなのでここに掲載しておきます。
あれが無いぞ!といったツッコミもあるかと思いますが、あくまで個人的な選定基準によるリストなので、ご了承ください。内容は随時更新する可能性があります。
なお、僕の個人的な対象期間はだいたい永享以後の室町後期、義教から義昭までです。(この範囲での情報提供は大歓迎です!まだまだ漏れがたくさんあると思います。)
- 後法興院記 下卷 (延徳3年正月~永正2年6月)
- 実隆公記 卷一 (文明6年正月~長享元年8月)
- 実隆公記 卷二 (長享元年11月~明応3年8月)
- 実隆公記 卷三 (明応4年正月~文亀元年10月)
- 実隆公記 卷四 (文亀2年4月~永正4年12月)
- 実隆公記 卷五 (永正5年正月~大永2年4月)
- 師郷記 22巻 [1] (応永27年)
- 師郷記 22巻 [2] (応永35年)
- 師郷記 22巻 [3] (永享2年)
- 師郷記 22巻 [4] (永享4年)
- 師郷記 22巻 [5] (永享5年)
- 師郷記 22巻 [6] (永享6年)
- 師郷記 22巻 [7] (永享9年)
- 師郷記 22巻 [8] (永享11年)
- 師郷記 22巻 [9] (永享13年)
- 師郷記 22巻 [10] (嘉吉2年)
- 師郷記 22巻 [11] (嘉吉4年)
- 師郷記 22巻 [12] (文安2年)
- 師郷記 22巻 [13] (文安3年)
- 師郷記 22巻 [14] (文安4年)
- 師郷記 22巻 [15] (文安5年)
- 師郷記 22巻 [16] (文安6年)
- 師郷記 22巻 [17] (宝徳3年)
- 師郷記 22巻 [18] (享徳元年)
- 師郷記 22巻 [19] (享徳2年)
- 師郷記 22巻 [20] (享徳3年)
- 師郷記 22巻 [21] (享徳4年)
- 師郷記 22巻 [22] (康正2年)
- 大乗院寺社雑事記 第1巻 尋尊大僧正記 1-9 (宝徳2年正月~長禄2年11月)
- 大乗院寺社雑事記 第2巻 尋尊大僧正記 10-22 (長禄2年12月~寛正2年7月)
- 大乗院寺社雑事記 第3巻 尋尊大僧正記 23-42 (寛正2年7月~寛正6年10月)
- 大乗院寺社雑事記 第4巻 尋尊大僧正記 31-50 (寛正6年10月~文明2年9月)
- 大乗院寺社雑事記 第5巻 尋尊大僧正記 57-71 (文明2年10月~文明6年6月)
- 大乗院寺社雑事記 第6巻 尋尊大僧正記 72-87 (文明6年7月~文明11年3月)
- 大乗院寺社雑事記 第7巻 尋尊大僧正記 88-105 (文明11年4月~文明15年3月)
- 大乗院寺社雑事記 第8巻 尋尊大僧正記 106-125 (文明15年4月~文明18年10月)
- 大乗院寺社雑事記 第9巻 尋尊大僧正記 126-143 (文明18年11月~延徳2年12月)
- 大乗院寺社雑事記 第10巻 尋尊大僧正記 144-162 (延徳3年正月~明応4年12月)
- 大乗院寺社雑事記 第11巻 尋尊大僧正記 163-188 (明応5年正月~永正元年4月)
- 大乗院寺社雑事記 第12巻 (永正元年5月~永正5年正月) + 補遺
- 大日本仏教全書 133 蔭凉軒日録 第1 (永享7年6月~寛正5年12月)
- 大日本仏教全書 134 蔭凉軒日録 第2 (寛正6年正月~文明19年7月)
- 大日本仏教全書 135 蔭凉軒日録 第3 (文明19年8月~長享3年6月)
- 大日本仏教全書 136 蔭凉軒日録 第4 (長享3年7月~延徳3年4月)
- 大日本仏教全書 137 蔭凉軒日録 第5 (延徳3年5月~長享元年11月)
- 多聞院日記 第1巻(巻1至11) (文明10年正月~永禄9年12月)
- 多聞院日記 第2巻(巻12-巻23) (永禄10年正月~天正5年12月)
- 多聞院日記 第3巻(巻24-巻31) (天正6年正月~天正13年12月)
- 多聞院日記 第4巻(巻32-巻40) (天正14年正月~文禄3年12月)
- 多聞院日記 第5巻(巻41-巻46) 附録(巻1-巻5) (文禄4年正月~元和4年4月)
- 文科大学史誌叢書 親元日記 一 (寛正6年正月~6月)
- 文科大学史誌叢書 親元日記 二 (寛正6年7月~12月)