ART RESEARCH CENTER

立命館大学アート・リサーチセンター

凸版印刷株式会社との共同研究による「くずし字解読支援・指導システム」が紹介されました - イベント情報

凸版印刷株式会社との共同研究による「くずし字解読支援・指導システム」が紹介されました

5月13日(月)、アート・リサーチセンターでは、報道各社に向けた「くずし字解読支援・指導システム」を使った公開レクチャを実施しました。

 文化財のデジタル・アーカイブが進む中、私たちにとって古典籍や古文書が自宅からも簡単にアクセスできる文化的なコンテンツとなっている。しかし、そこに記されている「くずし字」を解読することは、現在ではたいへん難しくなってしまった。そのため、却ってそれが魅力的な対象となってきたようで、学校教育や生涯学習の現場で興味を引く素材となり、海外の日本文化の研究の場でも文字の翻刻に挑戦しようとする研究者が増えてきている。
 一方、昨今のデジタル技術の進化により、「AI」によってくずし字の解読を進める発想や試みが活発となり、SNS型の共同作業や教育アプリも開発されている。しかし、AIから次々とヒントを得ながら読解ができるような、実際の翻刻の現場で有用となるシステムはこれまで存在していなかった。今回、紹介するシステムは、世界で初めて教育システムとして実用化に成功した「くずし字解読支援・指導システム」であり、4月から活用が開始されている。
 本システムは、「人間の教育」のためのシステムだが、機械学習のための情報蓄積も可能な工夫がされており、今後はこのシステムを運用しながら、認識率を高めていく予定である。
 加えて、本システムがWEBベースで運用されているため、海外の日本学に研究者・学生も原本資料をこのシステムの支援を受けながら直接解読することが可能となるため、新しい切り口からの研究が進み日本文化研究がさらに加速することも期待される。
 なお、本システムは、ARCと凸版印刷株式会社の共同研究に基づき、ARCの古典籍閲覧システムおよび浮世絵閲覧システムから凸版印刷株式会社が提供するくずし字認識システム(※※)を利用することで実現した。

1)先行事例と本システムの位置づけ

くずし字の解読に関する研究は近年、いくつもの目覚ましい成果があげられている。

  1. 1頁の画像全体を解析にかけ、文字の分割と認識、翻刻までを一括に行なおうとするもの(例:凸版印刷 古典籍OCR)
  2. 一文字分の画像に対して解析を行い、それぞれの文字をできるだけ正確に判別するもの。またそのシステムをつかって、一文字単位で文字の解読をするもの。
  3. e-learningを目的としたアプリの開発(例:くずし字学習支援アプリKuLA)
  4. 人力での翻刻作業をクラウドソーシングにより円滑に行なうもの(例:「みんなで翻刻」プロジェクト)

などがある。
 本プロジェクトが開発したシステムは、2ついては、凸版印刷株式会社によるくずし字OCR技術をAPIとして提供を受け、4のようなインターネット上での協業を可能としながらも、e-learningとしての「翻刻作業者の教育・育成」に主眼を置いたシステム開発と位置づけられる。
 なお、類似のシステムとしては、下記のものを上げておく。

  • 『木簡画像データベース・木簡字典』『電子くずし字字典データベース』連携検索
    http://r-jiten.nabunken.go.jp/
    →解読したい文字の画像を貼り付け、解読候補を提示するもの。
  • くずし字一文字認識
    http://codh.rois.ac.jp/char-shape/app/single-mobilenet/
    →IIIFで公開された画像について、一旦ビューワに読み込んだ上で、枠を切り、一文字を認識させるもの。4月27日(5月2日改訂)に公開。ディープラーニングを使っているが、教育システムではない。

2)ARCくずし字解読支援・指導システムの概要と特長

 立命館大学アート・リサーチセンターでは多くの古典籍原本を所蔵し、また、海外の日本文化資源アーカイブ活動の中で、膨大なデジタル複製画像も蓄積、公開している。2019年4月現在、古典籍は、約213,000件(内、一般公開約157,000件)、浮世絵は、約555,000枚(内、一般公開約157,000枚)となり、いずれも世界最大である。
 翻刻支援システムは、立命館アート・リサーチセンターの古典籍ポータルデータベースと浮世絵ポータルデータベースで稼働していた翻刻システムをベースとし、くずし字の解読支援機能、指導システムを加えたものである。

  1. 読みたい資料を検索して頁閲覧をしているときに、すぐに翻刻ウィンドウを開いて翻刻ができる。
  2. 翻刻作業者と翻刻の作業の履歴、注釈、質問などを保存できる。
  3. 難読文字については、解読支援機能を使い、AIのサジェストを受けることができる。 (凸版印刷株式会社提供のディープラーニングによるAPIが提供されている。)
  4. AIが判読不可の文字画像を蓄積し指導者「解読支援待ちデータベース」を連動させることにより、初学者でもWeb上で熟練者の支援を受けつつ翻刻を進めることができる。 (はこだて未来大学寺沢憲吾准教授開発の「文書画像検索システム」を基にAPIが凸版印刷株式会社から提供されている。)
  5. 判読不可文字は、デープラーニングシステムの次期バージョンアップに提供される。
  6. 翻刻全体の進行状況の把握、本文全文検索、文脈付き結果表示などの教育・指導用機能が充実している。

 本システムは、オンラインでの自学自習も可能であるが、熟練者や教員などの指導者の下での学習が効果的なグループ学習型システムである。大学での授業や、生涯学習の講座での利用が効果的なシステムとなっている。(「みんなで翻刻」システムとは、この点で性格を異にする。)

3)利用者の範囲
 現状、本学学生・教職員、ならびにアート・リサーチセンターの客員研究員か、共同研究拠点にプロジェクト登録したメンバーが、本システムへの利用登録をし、利用している。

4)おわりに

 本プロジェクトでは、国内外の古典籍や浮世絵などのデジタル・アーカイブを統合するポータルデータベースの有効活用という目標の下、収録作品の中に記されたくずし字で記載されたテキストを解読・翻刻を行うという営みに教育的な意義を見出し、翻刻作業者の育成を支援する効果的な教育システムを開発した。国内への教育効果だけでなく、海外の日本研究者の自身が原本で研究資料を解読しようとする熱意にも応えられるものである。
 本システムは、教育的運用とともに、難読文字の字形イメージの収集が可能であり、字形データセットの強化という面でも貢献が期待できるだろう。国文学研究資料館提供のデータセットも、人文学オープンデータ共同利用センター(CODH)から日本古典籍くずし字データセットの形で一般公開されており、今後類似のシステムが、さまざまな形で姿をあらわし、実用化されることだろう。
 他のシステム開発グループとも切磋琢磨し、その結果として、日本の古典籍や古文書の解読・翻刻を一層推進させ、日本の歴史的な記録・記事を誰もが読める環境ができるようになることを期待したい。

参考サイト NHK New Web 京都

※本システムの開発にあたり、以下の組織からの助成を受けている。
 ・一般財団法人デジタル文化財創出機構
 ・文部科学省(共同利用共同研究拠点「日本文化資源デジタル・アーカイブ研究拠点」)
 ・JSPS科学研究費(挑戦的研究〈萌芽〉、代表 赤間 亮)
※※本システムでは、公立はこだて未来大学の寺沢憲吾准教授の開発した「文書画像検索システム」と、凸版印刷が開発した「ディープラーニングによるくずし字認識システム」を組み合わせ、独自にAPI化したものを試験的に提供されている。
 また、凸版印刷は2015年より国文学研究資料館との共同研究による「くずし字OCR」技術の研究開発に取り組んでおり、くずし字認識システムの構築にあたっては、学習データとして凸版印刷が独自に採取したものと、国文学研究資料館が日本語の歴史的典籍の国際共同研究ネットワーク構築計画の一環として制作し、公開した字形データセットを合わせて使用している。