研究内容の紹介 | ⇒TOP

2008年05月14日

●2008年度の研究計画

アートリサーチセンターに蓄積されたデジタルアーカイブの具体的な活用として、資料上の多様な要素を画像上の領域と関連させて集積していくことが可能なシステムの研究および構築

  • このシステムは、研究者が読み取った資料の内容に関する事項(どの資料のどこになにがあるのかというデータ)を蓄積して、Web上でその検索・表示を可能とするとともに、これら個々の「どこになにがあるのか」というデータから更に他のコンテンツを生成できるようにすることを目的とする。
  • 「どの資料のどこになにがあるのか」の「なにが」については、たとえば一つひとつの文字、文字の集合たるテキスト、絵画の一部、印影、花押などが考えられるが、特に限定をせず研究者が着目した多様な要素を扱う。「どこに」は、資料画像上の座標および、人に理解できる位置情報、たとえば何頁の何行目であるか、といった論理的な位置情報である。

文献資料における文字を扱う場合を例にすると次のような利用が考えられる。

  • まず、資料内の全文字につき、どこにどの文字があるのかというデータを蓄積する(この段階では個々の文字の座標はわかっているが、丁・行・桁などの論理的な構造を表現するデータはなく、文章にはなっていない)。
  • 個々の文字データに丁、表裏、行、桁などの論理的な構造を示すデータを付与することによるテキストの生成。テキスト生成によりたとえば全文検索が可能となる。個々の文字は「どこに」あるのかを示す座標情報を持っているので、これを利用すれば検索結果を資料画像上に直接ハイライト表示できる。
  • 座標をもとに個々の文字画像を切り出すことによる文字カタログの作成。これは、たとえば筆跡の比較を行うための資料としての利用が可能である。また、ある程度の文字数・文字種を備えると文字(くずし字)の字典としても利用できるようになる。この文字カタログには、紙媒体のものに比べて検索が簡単であること、文字列検索および資料画像上へのハイライト表示を利用して一つひとつの文字にとどまらない語句単位での文字のつながり方も確認できること、などの利点がある。また、Webのインターフェイスに外国語のものも用意すれば、日本文化を研究する外国人研究者のために文字を調べるツールを提供できる。
  • 字体や訓点などの情報を付与することによる、字体データベース・訓点データベースの作成。

 上記は文字に着目したケースであるが、絵画資料や写真資料であっても、そのなかの「なにがどこにあるのか」というデータを集積し、これを応用して他のコンテンツを生成することが可能となる。
 他のコンテンツ生成を目的としない場合でも、個々の「なにがどこにあるのか」というデータは「付箋」として研究に有用である。本システムはWeb上での利用を考えており、一つひとつの「なにがどこにあるのか」というデータはURLで表現できるため、例えば、研究者がメールでアートリサーチセンター所蔵の或る絵の一部分について何かを人に伝えたい、という場合では、画像の全体や一部をメールに添付したり、その絵や問題の部分がわかるような細かな説明をつける必要はなく、あらかじめ自分が作成しておいた「なにがどこにあるのか」というデータのURLを伝えるだけでよく、メールを受け取った人はブラウザでそのURLにアクセスすると付箋がつけられた絵を見ることができる、といったことを実現できる。

ということを考えています。

⇒続きを読む