2008年05月23日

●第78回人文科学とコンピュータ研究会発表会での報告

5月23日(金曜日)に立命館大学でおこなわれた第78回人文科学とコンピュータ研究会発表会において岡本が報告をしました。題は「古文書・典籍を対象とした文字管理システムとその可能性」。

GCOEセミナーでは伝わりにくかった「なぜ史料内の文字を管理する必要があるのか」というところから話を始めさせてもらいました。多数の古文書の筆跡を比較する作業に要する労力を軽減するため、というのが目的なので、少し話がそれるようでも報告者が考えている筆跡の比較についても触れました。

  1. 筆跡の異同は主観的・感覚的に判断する。
  2. だれが見ても同じ、という程度にまで似たものを同一の筆跡として取り扱い、一致する特徴がある一方で一致しない特徴も多くあって判断に迷うものは答えを出せないがやむをえない。
  3. 本来の筆跡を抑えて他人の筆跡に似せて書かれた可能性のある文書は扱えない。
  4. 比較可能な共通する文字の全てを総当り的に比較した上で結論を出す。
  5. コンピュータをつかって文字の認識や筆跡の異同の評価を自動化する、あるいは客観的な数値表現をめざす、ということはいまのところ考えていない。

上のように述べたのですが、これは、多数の文書のなかから同じ人が書いたものを取り出し、その人がその文書を書いたという事実と文書の内容とを合わせて検討することにより、内容からだけではわからないことが明らかにできるのでは、という研究における筆跡の比較方法であって、研究が異なれば筆跡比較の方法や、求められるレベルも違ってくると思います。

自分にとって当たり前だと思っていることは、つい省いてしまいがちで、聞く人にとっては報告の内容が、意図のつかめない事実の羅列のようになるかもしれないのでながい前置きからはじめました。GCOEセミナーでの反省です。

 

2008年05月20日

●第19回GCOEセミナーでの報告

5月20日(火曜日)におこなわれた第19回GCOEセミナーにおいて岡本が「古文書・典籍を対象とした文字管理システムの紹介と今後の計画」との題で報告をしました。

概要などをDiscussionのページに書いておりますのでご参照ください。

2008年05月14日

●2008年度の研究計画

アートリサーチセンターに蓄積されたデジタルアーカイブの具体的な活用として、資料上の多様な要素を画像上の領域と関連させて集積していくことが可能なシステムの研究および構築

  • このシステムは、研究者が読み取った資料の内容に関する事項(どの資料のどこになにがあるのかというデータ)を蓄積して、Web上でその検索・表示を可能とするとともに、これら個々の「どこになにがあるのか」というデータから更に他のコンテンツを生成できるようにすることを目的とする。
  • 「どの資料のどこになにがあるのか」の「なにが」については、たとえば一つひとつの文字、文字の集合たるテキスト、絵画の一部、印影、花押などが考えられるが、特に限定をせず研究者が着目した多様な要素を扱う。「どこに」は、資料画像上の座標および、人に理解できる位置情報、たとえば何頁の何行目であるか、といった論理的な位置情報である。

文献資料における文字を扱う場合を例にすると次のような利用が考えられる。

  • まず、資料内の全文字につき、どこにどの文字があるのかというデータを蓄積する(この段階では個々の文字の座標はわかっているが、丁・行・桁などの論理的な構造を表現するデータはなく、文章にはなっていない)。
  • 個々の文字データに丁、表裏、行、桁などの論理的な構造を示すデータを付与することによるテキストの生成。テキスト生成によりたとえば全文検索が可能となる。個々の文字は「どこに」あるのかを示す座標情報を持っているので、これを利用すれば検索結果を資料画像上に直接ハイライト表示できる。
  • 座標をもとに個々の文字画像を切り出すことによる文字カタログの作成。これは、たとえば筆跡の比較を行うための資料としての利用が可能である。また、ある程度の文字数・文字種を備えると文字(くずし字)の字典としても利用できるようになる。この文字カタログには、紙媒体のものに比べて検索が簡単であること、文字列検索および資料画像上へのハイライト表示を利用して一つひとつの文字にとどまらない語句単位での文字のつながり方も確認できること、などの利点がある。また、Webのインターフェイスに外国語のものも用意すれば、日本文化を研究する外国人研究者のために文字を調べるツールを提供できる。
  • 字体や訓点などの情報を付与することによる、字体データベース・訓点データベースの作成。

 上記は文字に着目したケースであるが、絵画資料や写真資料であっても、そのなかの「なにがどこにあるのか」というデータを集積し、これを応用して他のコンテンツを生成することが可能となる。
 他のコンテンツ生成を目的としない場合でも、個々の「なにがどこにあるのか」というデータは「付箋」として研究に有用である。本システムはWeb上での利用を考えており、一つひとつの「なにがどこにあるのか」というデータはURLで表現できるため、例えば、研究者がメールでアートリサーチセンター所蔵の或る絵の一部分について何かを人に伝えたい、という場合では、画像の全体や一部をメールに添付したり、その絵や問題の部分がわかるような細かな説明をつける必要はなく、あらかじめ自分が作成しておいた「なにがどこにあるのか」というデータのURLを伝えるだけでよく、メールを受け取った人はブラウザでそのURLにアクセスすると付箋がつけられた絵を見ることができる、といったことを実現できる。

ということを考えています。

⇒続きを読む