セミナーで発表後、必ず概要を投稿してください。
投稿記事にコメントが付けられていきます。

2008年5月20日

第19回GCOEセミナー(岡本隆明)

「古文書・典籍を対象とした文字管理システムの紹介と今後の計画」
On a Image Database System of characters in Japanese Historical Materials

【概要】

報告者が作成している、古文書や典籍を対象とし、そのなかの文字一つひとつを管理するシステムを紹介し、この「どの史料のどこにどのような文字があるのか」を整理するためのシステムを、今後、GCOEにおいて絵画資料など文字史料以外にも応用するために必要な拡張について述べた。

まず、筆跡を用いた古文書研究の一例として、東寺百合文書におさめられている鎌倉時代後期、大和国平野殿庄をめぐる訴訟に関する一連の文書の中から、供僧方公文快実が書いたと見られる文書を取り上げ、快実が供僧方公文という地位とは別に独自の訴訟活動をおこなっており、そうした文書の裏にたまたま東寺に関する文書を書き写して供僧に渡したために百合文書のなかに含まれることになったと考えられる事例があることを紹介した。

つぎに、筆跡を利用した研究を行うためには多大な労力を要することから、コンピュータ上で史料画像、文字画像、テキストおよび文字に関するさまざまな属性を総合的に取り扱うシステムの必要性を述べ、史料内の文字一つひとつにIDを与え、1文字を1レコードとしてリレーショナルデータベースで管理する本システムの特徴である、丁・行・桁などテキスト内における文字の論理的な位置を示すデータをもとに個々の文字を並べ替えてテキストを再構成する方法、文字の座標を利用した文字画像の切り出し、同じく座標を利用して文字列検索の結果を史料画像上にハイライト表示する動作などを示した。

最後に、本システムは、現在は個々の文字の管理という特殊で限られた用途のために使用しているが、資料の構成要素は個々の文字以外にも、絵・図・花押・印影や文字のまとまりである単語・テキストなどがあり、研究者が着目する様々な要素をうまく取り扱うために必要となる拡張について述べ、意見をもとめた。


【質問とこたえ】

1.切り出した文字について、コンピュータで筆跡の異同を判断させるようなことは考えているか…源城先生
2.漢字字体規範データベース(Hanzi Normative Glyphs)との関係・文字を扱う上で異体字をどのように考えているか…當山先生
3.八村先生がおこなっているキャラクタスポッティングとの関連は…當山先生

などの質問をいただき、つぎのように答えた。

1について。自動認識は目指しておらず、筆跡の異同の判断は人間が行う。それ以前の、文字の整理作業(ある文書に登場する文字が他のどの文書のどこにあるのかを検索し効果的に表示するなど)をコンピュータに任せ、労力を軽減することが目的である。
2について。漢字字体規範データベースにおけるデータの作成方法などの詳細を知らないため、きちんとした返答ができないが、本システムは史料内の全文字を効率的に整理し表示することを目的としており、漢字字体規範データベースと類似する面があることは認識している。機会があれば漢字字体規範データベースにかかわっている方からぜひご意見を伺いたい。異体字をどうするかについては、多様な文字のかたちを画像で見て確認するというのが本システムの趣旨であり、データベースに登録する文字は文字画像にいたるため目印であると考え、通用の字体に統一して登録している。使用している文字の範囲と文字集合との関係についてはあまり意識していなかったため、今後の課題である。
3について。古文書は版本と異なって文字間の切れ目がはっきりしなかったり、行間に書き込みがあったりして、コンピュータに文字の位置だけでも自動的に認識させることは難しいのではないかと思う。古文書の場合には人が作業したほうが早いかなと思うので、版本など文字位置の取得を自動化できるものがあれば自動化をしてもらい、無理なものは人間が作業する、というようにわけて考えたい。

コメントする








  • GCOEセミナーディスカッション

  • 最近のエントリー

  • アーカイブ


新拠点セミナー
GCOEセミナーディスカッション
GCOE運営活動と記録
世界と日本・DH研究の動向
E-journal
21世紀COE成果サイト
研究班紹介動画
リンク集