投稿記事にコメントが付けられていきます。
1
2009年5月12日
本日(5月12日)のセミナーの議論を聞いて
八村です.久しぶり(というにはひどすぎますが)に書き込みます.それにしても,最近,全然コメントもアップされてませんね(人のことは言えないけど).
関口先生の発表についての,赤間先生のコメントに関しては私は少し異論があります.発言しようかとも思ったのですが,時間がないようだったのでこのブログのことを思い出しました.
デジタル・ヒューマニティーズの本家論は,まあ,彼らの方が先にDHコンファレンスのことをウォッチしていたのは事実だから,それは譲りましょう.本題はテキスト処理についての考え方です.もちろん,われわれの拠点が,テキストよりもむしろ,画像・音声・動画などの,いわゆるマルチメディア系で世界的にも先行しているのは事実です.ただし,残念ながら,それでもなお,個々の分野で本拠点を凌駕する素晴らしい成果を公開いている研究所や大学は世界中にたくさんあります.本学は,様々な分野の研究者が集まって,いわば層の厚いプロジェクトを形成しているのは確かで,その点は自慢すべき点であります.
その意味で,テキスト処理についてわれわれの拠点があまり取り組んでいない点を,わが方の欠点・弱点とあえて強調する必要はないですが,私はそういう意味ではなく,テキスト処理はいわば,DHのマスト(must)だと考えています.
私も画像屋ですから,テキストだけで何ができるという考え方はあります.しかしテキストという,扱いやすい誰でも理解できる(もちろん言語の問題はあるが)対象を用いて,データの構造化(たとえばXML),解析(たとえばマイニング,統計処理)などの手法を学ぶことは,対象データを客観的に組織的に観察する,また,処理により結果が見えやすいという大きな意味を持っています.現在の画像解析や,音声処理の技術は大きく進歩していますが,やはりまだ未完成のものです.これに大きな期待を寄せることは危険です.人文の方々が慣れている「文字」「文章」を対象に,自分の対象分野の「テキスト情報」をそれこそ自家薬籠中のものとして,自由自在に扱えるようになることが,DHの基礎だと確信しています.
本日の関口先生の紹介にもあったように,仏典のデータベース化について,素人の私は何の意味があるのだろうと常々思っていましたが,このようなテキスト情報を必要とするひとは人文の中にはたくさんおられるのだと思います.画像ももちろん必要でしょう.しかし画像データを,その「内容」を元にきちんと検索する技術はまだ確立していません.想像してみれば分かりますが,それぞれのユーザにとって意味のある検索結果をだそうとすると,画像の中身の「意味的な解釈」が必要です.このことは今の進んんだ画像解析の技術をもってしても,一般の画像に対して自動化することは無力です.いずれはこういうことが可能になることを願ってわれわれは研究をしているのですが,それまでのところはメタデータがたよりです.
同様に,たとえば,古文書や貴重書などについて,画像データで公開することは基本中の基本ですが,やはりその内容をきちんと文字化して,文書の構造を(XMLで)記述し,メタデータもつけて公開する必要があります.こうしないと,大規模なデータを利用しての研究はできません.関口先生のスライドにも紹介されていた「Large Scale Resources」というのはDHの重要な観点です.
長く(くどく)なるので,今のところはこの程度でとどめます.しかし,テキスト処理はある種の修練,読み書き算盤,であり,人文学において「テクスト」がおそらく無視できないものであるのと同じように,DH(それがどのようなものであれ)を学ぶ人はテキスト処理の考え方と実際の基本は,必ず学んでくるべきことだと私は考えています.
ダーーッと書いたので,意味が読み取りにくいところが多いと思います.その点はご容赦のほど.質問・議論があれば,受け付けます.
1