セミナーで発表後、必ず概要を投稿してください。
投稿記事にコメントが付けられていきます。

2009年5月12日

本日(5月12日)のセミナーの議論を聞いて

八村です.久しぶり(というにはひどすぎますが)に書き込みます.それにしても,最近,全然コメントもアップされてませんね(人のことは言えないけど).

関口先生の発表についての,赤間先生のコメントに関しては私は少し異論があります.発言しようかとも思ったのですが,時間がないようだったのでこのブログのことを思い出しました.

デジタル・ヒューマニティーズの本家論は,まあ,彼らの方が先にDHコンファレンスのことをウォッチしていたのは事実だから,それは譲りましょう.本題はテキスト処理についての考え方です.もちろん,われわれの拠点が,テキストよりもむしろ,画像・音声・動画などの,いわゆるマルチメディア系で世界的にも先行しているのは事実です.ただし,残念ながら,それでもなお,個々の分野で本拠点を凌駕する素晴らしい成果を公開いている研究所や大学は世界中にたくさんあります.本学は,様々な分野の研究者が集まって,いわば層の厚いプロジェクトを形成しているのは確かで,その点は自慢すべき点であります.

その意味で,テキスト処理についてわれわれの拠点があまり取り組んでいない点を,わが方の欠点・弱点とあえて強調する必要はないですが,私はそういう意味ではなく,テキスト処理はいわば,DHのマスト(must)だと考えています.

私も画像屋ですから,テキストだけで何ができるという考え方はあります.しかしテキストという,扱いやすい誰でも理解できる(もちろん言語の問題はあるが)対象を用いて,データの構造化(たとえばXML),解析(たとえばマイニング,統計処理)などの手法を学ぶことは,対象データを客観的に組織的に観察する,また,処理により結果が見えやすいという大きな意味を持っています.現在の画像解析や,音声処理の技術は大きく進歩していますが,やはりまだ未完成のものです.これに大きな期待を寄せることは危険です.人文の方々が慣れている「文字」「文章」を対象に,自分の対象分野の「テキスト情報」をそれこそ自家薬籠中のものとして,自由自在に扱えるようになることが,DHの基礎だと確信しています.

本日の関口先生の紹介にもあったように,仏典のデータベース化について,素人の私は何の意味があるのだろうと常々思っていましたが,このようなテキスト情報を必要とするひとは人文の中にはたくさんおられるのだと思います.画像ももちろん必要でしょう.しかし画像データを,その「内容」を元にきちんと検索する技術はまだ確立していません.想像してみれば分かりますが,それぞれのユーザにとって意味のある検索結果をだそうとすると,画像の中身の「意味的な解釈」が必要です.このことは今の進んんだ画像解析の技術をもってしても,一般の画像に対して自動化することは無力です.いずれはこういうことが可能になることを願ってわれわれは研究をしているのですが,それまでのところはメタデータがたよりです.

同様に,たとえば,古文書や貴重書などについて,画像データで公開することは基本中の基本ですが,やはりその内容をきちんと文字化して,文書の構造を(XMLで)記述し,メタデータもつけて公開する必要があります.こうしないと,大規模なデータを利用しての研究はできません.関口先生のスライドにも紹介されていた「Large Scale Resources」というのはDHの重要な観点です.

長く(くどく)なるので,今のところはこの程度でとどめます.しかし,テキスト処理はある種の修練,読み書き算盤,であり,人文学において「テクスト」がおそらく無視できないものであるのと同じように,DH(それがどのようなものであれ)を学ぶ人はテキスト処理の考え方と実際の基本は,必ず学んでくるべきことだと私は考えています.

ダーーッと書いたので,意味が読み取りにくいところが多いと思います.その点はご容赦のほど.質問・議論があれば,受け付けます.

 

トラックバック(0)

このブログ記事を参照しているブログ一覧: 本日(5月12日)のセミナーの議論を聞いて

このブログ記事に対するトラックバックURL: http://www.arc.ritsumei.ac.jp/lib/mt_gcoe/mt-tb.cgi/2318

コメント(1)

2009/05/14 當山日出夫
やはり、ここは黙っていずに、意見を述べておいた方がよいと思いますので、私見を記します。
・基本的には、どちらかというと八村先生の意見に賛成。
・赤間先生のおっしゃしゃったことも価値があるとおもいます。ただ、どのように表現するか、全体のなかに位置づけるか、の問題であると考えます。
以下、のべますと、
私個人は、「ACH」「ALLC」の日本版である「JACH」「JALLC」の設立や運営の経緯を記憶している人間の一人です(もう、古老といわれてもしかたありませんが。)また、現在でも、基本は、日本語学という分野においておりますので、コーパス言語学のことを視野に入れて考えます。
これまでの私の知見の限りでは、DH(あるいはCH)の分野は、「大規模デジタルデータの共有と流通」、これをめざしてきたことは確かです。その実現した一つの形が、大蔵経のDBになります。赤間先生のめざしておいでの、世界的な浮世絵DBの構築も、この流れの中に位置づけられることになるはずです。
ただ、画像などテキストを主体としないデータであっても、その有効利用のためには、テキスト(文字)=メタデータが課題になります。
これは、「MLA」+「D=デジタル」を基盤とした、新しいDHの方向であると、私は考えます。つまり、大規模デジタルデータの共有と流通、です。このなかにおいて、テキストデータと、その他のデータ(画像データなど)を関連させて有効に利用するかが、今後の課題であると考える次第です。
たとえば、いま、日本を見渡しまして、「デジタルアーカイブ」という言葉についても、合意はありません。ここは、まず、お互いに、どのような学問史の背景のもとに、研究のデジタル化にむかっていくのか、相互理解の道筋をつけることが重要と考えています。
どうも、はぎれの悪い表現になりましたが、ざっと以上です。次回のCH研究会(東大)は、東大の次世代人文学の特集もあります。そこで、考え方を聞いてくることにします。
當山日出夫(とうやまひでお)

コメントする








  • GCOEセミナーディスカッション

  • 最近のエントリー

  • アーカイブ


新拠点セミナー
GCOEセミナーディスカッション
GCOE運営活動と記録
世界と日本・DH研究の動向
E-journal
21世紀COE成果サイト
研究班紹介動画
リンク集