『人文学と電子編集―デジタル・アーカイヴの理論と実践』 バーナード&オキーフ&アンスワース編 (慶應義塾大学出版会)
中西秀彦『学術出版の技術変遷論考』の終章では今後の印刷所の生きのびる方途として文書の構造化支援をあげていたが、多くの人は文書の構造化という言葉にはなじみがないかもしれない。なじみがないのは言葉だけで、実際は普通に目にしている。
本でも雑誌でも表題や見出しは大きな活字で組まれているだろう。重要な語句は傍点が振ってあったり、太字になっている。引用部分は字下げして、どこからどこまでが引用か一目でわかるようになっている。これが文書の構造化である。
以上あげたような構造化ならHTMLにもできるが、それ以上の構造化となると文書の性格に係わってくるので一律にはできない。それを可能にしたのがXMLなのだ。
欧米ではTextEncodingInitiativeがXMLによる文芸作品の構造化の研究を強力に進めており、その成果をガイドラインとして発表しているが、日本ではあまり知られていない。日本語で読めるものというとTEIガイドライン第五版の一部の邦訳がネット公開されているくらいだろうか。
そんな中で注目すべき本が出た。MLA(アメリカ現代語文学協会)から2006年に出版された ELECTRONIC TEXTUAL EDITING の邦訳で、MLAで積み重ねられてきた文芸作品の構造化の議論が24編の論文によって概観できるのだ。TEIについて知りたくても、どこから手をつけていいのかわからなかったわたしのような者にとってはありがたい本である。
監訳者の明星聖子氏は『新しいカフカ』やシリングスバーグの『グーテンベルクからグーグルへ』で編集文献学という新しい学問を日本にもたらした人である。もう一人の監訳者の神崎正英氏はマークアップ言語の専門家で、セマンティックWebをいち早く紹介した『セマンティックHTML/XHTML』がある。
本書は二部にわかれる。第一部「典拠資料と方針」はケーススタディーで、各分野から12の事例が選ばれている。第二部「実践と手順」は理論編でXML化の前提となる知識や技術が解説されている。
多くの人が係わっているので翻訳に出来不出来があるのは仕方がないが、「ですます調」はいかがだろうか。監訳者はなじみのないテーマなので、一人でも多くの人に親しんでもらおうとして「ですます調」にしたと断っているが、「ですます調」したから親しみやすくなるわけではないし、平易になるわけでもない(むしろ逆のケースが多い)。こういう本を手にとる人は限られているのだから、余計は配慮はしない方がよかったと思う。
もう一つ、親しみやすさを出そうとしたためだろうか、固有名詞の原綴がほとんど記載されていない。原綴しか載せないのは確かに困りものだが、原綴がわからないと検索しにくいのだ。カタカナ表記の後ろに原綴を載せるべきだったろう。
記載されているURLはアクセスできなくなっているものがすくなくない。邦訳では邦訳出版時点で確認できた新しいURLが併記されているが、それもアクセスできなくなっていたりする。わざわざ新URLを併記するくらいなら、本書のサポートページを設け、そこにリンク集を載せて定期的に更新してくれた方がよかった。ネット環境をもたない人を切り捨てることになるかもしれないが、そういう人にはURLそのものが無意味なのだから問題はない。
第一部から見ていこう。
「デジタルの地平での編集」
総論らしいが、のっけから悪訳である。字面をながめるとそんなに難しいことは言っていないと思うのだが、まるでわからない。次の章からは読みやすいのに、ここでつまずいて放りだす人もいるだろう。最初の論文なのだから、上手な人にまかせるべきだったと思う。
「『カンタベリー物語』をはじめとする中世テキスト」
Canterbury Tales Projectの紹介である。『カンタベリー物語』写本の系統図を確立しようという試みは1920年代からあったが、成果をあげることができず、系統図そのものを否定する見方まで出てきた。
Canterbury Tales Projectでは過去の試みが失敗したのは写本の数が人間が把握できる限界を超えていたからではないかと仮定し、生物の系統図を調べるソフトウェアを使って写本の伝承関係を調べ直すことにした。最初に調査したのは「バースの女房の話」というエピソードで、写本の小さな変異を記述する手段としてTEIのマークアップを採用したところ、系統図が出てきた。
生物の系統図を調べるソフトウェアで本当に写本の系統図がわかるのだろうか? 著者たちは外的な証拠で写本間の関係がわかっている古ノルド語の『スヴィプダーグの歌』に同じ手法を適用したところ、コンピュータの結果と外的な証拠が一致したということである。なお、CD-ROM版の"Chaucer: The Wife of Bath's Prologue CD-ROM Manual"(1996 Cambridge University Press 絶版)には使用したソフトウェアと全データが収録されており、読者自身が試せるようになっているとのこと。
「記録資料の編集」
エジソン研究所のアーカイブを整理して「エジソン文書集成」を構築する過程が紹介されている。エジソン研究所には500万ページを超える資料があり、その10%がマイクロフィルム化され、メインフレームでデータベースが作られていた(原綴がわからないので確信はないが、多分Edison exhibit and Menlo Park Laboratoryだろうと思う)。
1990年代にマイクロフィルムをスキャンしてCD1500枚分のデジタルデータに変換した。オリジナルは200dpiで256階調のTIFF画像で、6Mバイトあったが、ネット公開用に60dpiのJPEG画像を作った(平均60Kバイト)。サイトの構築にあたってはメインフレーム時代のデータベースが役に立った。
次の段階として電子テキストが作成されたが、最初からSGMLでマークアップした。どのDTDを使うかが問題だが、Model Editions Partnershipをもとにしたということである。
「詩とネットワーク」
ロマン派詩人の研究サイトであるRomantic Circlesのメンバーが詩のマークアップについて語っている。
詩のマークアップは当初はテーブルタグを使って表のセルの中に詩の一行をいれていたが、XML化以降は詩行を<l>、連を<lg>でタグづけする。蒲原有明を例にすると以下のようになる。
<lg type="sonnet">
<l>智慧の相者は我を見て今日し語らく、</l>
<l>汝が眉目ぞこは兆悪しく日曇る、</l>
<l>心弱くも人を恋ふおもひの空の </l>
<l>雲、疾風、襲はぬさきに遁れよと。</l>
</lg>
詩は文字の配置が重要だが、シェリー自身が版組にかかわったと見られる「悪魔の散歩」を例に表示の可能性を論じている。
版による異動についてはワーズワースとコールリッジの『リリカル・バラッヅ』の「異読校合マップ」を紹介している。
「戯曲のケーススタディ」
戯曲は卜書や傍白があるなど複雑な内部構造をもつので、TEIでタグセットを開発するにあたり、まっさきにとりあげた経緯があるという。本章では『ケンブリッジ版ベン・ジョンソン作品集』を例に上げているが、ビクトリア朝の戯曲は人物のなりすましや劇中劇など趣向に富んでいるので、マークアップの力試しをするにはもってこいだろう。
TEIのガイドラインにしたがって鏡花の『海神別荘』の冒頭部分をXML化すると次のようになる。
<speaker>僧都</speaker>
<l>お腰元衆。</l>
<speaker>侍女一</speaker>
<stage type="entrance action">(薄色の洋裝したるが扉より出づ)</stage>はい、はい。これは
御僧 。</l><speaker>僧都</speaker>
<l>や、目覺しく、美しい、
異 つた扮裝 でおいでなさる。</l>
「女性作家プロジェクト」
女性作家の作品をオンライン公開するWomen Writers Projectの紹介だが、女性作家だからといってテキスト構造上の特徴はなく、電子テキスト作成の一般的な注意点の指摘で終わっている。
「著者による翻訳」
ナボコフのように自作を翻訳したり、フランス語版『資本論』のようにマルクス自身が翻訳に大幅に手を入れたりして、翻訳が新しい異文となるケースがよくある。本章ではベケットの"Stirrings still"とフランス語版の"Soubreautus"を例に改稿過程をどのようにマークアップすべきかを論じている。原稿段階にはなく公刊テキストで追加された部分は <reg type="pro" rend="absence">でマークアップするという具合である。
「散文フィクションと近代の手稿」
フランドル語の小説『ウォーターホークの没落』の批判版をCD-ROMで出版した経験をもとに、テキストの生成過程を復元するにはどうしたらいいか、またどんな意味があるかを論じている。
「哲学のケーススタディ」
2000年にオックスフォード大学出版局から6枚組のCD-ROMとして出版された Wittgenstein's Nachlass. The Bergen Electronic Edition の紹介である。
この著作集には2万頁以上の画像とそれを電子化したテキストが収録されているが、省略や書き直し箇所をどうマークアップしたかが語られている。
「つまり」をあらわす das heißt は手稿では dh と略記されることが多いが、電子テキスト化する際、dh を das heißt に直してしまってはまずい。そこで次のようにマークアップする。
<abbr expan="das heißt" >dh<abbr>
dhをそのまま出力するスタイルシートとexpanの属性値に置き換えて出力するスタイルシートを用意しておけば読者は手稿そのままのテキストと、強い編集をへたテキストの両方を読むことができる。
「宗教テキストの電子化」
新約聖書の批判版の編集はミュンスター大学の新約聖書本文研究所(INTF)とギリシア語新約聖書国際プロジェクト(IGNTP)という二つの団体が進めており、良好な協力関係にあるという。なお、本章は後者の責任者が執筆している。
『ヨハネ福音書』を例にとっているが、ギリシア語写本だけで1800点以上ある上に、古シリア語や古ラテン語、コプト語、古グルジア語、古アルメニア語などへの古代の翻訳があり、重要な異読を提供している。さらには2世紀にさかのぼるパピルスの断片まである。
INTFとIGNTPは共同作業をおこなうにあたり、使用するソフトウェアを『カンタベリー物語』の編集のために開発された Collate を用いることにしたが、『カンタベリー物語』は60点ほどしか写本がなかったのに対し、『ヨハネ福音書』は桁違いに写本が多いので Collateの改造からはじめなければならなかった。
電子編集の副産物としてビザンティン版の制作がはじまったことは特筆していいだろう。ビザンティン版はビザンティン帝国で使われていた聖書で、東方正教会では現在でも聖典としている上に、エラスムスが刊行した1516年のギリシア語聖書がビザンティン版だったために、欽定訳聖書の本文にも影響をあたえている。電子編集によってビザンティン版の批判版が比較的容易に製作できるようになったわけである。
「マルチメディアの解剖図」
ウィリアム・ブレイク・アーカイブの紹介である。ブレイクは画家でもあり、詩文集に自分で挿画を描いており、マルチメディアの出現は福音といえる。
ブレイク研究者(人文学者全般の話にしてあるが、ブレイク研究者を念頭においているのだろう)には孤独を好む人が多く共同作業をやりたがらないとか、マルチメディアにはお金がかかるとか、XMLの勉強より本来の研究がやりたいと愚痴をこぼしている。
JPEGの画質ではブレイクの彩色本を再現するのに不十分なので、JPEG2000をいち早くとりいれたというが、画質の問題はブレイクに限ったことではないので、これも愚痴の一つと受けとっておいた方がいいだろう。
「碑文研究」
碑文のXML化というとミスマッチの印象があるが、碑文研究の世界では編集者が訂正した箇所や補足した箇所を示すためにレイデン法という一種のマークアップが伝統的におこなわれてきた。だからXML化には抵抗がなかったそうである。
それどころかTEIの標準的なDTDでは不十分なので、独自のDTDを作ろうという動きまである。
Unicodeは古代文字をサポートしているが、碑文では数詞をリガチャーであらわすのでまだまだ足りないという。
古色蒼然たる碑文を相手にしている人たちが電子化にここまで積極的なことに驚くかもしれないが、日本でも仏典を研究している人たちが最先端の電子化をおこなっていた。古は新に通じるのである。