文化資産としてのネット情報

だれかが保存しなければ,次々と更新され
過去のべージが消えていく
B.カール


その昔,古代エジプトのアレクサンドリア図書館で大火事が起こり,膨大な手書きの書物が焼失した。古い時代に印刷された本は朽ちて判読不能になっていった。古い映画フィルムの多くは銀を回収するためだけの価値に変わっていった。インターネットでも,情報の保存に関してもう少し注意を払わないと,これらと同じ歴史をたどることになる。

これまで,ウェブ上の文書や画像などの膨大な情報を,そっくりまるのまま保存しようと試みる人などいなかった。印刷物やフィルムなどの記録媒体では,損傷と部分的な修復という歴史を何度も繰り返してきたが,私は,科学や文化,歴史などに関する総合的な情報の宝庫となりつつあるウェブに,同じ歴史をたどらせることはないと考えている。

ディスク記録装置の価格が大幅に低下したため,いまやワークステーションと格納デバイスさえあれば,小さな技術集団であってもウェブやその他のインターネット上の情報を永久的に保存することができる。

1年前,私は仲間たちとともにこのインターネット情報のまるごと保存を思いつき,インターネット・アーカイブ社というベンチャー企業を起こした。

この雑誌が出るころには,ウェブのなかで無料で技術的にアクセス可能なすべての情報を取り終えているだろう。このように集めたウェブの情報の総量は,文書,動画を含む画像,音声などをすべて合わせて約2兆バイト(2テラバイト)になりそうだ。ちなみに,米国国会図書館には,20テラバイトの文書情報が収蔵されている。

あと数カ月のうちには,私たちのコンピューターには,ウェブ以外のイン夕一ネット上の情報,たとえば Gopher 情報システムや,Usenet の掲示板などのデータも記録される予定である。これまでに収集してきた資料は,歴史学者にとって価値のある情報であることがすでに証明されている。この生の資料に注意深く索引づけをすれば,検索可能な電子図書館が作れるはずである。

ウェブのスナップショットを撮るのはきわめて簡単だ。インターネット・アーカイブ社のオフィスは,サンフランシスコのダウンタウンにあった軍施設「プレシディオ」を改装した施設の中にあり,運営スタッフはわずか10人。この施設で,カリフォルニア大学サンディエゴ校のサンディエゴ・スーパーコンピューターセンターの情報収集コンピューターの運用も担当している。

ウェブのスナップショットを撮るため,ソフトウエアはインターネツトのサイトを次々と探索し,「ぺ一ジ」と呼ばれる単位ごとに情報をダウンロードしていく(ハードディスクなどに情報を取り込んでいく)。

1つのぺ一ジの取り込みが終了すると,次に,関連する別のぺ一ジに移動する手がかり(リンク)を探す。そして,ウェブのハイパーリンク(ぺ一ジに埋め込まれた移動先のアドレス情報)を使って,そのサイトヘ移動する。移動先のぺ一ジのコピーを作成し,さらにここでも新しいぺ一ジのリンクを探す一というわけである。

探索プログラムはURL(Uniform Resource Locators)と呼ばれるIDをデータベースで確認しながら作業を進めるので,同じIDのついたぺ一ジを2回以上ダウンロードすることはない。DEC社のAltaVistaなどのプログラムでも,ウェブサイトの索引づけにこうした探索プログラムを使っている。

このような企てが実現したいちばんの背景は,データを格納する装置が格段に安くなったことである。1ギガバイト(10億バイト)のハードディスクは200ドルで買えるし,自動セット機構がついたテープ記録装置なら,1ギガバイト当たりわずか20ドルですむ。

一般には,ユーザーが頻繁にアクセスするようなデータはハードディスクに格納し,それほどアクセスしない情報はテープに入れておく。ディスクドライブはデータのアクセスに平均で15/1000秒しかかからないが,テープだと数分間はかかるからだ。しかし,歴史的な文献や今は使われていないURLなどが実際には頻繁にアクセスされたりすることもありうる。

私たちは,少なくとも数カ月ごとに情報を更新したいと考えている。全体の記録をすべて作成する初期作業には1年近くかかるが,いったん作ってしまえば,次に更新するときは,最後に参照したときから変更された部分だけを収集すればよいので短時間ですむ。

ただし,探索ソフトウエアはインターネット上のすべてのサイトにアクセスできるわけではないので,これを使って収集する文書,画像,音声が,インターネツト上にあるすべての情報というわけではない。出版社の中には,提供するデータや保管資料を,単純な探索プログラムからはアクセスできないかたちで保管し,アクセスを制限しているところもある。

こうした理由もあって,私たちのコンピューターに,インターネットのすべての情報が含まれているわけではない。しかし,ある一定期間にウェブでどんなことが起こったか,ということは十分知ることができる。

インターネット上で公開されている情報を収めると,どんなサービスが可能になるだろうか。たとえばウェブを使うことで,絶版となった学術文献などを提供できる。ウェブのハイパーテキストシステムが学術的な出版メディアになるとしたら,これは重要な役割を担うことになる。さらに,このように保管されたデータは,「記録のコピ一」として研究機関が公共的に利用できる文書となり,やがては電子図書館のような役割を果たしていくだろう。

失われたリンクも復元する

歴央学者たちは,ネットワーク上のこうした資料が非常に使利なものであることに気がつき,すでに利用を始めている。スミソニアン協会のアリソン(David Allison)は,大統領選挙に関するウェブのアーカイブ(保管記録)を歴史博物館で展示し,テレビで放映された初期の選挙運動のビデオとその内容を比較するプロジェクトを展開した。大統領選に関するウェブサイトヘの多くのリンク,たとえばテキサス州の上院議員グラム(Phil Gramm)の選挙運動に関するぺ一ジは,すでにインターネット上からはなくなっている。

アーカイブの作成は,プライバシーや版権などの一連の問題に抵触する可能性がある。ある女子大学生がそのときのボーイフレンドの写真をウェブページに載せ,その後,写真を破いてしまいたいと思っても,記録として残った場合どうなるのか。その写真を削除する権利が彼女にあるだろうか。

反対に,公の人物,たとえば米国の上院議員が,学生時代に掲載したデー夕を削除することができるのだろうか。収集された情報を公開することは,著作権でいわれるところの「公正な使用」に反するのだろうか。この間題は簡単には解決されそうにない。

これらの不安を解決するため,私たちは,作者がアーカイブから自分の作品を取り除くことができるようにしている。また,個々の文書ではなく,アーカイブ全体としての情報の取得だけを研究者に許可するような仕組みを検討している。たとえば象のホームページを見るのではなく,ウェブ上の厚皮動物に関するぺ一ジの数をカウントする,といった具合にである。

こうした手段を通して,プライバシ一と知的財産権に関する当面の間題に対処できることを願っている。インターネット・アーカイブを開始する際に提起された問題や,インターネットにおける情報の公正な利用という考え方は,知的財産やプライバシーの問題を議論していく際の参考になるかもしれない。

インターネット・アーカイブ社は,インターネット上の情報をより長く存続させようという別のプロジェクトにも貢献している。ワシントンにある「保存とアクセスに関する委員会」の研究者たちは,デジタルメディアの格納方法が年々変化していっても,永久にデータを保存できるような仕組みを作り出す研究と取り組んでいる。

一方,IETF(Internet Engineering Task Force)などのグループでは,一意的に特定できるIDをデジタル文書に添付するための標準技術の開発に取り組んでいる。これらの統一リソース名URN(Uniform Resrouce Name)は,現在ウェブページのアクセスに使われているURLの補助的な名前として使用することができ,たとえばリンクが失われた後でも,URNを使って情報を追跡できる。

現在のURLの平均寿命が約44日間であることを考えると,この重要性がわかるであろう。URNを使って,いまなお目的のぺ一ジにリンクしているURLを見つけることもできる。

もっと限られた部分のアーカイブを作る試みも始まっている。デジャニュース社は,Usenetの掲示板のメッセージを保存しているし,インレファランス社はインターネットのメーリングリストのアーカイブを作っている。どちらも広告収入で運営されており,私たちインターネット・アーカイブ社も例外ではない。

私はこれまで,インターネットのソフトウエアの売り上げやサービスで得た資金を,会社のプロジェクトに投資してきた。また主要コンピューターメーカーからの機器の寄付も受けてきた。

インターネットの情報保存に適したインフラが確立され,その中で知的財産に関係する問題が解決されていくまでには,まだ何年もかかるだろう。重要なのはアーカイブを作り続けていくことだと考える。今それをやらなければ,将来取り戻すことは不可能であり,新しいメディアの誕生をとらえた記録が失われてしまうからである。■


著者 BREWSTER KAHLE

インターネット・アーカイブ社の創立者(1996年4月創立)。1989年にインターネット上で情報提供するためのシステムソフトWAlSを開発。企業や公共機関を対象にホームページ作成などを支援するWAlS社を1992年に設立した。シンキング・マシーンズ社のスーパーコンピューター「コネクションマシン」の主任設計者の経験もある。マサチューセッツ工科大学から1982年に修士号を取得した。

原題名

Preserving the Internet
原論文掲載誌
SCIENTIFIC AMERICAN March 1997