← 検索画面に戻る
このサイトについて
はじめに
本サイトでできること
2019年に閉鎖された「Yahoo!ジオシティーズ」に登録されていたサイトのうち、Internet Archiveが保存済みの約30万件(※完成時の予定数。現在は1万件程度)について、キーワードやカテゴリで検索できます。
検索データベースについて
このデータベースは、「ゼロ年代WEBコンテンツ保存プロジェクト」の関連資料として、Yahoo!ジオシティーズ閉鎖後にアーカイブされたコンテンツへの索引を目的にメタデータを記述したものです。WEBサイト自体の保存や公開はおこなっていません。そのためInternet Archiveの状態によっては、リンク先のページにアクセスできない可能性があります。
現在はα版のため、文字化けやデータの未取得、リンク切れサイトなどが混在しています。カテゴリーおよび再現度は、一部のサイトにのみ試験的に設定しています。
データベースの使い方
1. 表示順
- ジオシティーズは現在更新が不可能なアーカイブに格納されており、SEOや人気は反映されません。本サイトでも基本的に登録順(スクレイピングした際にデータベース側で割り振ったID順)で表示されます。
- ただし、キーワードやカテゴリが指定されていない場合は、登録済みのサイトからランダムに100件が表示されます。ページをリロードするか、「シャッフル」を押すたびに表示されるページが変化します。
- 1ページに表示されるのは最大100件です。それ以上の検索結果が出た場合は、最下部のボタンから閲覧できます。
2. 検索機能
- キーワード検索: サイト名や概要、URLの一部などから検索できます。スペースで区切れば複数のキーワードで絞り込めます(e.g., 「ゲーム」「攻略」)。α版では高度な検索には対応していません。
- カテゴリ検索: あらかじめ設定されたカテゴリに含まれるものだけを表示します。
※サイト作成者がジオシティーズ登録時に選択した「番地」等とは関係なく、コンテンツの内容に基づいて設定しています。
※試験運用中です。今後分類の変更や、この項目自体が削除される可能性があります。
- 再現性によるフィルタリング: 元サイトの再現性が高い順に3段階で示されており、デフォルトでは閲覧可能な部分が著しく少ないものは表示対象から除外されています。ただし閲覧不可となっていても、アーカイブされた日付を変更することで見られるページがあるかもしれません。α版では一部のサイトにのみ設定されています。
- これらの要素は組み合わせて検索できます。たとえば「同人カテゴリで、〇〇という作品をあつかっている再現性の高いサイトだけを表示する」ことも可能です(ある程度登録済みサイト数が増えるまでは、カテゴリや再現性を指定しない方がヒットしやすくなります)。
3. データの書き出し
- ランダム表示や検索結果のメタデータはダウンロード可能です。ファイル形式はJSONです。
4. 検索・表示のヒント
- データベース自体の不具合: 現時点では精度の向上よりも登録件数の増加を優先しているため、文字化けや空欄のデータが多く存在します。その場合、本来ならサイトの内容が検索キーワードに合致するものであっても、検索結果に表示されません。データベースの更新をお待ちください。
- キーワードの変化: 対象となるサイトの多くは2000年代から2010年代半ばにかけて制作されており、現在一般的なものとはことなるキーワードが使われていることがあります。
e.g., 「BL」で検索結果に出ないサイトが「やおい」「腐女子」だと表示される
- 文字化け対策: 現在はWEBサイトのテキストエンコーディングにUnicode(UTF-8)が用いられますが、2000年代はShift-JISやEUCが一般的でした。MacやiOSのSafariでは、Shift-JISはデフォルトの設定でも正常に表示されることが多いようですが、EUCは文字化けしてしまいます。その場合はブラウザのテキストエンコーディングを変更することで閲覧できるかもしれません。
「ゼロ年代WEBコンテンツ保存プロジェクト」とは
- 「ゼロ年代WEBコンテンツ保存プロジェクト」は、2019年に「文部科学省国際共同利用・共同研究拠点『日本文化資源デジタル・アーカイブ国際共同研究拠点』・研究拠点形成支援プログラム研究プロジェクト」に採択され、現在は立命館大学アート・リサーチセンターの研究設備・資源活用型プロジェクトとして継続中です。(詳細はこちら)
※ARCはサーバー領域の提供とシステム面でのサポートにのみ関与し、運営はプロジェクトメンバーがおこなっています。
- 本プロジェクトでは、これまで東アジア地域の小説やゲーム、Flash動画など、2万件以上のCGM(ユーザー生成メディア)のメタデータや一部のフリーゲームなどを収集してきました。現在はおよそ10万件の中国のWeb小説および同数の同人ゲームの情報を収集しています。
- 収集済みデータのうち5,000件程度については、アート・リサーチセンターのデータベースで試験的に公開しています。
ゼロ年代WEBコンテンツDB: https://www.dh-jac.net/db1/resource/search_gene.php
※メタデータのみで、コンテンツ本体は含まれません。こちらもα版のため、データに誤りが含まれる場合があります。現在メンバーの入れ替え中のため、更新は最小限となっています。
お問い合わせ
- 本サイトではもともとのコンテンツの保存や公開はしていないため、リンク先のサイトの削除をご希望の場合、お手数ですが直接Internet Archiveにご連絡をお願いします。依頼方法については下記のサイトなどをご参照ください。
Wayback Machineからページを削除する方法
- URLがわかれば、サイト自体は残したまま本データベースの検索結果から除外することも可能ですが、サーバーメンテナンスや人的リソースの関係で迅速な対応が難しいため、お急ぎの場合はInternet Archiveにお問い合わせいただいた方が対応が速い可能性が高いです。Internet Archiveから削除された時点で、このデータベースからもそのサイトに接続できなくなります。
共同研究のお誘いや、情報の共有などは、以下のフォームからご送信ください。※すべてのお問い合わせに対して個別にご返信できない可能性がありますが、ご容赦ください。