約6000サイトを確認しています。PC推奨
2024/12/20に閉鎖される、1990年代からVectorが提供していたホームページサービス hp.vector のアーカイブへのリンク集です。このサイトに対象サイトのファイルは含まれていません。
source: itmedia , internet watch
http://www.vector.co.jp/vpack/author/listpage.html に存在したホームページの一覧URL。2024年時点では存在しないが、2016年頃までは存在していた。
vector公式の一覧ページなので充分に信用できると思われる。
InternetArchiveからhp.vector.co.jp/authors
の部分一致でアーカイブされているURL一覧を取得して、サイトの一覧を作成した
curl "https://web.archive.org/cdx/search/cdx?url=http://hp.vector.co.jp/authors/&matchType=domain&output=json&filter=statuscode:200&collapse=urlkey" -o ".saved/hp.vector.json"
のコマンドから作成
https://hp.vector.co.jp/authors/VA000000/
のURLの番号部分を充分に間隔を開けて連番でアクセスした。
原理的には全てのサイトを補足出来るはずだが、連番部分が yohko などのアルファベットになっているHPが存在している可能性がある。実際、上記のvector公式の一覧ページに存在していた。どの様なユーザーがこのアドレスを取得出来たのかは不明
https://www.vector.co.jp/vpack/browse/person/an000000.html
のURLの番号部分を充分に間隔を開けて連番でアクセスし、htmlから個人HPサイトのリンクを抽出。この個人HPへのリンクが強制的に表示されるものなのか否かは知らない。
こちらのvector本家側は全て連番であると思われる。この項目に限らないが、退会したユーザーの情報がどうなるのかは確認していない。
これらを使いHPスペースのURLの一覧を作成した。
通常のvectorの個人HPスペースは https://hp.vector.co.jp/authors/VA000000/
の形式で数字部分で区別されているが、数字部分が恐らく任意のアルファベットになっているケースが存在している
/VA010117/ と同じ。
/VA001687/ と同じ。
/VA004149/ と同じ。
詳細不明。InternetArchiveに保存はされている が、全て中身は無い。
上記の通り、詳細不明の1件を除くと全て通常のVA~形式のURLが存在しているので、ページ一覧ではこれらは無視するとする。
トップページからリンクされていない孤立ファイルは見つけようがないので恐らく抜けはそれなりにある。
HPスペース全体としての容量が5MBなので、容量オーバーで保存されなかった事は無い気がする。
wgetを使って各サイトのファイル一覧を作成して、InternetArchiveに保存されていないファイルを登録する事も可能ではあるが、そこまではいいかなって。
各HPが最大5MB、全部で約6000サイトだから全部DLしても約30GB。全然無茶な値ではない。全部のサイトが最大容量使ってる訳もないし。