またすげーマニアックな話を・・
yahooのBOTはたくさんあるっぽいわけですが、
以前のエントリー「スパイダーとクローラが別物なわけ」で知った話も踏まえて実験をしていて、
気づいたことをまとめておきます。
元々はスパイダーとクローラーは別みたいな話だったので、
LJ系のクローラ「だけ」見えないリンクを貼って
そのページがyahooにキャッシュされるかとか見てました。
実験
何をやったかというと、3月21日から
キーワード適当に 「みれすふぃお」で1ページからリンクをはって
そのページに LJがきたら lj.php それ以外は no.php に飛ばすリンクを出すように仕込んでおく
で lj.php と no.php にはBOT名を出すように仕込んでおく
という簡単なものです。
ということでこんなかんじ
http://seo.vertical-search.jp/seo/index.php
結論からいえば
lj系でキャッシュしてる。<-「現在の」クローラはLJのデータを元にしている
lj系でリンクをたどっている<-「現在の」スパイダーもLJのデータを元にしている
rz系ではキャッシュはしてない感じ or rz系のキャッシュは現在反映されていない
rz系でもリンクをたどっている<-スパイダーが2個ある?
とったログはこんな感じ
(日付、ファイル名、BOT名、BOTIP)
2008/03/27 12:45:38`index`crawl-66-249-70-134.googlebot.com`66.249.70.134
2008/03/27 02:17:59`no`crawl-66-249-70-134.googlebot.com`66.249.70.134
2008/04/02 04:50:23`index`crawl-66-249-73-26.googlebot.com`66.249.73.26
2008/04/02 10:27:17`no`crawl-66-249-73-26.googlebot.com`66.249.73.26
2008/04/02 10:39:45`index`lj511500.crawl.yahoo.net`74.6.25.154
2008/04/02 10:42:09`lj`lj512649.crawl.yahoo.net`74.6.29.109
2008/04/02 10:42:52`index`lj512709.crawl.yahoo.net`74.6.27.163
2008/04/05 12:49:33`index`crawl-66-249-70-186.googlebot.com`66.249.70.186
2008/04/06 02:37:05`index`rz311270.crawl.yahoo.net`67.195.51.227
2008/04/06 02:40:12`index`rz311341.crawl.yahoo.net`67.195.52.124
2008/04/06 02:43:56`no`rz311327.crawl.yahoo.net`67.195.52.113
2008/04/06 07:51:45`no`crawl-66-249-70-186.googlebot.com`66.249.70.186
2008/04/09 10:40:48`index`lj511500.crawl.yahoo.net`74.6.25.154
2008/04/09 10:44:07`index`lj512709.crawl.yahoo.net`74.6.27.163
2008/04/09 10:44:16`lj`lj512649.crawl.yahoo.net`74.6.29.109
最初にlj系が 2008/04/02 きて index.phpをキャッシュした後
リンク先の lj.php を見つけてそれを見に行っています。
つまり LJがリンクを自分で見つけたということです。
ついでにいうとYahooに出てくるキャッシュファイルから LJクローラがキャッシュしたことも確認しました。
Yahooでのキャッシュ
BOTの名前とふづけがぴったり一致したので初回にきた時にキャッシュしてます。
さて、それとは別に rz系クローラが 2008/04/06 にきています。
こいつが謎なのですが、indexを見た後に no.php(LJ系ではアクセスできないページ)を見に行っています。
つまり rz系はそれはそれで別にリンクを見つけてたどっているということになります。
しかしながら、キャッシュやらURLやらを色々チェックしたんですが、
現在のYahooにはどうやら反映されていないようです。 or そもそもぜんぜん別の行動をとっているのかもしれない?
ということで
次は rz系の研究ってことになるのかな。
どこから考えればいいのか検討つきませんが。。w
Pingback: seo-bookmark.net
興味深い記事をありがとうございます。
わたしも、lj系・rz系の動きには非常に興味があります。
もちろん lm llf llj・・・その他たくさんのクローラー達も大好きです。
djはちょっと愛想がないかなと思ってますが。
ところでこの記事に質問があるんですが、教えてもらえますか?
http://66.218.69.11/search/cache?ei=UTF-8&p=%E3%81%BF%E3%82%8C%E3%81%99%E3%81%B5%E3%81%83%E3%81%8A&u=seo.vertical-search.jp/seo/index.php&w=%22%E3%81%BF%E3%82%8C+%E3%81%99+%E3%81%B5+%E3%81%83%E3%81%8A%22&d=Oi-8U_H_Qk3W&icp=1&.intl=us%3Cbr%20/%3E
このキャッシュ
『ここにリンク->みれすふぃお ここにリンク->みれすふぃお』
こんな感じでふたつのリンクがあります。
ひとつが、nof.phpとなってたりするんですが、これは新たな実験中ですか?
コメントありがとうございます。
クローラを逆算的に研究するのはむずかしいですねぇ。。
質問の件ですが、
nof.php は単に nofollow のテストのためにいれていました。
(挙動としては、lfクローラがきたときだけ nofollowのリンクを表示するというかんじです)
ちょっと説明が無くて混乱させちゃってもうしわけないです。
nofollowなしのリンクを変更したときに
nofollowとして認識されるかどうかというのは
実はリンク計算アルゴリズムがどのタイミングで走ってるのかとかの
目安になるとおもうので、一応実験していたりします。
まだ明確な結果がでていないのでなんともいえないところなんですが(苦笑
ご丁寧にありがとうございました。
カテゴリ登録サイトは、dj系がキャッシュしていますので
変動のときにカテゴリ関連トラブルが起こるのはこのあたりが
原因なのかもしれませんね。
次の成果も楽しみにお待ちしています。
・・・補足
おそらく、lj系はホスト変換でlj系だとわからないやつがまざっていると思います。
貴重な情報ありがとうございます。
なんにしても情報が錯綜しすぎて
自分で実験してみないと何もわからない世界ですよね~
いただいた情報はありがたく参考にさせていただきますね!