Neo Inspiration

  • Search

    • About Me

      • inspi 改め
        jakk@webアーキテクト(自称)
        php,javascript,seoなど
        得意技は extract();

  • Categories

  • Ranking

  • Comments

  • Others


  • yahooのクローラ ljとrzだけのお話

    またすげーマニアックな話を・・

    yahooのBOTはたくさんあるっぽいわけですが、
    以前のエントリー「スパイダーとクローラが別物なわけ」で知った話も踏まえて実験をしていて、
    気づいたことをまとめておきます。

    元々はスパイダーとクローラーは別みたいな話だったので、
    LJ系のクローラ「だけ」見えないリンクを貼って
    そのページがyahooにキャッシュされるかとか見てました。

    実験

    何をやったかというと、3月21日から
    キーワード適当に 「みれすふぃお」で1ページからリンクをはって
    そのページに LJがきたら lj.php それ以外は no.php に飛ばすリンクを出すように仕込んでおく
    で lj.php と no.php にはBOT名を出すように仕込んでおく
    という簡単なものです。

    ということでこんなかんじ
    http://seo.vertical-search.jp/seo/index.php

    結論からいえば

    lj系でキャッシュしてる。<-「現在の」クローラはLJのデータを元にしている
    lj系でリンクをたどっている<-「現在の」スパイダーもLJのデータを元にしている

    rz系ではキャッシュはしてない感じ or rz系のキャッシュは現在反映されていない
    rz系でもリンクをたどっている<-スパイダーが2個ある?

    とったログはこんな感じ

    (日付、ファイル名、BOT名、BOTIP)

    2008/03/27 12:45:38`index`crawl-66-249-70-134.googlebot.com`66.249.70.134
    2008/03/27 02:17:59`no`crawl-66-249-70-134.googlebot.com`66.249.70.134
    2008/04/02 04:50:23`index`crawl-66-249-73-26.googlebot.com`66.249.73.26
    2008/04/02 10:27:17`no`crawl-66-249-73-26.googlebot.com`66.249.73.26
    2008/04/02 10:39:45`index`lj511500.crawl.yahoo.net`74.6.25.154
    2008/04/02 10:42:09`lj`lj512649.crawl.yahoo.net`74.6.29.109
    2008/04/02 10:42:52`index`lj512709.crawl.yahoo.net`74.6.27.163
    2008/04/05 12:49:33`index`crawl-66-249-70-186.googlebot.com`66.249.70.186
    2008/04/06 02:37:05`index`rz311270.crawl.yahoo.net`67.195.51.227
    2008/04/06 02:40:12`index`rz311341.crawl.yahoo.net`67.195.52.124
    2008/04/06 02:43:56`no`rz311327.crawl.yahoo.net`67.195.52.113
    2008/04/06 07:51:45`no`crawl-66-249-70-186.googlebot.com`66.249.70.186
    2008/04/09 10:40:48`index`lj511500.crawl.yahoo.net`74.6.25.154
    2008/04/09 10:44:07`index`lj512709.crawl.yahoo.net`74.6.27.163
    2008/04/09 10:44:16`lj`lj512649.crawl.yahoo.net`74.6.29.109

    最初にlj系が 2008/04/02 きて index.phpをキャッシュした後
    リンク先の lj.php を見つけてそれを見に行っています。
    つまり LJがリンクを自分で見つけたということです。
    ついでにいうとYahooに出てくるキャッシュファイルから LJクローラがキャッシュしたことも確認しました。

    Yahooでのキャッシュ
    BOTの名前とふづけがぴったり一致したので初回にきた時にキャッシュしてます。

    さて、それとは別に rz系クローラが 2008/04/06 にきています。
    こいつが謎なのですが、indexを見た後に no.php(LJ系ではアクセスできないページ)を見に行っています。
    つまり rz系はそれはそれで別にリンクを見つけてたどっているということになります。
    しかしながら、キャッシュやらURLやらを色々チェックしたんですが、
    現在のYahooにはどうやら反映されていないようです。 or そもそもぜんぜん別の行動をとっているのかもしれない?

    ということで

    次は rz系の研究ってことになるのかな。
    どこから考えればいいのか検討つきませんが。。w


    6 Responses to “yahooのクローラ ljとrzだけのお話”

    1. seo-bookmark.net Says:

      yahooのクローラ ljとrzだけのお話…

      LJとRZ系のYahooクローラが何をしてるかについての
      ちょっとした実験と結果 (more…)

    2. ai@SEOの表と裏 Says:

      興味深い記事をありがとうございます。
      わたしも、lj系・rz系の動きには非常に興味があります。

      もちろん lm llf llj・・・その他たくさんのクローラー達も大好きです。
      djはちょっと愛想がないかなと思ってますが。

      ところでこの記事に質問があるんですが、教えてもらえますか?

      http://66.218.69.11/search/cache?ei=UTF-8&p=%E3%81%BF%E3%82%8C%E3%81%99%E3%81%B5%E3%81%83%E3%81%8A&u=seo.vertical-search.jp/seo/index.php&w=%22%E3%81%BF%E3%82%8C+%E3%81%99+%E3%81%B5+%E3%81%83%E3%81%8A%22&d=Oi-8U_H_Qk3W&icp=1&.intl=us%3Cbr%20/%3E
      このキャッシュ

      『ここにリンク->みれすふぃお ここにリンク->みれすふぃお』
      こんな感じでふたつのリンクがあります。

      ひとつが、nof.phpとなってたりするんですが、これは新たな実験中ですか?

    3. Jakk Says:

      コメントありがとうございます。
      クローラを逆算的に研究するのはむずかしいですねぇ。。

      質問の件ですが、
      nof.php は単に nofollow のテストのためにいれていました。
      (挙動としては、lfクローラがきたときだけ nofollowのリンクを表示するというかんじです)
      ちょっと説明が無くて混乱させちゃってもうしわけないです。

      nofollowなしのリンクを変更したときに
      nofollowとして認識されるかどうかというのは
      実はリンク計算アルゴリズムがどのタイミングで走ってるのかとかの
      目安になるとおもうので、一応実験していたりします。

      まだ明確な結果がでていないのでなんともいえないところなんですが(苦笑

    4. ai@SEOの表と裏 Says:

      ご丁寧にありがとうございました。

      カテゴリ登録サイトは、dj系がキャッシュしていますので
      変動のときにカテゴリ関連トラブルが起こるのはこのあたりが
      原因なのかもしれませんね。

      次の成果も楽しみにお待ちしています。

    5. ai@SEOの表と裏 Says:

      ・・・補足

      おそらく、lj系はホスト変換でlj系だとわからないやつがまざっていると思います。

    6. Jakk Says:

      貴重な情報ありがとうございます。

      なんにしても情報が錯綜しすぎて
      自分で実験してみないと何もわからない世界ですよね~

      いただいた情報はありがたく参考にさせていただきますね!

    Leave a Reply

    2008/10/13 06:14:57