Googleのインデックスのお話

こちらとかのエントリーを見て思ったことをつらつら
コメントに書こうとして長すぎてエントリーに。。

http://www.algoritmi.jp/seo/20081204010749.html
http://www.suzukikenichi.com/blog/googl-must-have-more-than-one-partitions/

(先にいってくと、私はGoogleもYahooも2つのインデックスは使っていないと思ってる人です)
とりあえずインデックスってどんなものなのか
イメージできていないとおもうので、
ここらへんを参考にしてみてください。
http://ja.wikipedia.org/wiki/%E8%BB%A2%E7%BD%AE%E3%82%A4%E3%83%B3%E3%83%87%E3%83%83%E3%82%AF%E3%82%B9
(転置インデックスの説明@wikipedia)

まあこんなかんじで
サイトがインデックスされると
ほんとに索引に近いものができるわけです。
(実際には転置インデックスはつかってないとおもいますが
 イメージとして)

クロール > インデックス

ここで簡単にクロールから検索結果までのフローを書くと

○クローラー
1:クロールする
2:クロールしたものがキャッシュするに値するかを判定
 ⇒キャッシュしない場合終了

○インデクサー
1:キャッシュされたリストを順にみていってインデックスに値するかを判定
 ⇒インデックスしない場合終了
2:サイトを分析
3:(検索エンジンが独自に考えた理論で)インデックス
4:ついたインデックスに対してさらに独自の操作をしてポイントさらに操作
(ドメインエイジとかスパムみたいな文書解析とは別のレイヤーの作業)
5:検索結果を出すためのインデックス完成

このできたリストから検索結果を出すわけです

Yとかはこのインデクサーの作業が追いついていなくて、
定期的に 更新しました! といって全サイトのインデックス作業をやるわけです。
(Yahooの場合このインデクサーの作業4だけはこまめにやってる感じ)
が Googleはたぶん余裕で追いついているので、
随時やってるわけです。 だから随時変動。

—-

というのを踏まえて

・補足結果っていうのはたぶん インデクサーの作業の4でしてる作業の一つの集合
・Matt Cuttさんの言及 -> 4の作業をしない状態で5にいってしまった
・ヨーヨー現象 -> インデクサーの処理が早くなっただけじゃないのかな?
・ghost data-set -> こんなのあったらあのスピードで検索結果は出せないと思う。。
・site:とか -> Googleのインデックスは他のサイトからの影響を強く受けるわけだから
        被リンク元のページにインデクサーが走った時、被リンク先のページの
        評価が変わるのは自然だと思う。

というお話でした。
長ひ。。

結論

hyperestraierを使ってみよう(ぇ