12月 4, 2008
こちらとかのエントリーを見て思ったことをつらつら
コメントに書こうとして長すぎてエントリーに。。
http://www.algoritmi.jp/seo/20081204010749.html
http://www.suzukikenichi.com/blog/googl-must-have-more-than-one-partitions/
(先にいってくと、私はGoogleもYahooも2つのインデックスは使っていないと思ってる人です)
とりあえずインデックスってどんなものなのか
イメージできていないとおもうので、
ここらへんを参考にしてみてください。
http://ja.wikipedia.org/wiki/%E8%BB%A2%E7%BD%AE%E3%82%A4%E3%83%B3%E3%83%87%E3%83%83%E3%82%AF%E3%82%B9
(転置インデックスの説明@wikipedia)
まあこんなかんじで
サイトがインデックスされると
ほんとに索引に近いものができるわけです。
(実際には転置インデックスはつかってないとおもいますが
イメージとして)
クロール > インデックス
ここで簡単にクロールから検索結果までのフローを書くと
○クローラー
1:クロールする
2:クロールしたものがキャッシュするに値するかを判定
⇒キャッシュしない場合終了
○インデクサー
1:キャッシュされたリストを順にみていってインデックスに値するかを判定
⇒インデックスしない場合終了
2:サイトを分析
3:(検索エンジンが独自に考えた理論で)インデックス
4:ついたインデックスに対してさらに独自の操作をしてポイントさらに操作
(ドメインエイジとかスパムみたいな文書解析とは別のレイヤーの作業)
5:検索結果を出すためのインデックス完成
このできたリストから検索結果を出すわけです
Yとかはこのインデクサーの作業が追いついていなくて、
定期的に 更新しました! といって全サイトのインデックス作業をやるわけです。
(Yahooの場合このインデクサーの作業4だけはこまめにやってる感じ)
が Googleはたぶん余裕で追いついているので、
随時やってるわけです。 だから随時変動。
—-
というのを踏まえて
・補足結果っていうのはたぶん インデクサーの作業の4でしてる作業の一つの集合
・Matt Cuttさんの言及 -> 4の作業をしない状態で5にいってしまった
・ヨーヨー現象 -> インデクサーの処理が早くなっただけじゃないのかな?
・ghost data-set -> こんなのあったらあのスピードで検索結果は出せないと思う。。
・site:とか -> Googleのインデックスは他のサイトからの影響を強く受けるわけだから
被リンク元のページにインデクサーが走った時、被リンク先のページの
評価が変わるのは自然だと思う。
というお話でした。
長ひ。。
結論
hyperestraierを使ってみよう(ぇ
12月 2, 2008
ちょっと思うところがあって作ってみました。
ずいぶん前につくった Keyword Suggest Tool があったので、
それに Plus とかつけて公開しました。
http://refeed.in/keywords/
どこまで動いてくれるかはわからないけど、
とりあえず、近しいデータが出せるはずです。
色々とデータは工夫して近しい数値にしてるんですが、
このくらいの精度以上になったら、現物データとってくるしかないですねw
まあそれは それこそGとYがマネタイズできちゃう部分なので
無料じゃ100%のものは無理でしょうw
10月 2, 2008
そういえば去年の今頃SEOのことがやっと理解できてきたなーと思い出して。
SEOは昔はやったテーブルトークゲームみたいなもので、
ゲームマスターがいて、こっちが行動した結果だけが返ってきて、それを元に色々考える
まあ そんなとこですよね。
業界的には1年たってどんどん Google>>Yahoo 化が進んでますねー
(それでも日本はまだまだYahoo贔屓ですがw)
個人的には検索エンジンの路線はYahooのほうが好きというか
スマートだと思っていて、
他人の評価が基準のGoogleではなく
そのページそのものの本質を調査するYahooにがんばってほしいものです。
まあ今の解析アルゴリズムじゃ中々、
本文からその文章の情報量を抽出できないんですが、
人間ならそのページがいい情報を書いているか目で判別できるんだし
そのうちできるようになるはずです。
Yahooガンバレ
まあ自分のSEOの知識も無駄に増えましたが、
やっぱり 「確証がない」 ことをえらそうに語るのがどうも苦手ですw
営業上必要なことも多いんですがねぇ。。
—-余談—-
SEO塾さん
SEO塾さんのエントリーでコメントついてたのをみて。
(コメント書く気にはなれなかったので)
このキャッシュが複数あるっていうのはなんなのでしょうね?
(2,3世代前を元にインデックス処理するのはまずないとおもいます)
もしきちんと残すのであれば
それこそGoogleのもつサーバをはるかに超える
インフラをもたないといけないし、
意味がない(Web Archiveでやってるしそれなりのビューも作らないといけない)気がします。
2,3世代データをもってる可能性はあると思いますが、
それをキャッシュのリンクに意図的に使う理由はないと思います。
あとキャッシュを削除するというのは
Yahooのアルゴリズムの中に時系列を見る部分があることを考慮すると、
まずないんじゃないでしょうか。
(↑ここが2,3世代もってる可能性があるかもしれない理由でもあります)
1個前のデータと比較するだけならあれですが、
2,3こ前のデータと比較検証するとしたら、必要ですよね。
まあそういう意味では、DBのレプリケーション時差なんでしょうかね。
(簡単に言えば参照しているDBサーバが違う)
まぁそれでも2世代ならまだしも3世代残ってる理由は不明です。
超巨大DBのレプリケーションの時間が何日単位で、
その間に平行してどんどんレプリケーションが走るのであれば
3世代、4世代前が残っていてもおかしくないですが、
さすがにそんなこともないんじゃないのかな。。。
⇒こればっかりは大規模DB運用してみないとさっぱり見当もつかないなぁ。。
まぁ 結局
「こっちが行動した結果だけが返ってきて、それを元に色々考える」
だけで終わります。
正解はありませんw
・・・余談のが長くなってしまった。。