Googleの流出文書?を翻訳してみた(ちょっとだけ)

本物っぽいですねぇこれ。無論誰も確証なんてだせませんが。
以下ちょー長文です。

ためしにこのURLをひっぱたくと

https://www.google.com/evaluation/search/rating/home

Forbidden
The user ******@gmail.com is not a member of EWOQ. Please ask your EWOQ contact for access.

とでるので、本物っぽい(このURLを知ってる時点で)ですねぇ。
まあぜんぜん確信できる証拠じゃないですが。
(やめた人がネタで書いてる可能性もあるしね~)

まあ本物だったらおもしろいなーってことで、部分的に意訳してみます。

とりあえず内容としては
Webサイト評価の方法と
そのツールであるEWOQの使い方
あとスパム判定系のお話ってところですね。

全部で43ページもあって長いので
面白そうなスパム系のとこだけ

————ここから————

P32からのスパムサイトについて

Webサイトの評価はクエリーと共にするものです。
しかしスパムサイト評価はクエリーに依存しません。
怪しい技術を使ったスパムサイトはどんなクエリーに対してもスパムサイトです。
#ページ match 検索クエリー という考え

スパマーが報酬を得る方法

・PPC
・アフィリエイト

しかし、これらのサイトは付加価値がある場合はスパムサイトとはなりません。
(ようはオリジナルコンテンツとか役に立つコンテンツがあることかな)

スパムサイトじゃない例はこんなかんじ。

・価格比較サイト
・商品のレビュー
・レシピ
・歌詞や引用文
・連絡先のあるページ(特に住所とかが書いてあるページなど)
・クーポンやディスカウント系の情報

以下スパムサイトの例
PPC

・PPCのみのページ
・フェイクディレクトリ型検索エンジン(検索結果が全部PPCみたいな)
・フェイクブログ(PPCをクリックさせるためだけにあるブログみたいな)
・フェイク掲示板(書き込みがPPC広告みたいな)
・コピーコンテンツ+PPC
#ようはコピー記事を全部とっぱらったら広告しかないサイトはダメですよ

見分け方

・文章をそのまま検索窓につっこんで検索
・Site:で検索して文章テンプレートとかを見てみる

確保してあるドメインの利用

確保したドメインを利用してこんなコンテンツを載せている

・スポンサードリンクのリスト
・どこにでもありそうなカテゴリリスト
・関連カテゴリのリスト

こんなサイトがいい例です
www.dasonet.com/todahfezkdk.htm
#これよくみますよね

またこれらのドメインを売買する
#ドメインの売買もNGっぽい雰囲気
#スパムドメインじゃない場合はどうするんだろ

見分け方

・インターネットアーカイブを見てみる
#まじだw

アフィリエイト

・PPCとほぼ同じ
アフィリエイトだけのサイトとか。
オリジナルコンテンツが重要
PPCと同じくアフィリエイト+オリジナルな解説とかはOK

見分け方

・住所、電話番号があるかどうか
・フォーラムがあるかどうか
・ログイン機能があるかどうか
・アフィリエイトを展開(やるんじゃなくて広告主のほう)してる
・ショッピングカートのリンクが同じドメイン

隠しテキスト、隠しリンク

ユーザには見えない(見えにくい)がロボットには見えるたぐいのものすべて
#もちろん例外はあるみたい

見分け方

・CTRL+Aを押して全部みてみる
・ブラウザのJSをオフにして見てみる
・ブラウザのCSSをはずして見てみる

JSでリダイレクト

ユーザとロボットで表示を切り替えるようなやつのことかな

見分け方

・googleキャッシュと今みてるページとの差分をチェックする

キーワードスタッフィング

とにかくキーワード詰め込むやつかな

見分け方

・目で見れる場合はそのまま
・JSを使って隠してる場合はJSを切ってみよう

URLにキーワードスタッフィング
#サブドメインを切り出してページでも生成してるんだとおもう
⇒does not make sense だってw

100%フレームページ

・ページフルにフレーム使ってる場合

見分け方

・右クリしてフレームのURLをみて今のURLと違うことを確認

せこいリダイレクト

ようは一旦検索エンジン用のページを開いてその直後にリダイレクトして
他のドメインにあったりするページを見せるってことかな

見分け方

・ドメインが違う場合、whoisとか使ってドメイン所有者を見てみる
#これってURLが変わりましたってやつで5秒後にリダイレクトとかのあれが
#別のレンサバ(ドメインをレンサバ名義にしてるやつ)
#にしちゃうとNGってことですね

————ここまで————

雑感ですが、意外とGoogleですらできないことって多いんですね。
例えば アクセスしたURLと今表示してるURLの違いとか
FireBugがやってるようなこととか(レンダリングエンジンをそのまま積み込むわけにはいかないのか)
でもここまでやるから検索性能を維持できているんだろうなぁ。

まあ実装はしていても、人間の作ったものをプログラムで見分けるわけだから
100%じゃなくって、その100%じゃない部分の補完として使ってる可能性もありますが。

とりあえず spammy site という表現が気に入ったw

最後

信じるも信じないもあなた次第!(ぱくり