ランキングチェックツールを自作してみたのでそのメモ

FLEX、PHP、その他もろもろでランキングチェックツールを構築したわけですが、
最近やっと安定稼働になったので、そこらへんのメモ。

サービスの規模

・現在のワード数:1500前後
→通常のツールと違って、全SERPSを取得してさらにキャプチャも取得するので、
 google,yahooへのアクセス回数は大体普通のツールの7-8倍。
 (なのでGRCとかフェレットとかでいったら12000キーワードくらいまわしてる計算)

・URLのチェック件数:1600前後
→同時に競合調査とかもできるようになっているので、ワード数よりちょっと多い。

この規模感です。大きいような小さいような。
まだ稼働して1カ月で個の規模は大きいというべきか。。。

ハードウェア的には

VPS4台という笑えない状況w
大体400ワードを1VPSで裁いてる感じです。。

HDD的には

キャプチャ含めて1日分のSerpsは大体3GB↑
1か月分保存するだけで、100GB近くになる。
HDDはいくらあっても足りない状況。

現在は前月分以外はtar.gzにしてローカル保存。
スクリーンショットとかの関係で、
DBに入れず全部ファイルにしてたのがあだになったかも。。

CPU的には

余裕すぎ。というかほぼ回線とHDDのためにVPSを分散させてる状況。

回線的には

1ワード10件表示で、100位までをGとYでやるので、20アクセス。
それが1500ワードなので、3万アクセス
それを4台で賄っているので、1台あたり7500アクセス。
こんなの普通にG,YにアクセスしたらDOS攻撃になっちゃうので、
それを24時間で分散してアクセスしてます。
ちなみに最低7.5秒は感覚あけないと、Googleはすぐに弾いてきますので、
24*60*60 / 7.5 = 11520ってことで、
MAX1万ちょっとくらいしか1サーバ(てかIPかな)からはアクセスできない感じです。
Yahooはたぶんそこまでチェックはしていなっぽいです。

その他

・なぜかVPS経由のIE8相当のアクセスだと、
 ロケーション取得が日によってかなりばらつきがあって、
 ある日は渋谷、ある日は目黒、ある日は愛媛、ある日は鹿児島
 みたいな感じで、ばっらばらになります。

・HDDが一杯になると、VNCがつながるけど、画面が真っ黒なままなんだと初めて知りました。

・改めてランキングチェックツールの大変さがよくわかりました。。。

・とりあえず普通のランキングツールと違って全Serpsが手元にあるので、
 分析し放題なのだけはメリットなのかな。

Leave a Reply