検索エンジンの日本語解析力

最近SEOのエントリーばっかりですが。。
こちらのエントリーをみて気になったので。

http://e-club3.hyperposition.com/seoblog/terminology/20080308083139.html

まあ気になったのは

「肝心の検索エンジンの日本語キーワードの解析力はどうなのだろうか?」

というところです。

yahooでは形態素解析をつかって 日本語を分解して文脈で理解しているのは
APIを公開してるとこからみてほぼ間違いないんだけど、
Googleはそれはやっていません。(それっていうのは日本語を「解析」するということ)

一応ソース
Google の鵜飼文敏さんによる講演会の内容
http://nanto.asablo.jp/blog/2008/01/25/2578762

国ごとに検索をローカライズしていく=その言語の研究をめちゃくちゃしなければいけない
というのは スマートではないわけで、
Googleが考えそうなことというのは、言語に依存しないページからのナレッジの抽出技術
みたいなものだったりするのかなと。

言語に依存せずに文脈を理解するっていうのはすごいなー。
まあただそれは Googleのスケーラブルで巨大なインフラがなければ無理な話だとおもいますが。
まあそういう意味で、Googleは検索ワードがすごい重要なんだなと思います。
(n-gramモデルを公開したことには実はすごい意味があるのかもしれませんね)

あと以下おまけで下記疑問に答えてみます

その分母であるべき総単語数から違っている。

以下簡単なHTMLでためしてみた結果です

a ALT読み込み strip_tags してる

b ALTは読み込んで(というより日本語だけ抽出してるかんじ) strip_tags してる
javascript も文字数としてカウントしている

c –

d –

e ALTよまない strip_tags してる

文字数のカウントには カウントする対象を決める必要があって、
そのカウントする対象によって文字数がかわってしまうということですね。
bのjavascriptをカウントしてるのはさすがに問題だと思うけど。。。

「SEOウェブセミナー」は、「SEO + ウェブセミナー」となるケースが多く、「セミナー」を抽出できてないツールが多い。

通常、形態素解析には段階があって、
一番簡単にできるものでは ウェブセミナー を ウェブと セミナー にわけることができません。
それは単純にスクリプトでばらしているからであって
これはまあ簡単にいえば 形態素ばらし ってとこなんですよね。
なので、逆にいえば 最低限 ウェブセミナー をばらせないと
形態素解析できるということにはならないんですが。

ちなみにYahooApiを使えば簡単にウェブセミナーをばらすことは可能です。

Leave a Reply