日本語の解析の仕方とかで悩む

サーチエンジンっぽいものを自作していると
どういう形でインデックスするかとか
どういう形でヒットにしてSerpにだすかを考えていくわけですが

googleでは
http://nanto.asablo.jp/blog/2008/01/25/2578762

日本語の知識の利用は皆無。品詞情報なども使っていない。

テキスト処理は言語非依存。

らしいです。

一瞬目を疑いましたがw

でも 良く考えると現時点での自分のSerpもそういう形で出してるわけで
突き詰めれば品詞情報とかはなくても 文脈がとれるってことなんでしょう。

でも 日本語の品詞情報があれば精度は高まるはずなので、
API公開してるくらいのYahooなら こと日本語にかぎっていえば
Googleより精度が高くていいはずなのになぁ。

とりあえず当面はブログに限って、日本語に限って
ある程度文脈を理解して解析できるようなプログラムを組めるように
研究したいとおもっています。

最終的にはやっぱり
http://nanto.asablo.jp/blog/2008/01/25/2578762

Web を文脈つきの辞書とみなす。

こういう形にしたいなぁ。

Leave a Reply