Ngramを利用してWEBページ2個の重複度を計測します。 評価式は単純に 重複Ngram数 / 全体のNgram数 になっています。
参考データ まったく違うページ: 0~15% ちょっと関係がある(リンク紹介してたり)する: 15%~25% 同じブログの違う記事とか: 25%~40% みためほぼ同じ: 60%~