Ngramを利用してWEBページ2個の重複度を計測します。
評価式は単純に 重複Ngram数 / 全体のNgram数 になっています。



参考データ
まったく違うページ: 0~15%
ちょっと関係がある(リンク紹介してたり)する: 15%~25%
同じブログの違う記事とか: 25%~40%
みためほぼ同じ: 60%~


URL1:  URL2: 

URLが入力されていません。