2009年12月1日火曜日

【研究中】ベイジアンフィルタ

スパム投稿をハジくのに、

リモートのIPアドレスとかホスト名とかを

使おうという発想は、限界がある気がします。



意外と踏み台にされてるホストがたくさんありそうだし、

幾つかプロキシを経由されたりしたらもう追及するのも面倒。



ということで、スパム対策は、結局、ベイジアン・フィルタを

使うのが、個人的には、いちばん気に入っています。



ということで、ベイジアン・フィルタの研究したいと考えています。



英語だけ対象でいいなら、次の手順になると思います。

1)入力テキストを単語にバラす
  ⇒入力テキストを空白文字などで単語にバラす

2)ベイジアン・フィルタでスパム判定
  ⇒バラした後の各単語から元の文章をスパム判定



日本語も対象にするなら、次の手順になりそうです。

0)準備
  ⇒形態素解析エンジン・APIをインストール

1')入力テキストを単語にバラす
  ⇒入力テキストを形態素解析で単語にバラす

2)ベイジアン・フィルタでスパム判定
  ⇒バラした後の各単語から元の文章をスパム判定



ということで、研究課題としては、

 ☆ベイジアン・フィルタのアルゴリズム
  ⇒既存のアルゴリズムでいいんですけど。。。
   Paul Graham方式とか。

 ☆形態素解析モジュール
  ⇒一応、MeCabがよさそうです。。。
  ⇒APサーバー側にインストールするのか
   Yahoo形態素解析APIを利用するのでもいいのか



上記0)~2)を一つのWebサービスとして

公開することまで考えれば中々面白そうです。。。

0 件のコメント:

コメントを投稿

どうかお気軽にコメント頂ければ幸いです。