スパム投稿をハジくのに、
リモートのIPアドレスとかホスト名とかを
使おうという発想は、限界がある気がします。
意外と踏み台にされてるホストがたくさんありそうだし、
幾つかプロキシを経由されたりしたらもう追及するのも面倒。
ということで、スパム対策は、結局、ベイジアン・フィルタを
使うのが、個人的には、いちばん気に入っています。
ということで、ベイジアン・フィルタの研究したいと考えています。
英語だけ対象でいいなら、次の手順になると思います。
1)入力テキストを単語にバラす
⇒入力テキストを空白文字などで単語にバラす
2)ベイジアン・フィルタでスパム判定
⇒バラした後の各単語から元の文章をスパム判定
日本語も対象にするなら、次の手順になりそうです。
0)準備
⇒形態素解析エンジン・APIをインストール
1')入力テキストを単語にバラす
⇒入力テキストを形態素解析で単語にバラす
2)ベイジアン・フィルタでスパム判定
⇒バラした後の各単語から元の文章をスパム判定
ということで、研究課題としては、
☆ベイジアン・フィルタのアルゴリズム
⇒既存のアルゴリズムでいいんですけど。。。
Paul Graham方式とか。
☆形態素解析モジュール
⇒一応、MeCabがよさそうです。。。
⇒APサーバー側にインストールするのか
Yahoo形態素解析APIを利用するのでもいいのか
上記0)~2)を一つのWebサービスとして
公開することまで考えれば中々面白そうです。。。
0 件のコメント:
コメントを投稿
どうかお気軽にコメント頂ければ幸いです。