spark43代表のブログ: 【研究中】ベイジアンフィルタ

2009年12月1日火曜日

【研究中】ベイジアンフィルタ

スパム投稿をハジくのに、

リモートのIPアドレスとかホスト名とかを

使おうという発想は、限界がある気がします。

意外と踏み台にされてるホストがたくさんありそうだし、

幾つかプロキシを経由されたりしたらもう追及するのも面倒。

ということで、スパム対策は、結局、ベイジアン・フィルタを

使うのが、個人的には、いちばん気に入っています。

ということで、ベイジアン・フィルタの研究したいと考えています。

英語だけ対象でいいなら、次の手順になると思います。

１）入力テキストを単語にバラす
　　⇒入力テキストを空白文字などで単語にバラす

２）ベイジアン・フィルタでスパム判定
　　⇒バラした後の各単語から元の文章をスパム判定

日本語も対象にするなら、次の手順になりそうです。

０）準備
　　⇒形態素解析エンジン・APIをインストール

１'）入力テキストを単語にバラす
　　⇒入力テキストを形態素解析で単語にバラす

２）ベイジアン・フィルタでスパム判定
　　⇒バラした後の各単語から元の文章をスパム判定

ということで、研究課題としては、

　☆ベイジアン・フィルタのアルゴリズム
　　⇒既存のアルゴリズムでいいんですけど。。。
　　　Paul Graham方式とか。

　☆形態素解析モジュール
　　⇒一応、MeCabがよさそうです。。。
　　⇒APサーバー側にインストールするのか
　　　Yahoo形態素解析APIを利用するのでもいいのか

上記０）～２）を一つのWebサービスとして

公開することまで考えれば中々面白そうです。。。

0 件のコメント:

コメントを投稿

どうかお気軽にコメント頂ければ幸いです。

spark43代表のブログ

2009年12月1日火曜日

【研究中】ベイジアンフィルタ

0 件のコメント:

コメントを投稿

Google Page Rank

Twitter Updates

Twitter Updates