物欲購入目録日誌 写真館
スポンサーサイト
--.--.-- (--:--) スポンサー広告
Twitterでつぶやく
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
twitter bot( @tachi_pic_bot) にスパム推定機能をつけよう
2010.12.24 (22:44) アニメ・漫画trackback(0)comment(0)
Twitterでつぶやく
spam.jpg


最近は本業が忙しく週末でもパソコンに向かっていても仕事していて、twitter bot( @tachi_pic_bot)を触っていなかったのですが、ちょっと余裕がでてきたので、機能追加をやってみる。

お題はtwitterアカウントのスパム推定機能を実装すること。

twitterにおけるスパムの現状は以下の公式ページから参照でききます。

http://blog.twitter.jp/2010/03/twitter.html

公式のほうでかなり減らしているようですが、どこからともなくまったく知らないスパムっぽい人からフォローされたりしていたりはいないでしょうか?

オイラのtwitter bot( @tachi_pic_bot) では今現在の仕様ではフォローされた場合は自動的にフォローし返すように動きますが、、

これが結構問題でやたらとフォローし返すとどういうわけか、、どこからともなくスパムっぽい人からフォローされるケースが非常に多くなってしまっています。

その状況を打破するために、フォローしてくれた人のidを用いてスパム推定を実行し、

非スパムである場合に限りフォローするという流れに組みかえようと思っております。

そこで必要な技術がidを渡すと、そのidがスパムかどうかを判定する方法ですが、機械学習の枠組みでスパムに関して学習、推定を実行してみようと思います。推定器はサポート・ベクターマシン(SVM)でとりあえずやってみる。
違う推定器もやってみたいので、できればRandom Forestでも動くようにしたい。

利用する素性はだいたい20個ぐらい作ってみた。

有効そうな素性は以下のもでしょうかね?

Twitter Follower-Friend Ratio
 フォロワー数をフォロー数で割ったF/F比

・リスト率
 被リスト数をフォロワー数で割ったリスト率

 http://blog.livedoor.jp/lunarmodule7/archives/891673.html

あとは投稿の時間情報に関連する素性や統計情報、tweet内容に関する素性値などを作成中。

ある程度、素性が決定すれば、あとは学習用データを集めて、推定するだけでOKなハズなんですが、、学習用のデータを集めるのがちょっと大変そう。
prevhome next












トラックバックURL
→http://tachiphoto.blog61.fc2.com/tb.php/1246-0b8e02fd
home
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。