物欲購入目録日誌 写真館
スポンサーサイト
--.--.-- (--:--) スポンサー広告
Twitterでつぶやく
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
Twitter スパム推定の関連研究
2011.09.23 (01:29) アニメ・漫画trackback(0)comment(0)
Twitterでつぶやく
twitter-spam-fail-whale-image.png


先日からやっているtwitterのスパムアカウントの推定に関して、精度があまりにも出すぎてうまくできているのか?かなり怪しく思ったので、先行研究を調べてみました。

web上で調べてみるととりあえず、2編ほどご紹介。

(1) DON’T FOLLOW ME: SPAM DETECTION IN TWITTER Alex Hai Wang


非常にオーソドックスにtwitter APIから素性を抽出してtwitterのスパムアカウントを抽出しています。
twitterは素性は以下のものから抽出しています。

・Graph-based Features

・Content-based features

そして推定器にはNaive Bayesを用いて89%の精度でスパムアカウントを判定できたと帰着されております。

どこをどうとっても普通に考えられる範囲でとりあえず、やったぞ~みたいな論文なのですが、これはいいアイデアだと思った素性があったのでご紹介。

Duplicate Tweets:
twitter上のツィート情報の類似度に注目し、類似度はLevenshtein distanceで測るところがすごくいい。もちろん、http://,www,#,@,などは予めストップワードとして削除しておく。これはよく考えたというか、ナイスだと思った。電車で資料読んでいて唸ったな!

twitter_fig.png


赤色がスパムアカウントの素性なのですが、、完全に分離できているわけではないですが、たしかにスパムアカウントにおいて類似ツィートが多いことが一目瞭然ですね。論文中でもこの素性は効く!と書いてありました。これはいい。真似しよう。

(2) Mutually Reinforcing Spam Detection on Twitter and Web Nikita Spirin

twitter spam意外に普通のスパムも抽出してやろうという論文。twitterスパム用に結構詳しくどんな素性を使ったのか書いてある。推定結果は(1)の論文と同じようにNaive Bayesを使った場合に最高は73%程度。

ほかにもいろいろ探したら出てきた!!もう少し調べてみてもいいかも。

結論としてはSVMでオイラと同じ素性でやった研究結果はとりあえず、まだ発見できていないけど、、SVMで90%以上の精度がでてもまぁ~それほど問題ないような気がしなくもない。

とりあえず、今botに組み込んでいるので実際の応用例で確かめてみるかな。





prevhome next












トラックバックURL
→http://tachiphoto.blog61.fc2.com/tb.php/1472-373cc374
home
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。