物欲購入目録日誌 写真館
スポンサーサイト
--.--.-- (--:--) スポンサー広告
Twitterでつぶやく
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
twitterスパム推定の調査 (その2) 概要,本文情報を素性から外して推定精度UP!
2011.09.22 (01:53) 気になるモノtrackback(0)comment(0)
Twitterでつぶやく
7cecb4492.jpg


twiter bot(@tachi_pic_bot)に載せようと思って作っていたtwitterスパム推定モジュールなんですが、いろいろと改良して精度を測ってみたり、素性を検証しながら触ってみた。

最近やってみたこと、

1)各事例から取得している概要(description)とツィート本文(tweets)に関しては、これまでの処理では形態素解析の名詞句の抽出が上手くできていなかったので、n-gramを作ってそれを素性として持つようにした。

2) 利用アプリ(source)について不具合があったので修正。

などの修正点を施して再度、453事例に対して5分割交差検定を用いて作成したモデルの精度を測ってみたのですが、どうやら概要情報とツィート本文情報を素性として利用するとモデルの精度が低下していることが判明。

やっぱり、形態素解析など頑張ったのですが1事例あたり140文字x20レコード程度の情報からでは有益な素性とはならないようだったので、この2つの素性の利用をカットすると、最終的な精度は 97.79 [%]を実現。

次に、同様に各素性を1個毎に抜いて精度を図りその素性の寄与を見て見ました。


spam20110921_1.jpg


寄与率に注目してグラフを下記直すと

spam20110921_2.jpg


全開同様, listed_count(他人からお気に入り登録されている個数)の寄与が非常に大きいことがわかりした。次点はツィート間隔の分散,総ツィート数などの素性の寄与が大きいことがわかりますな。

逆によくアカウントの健全性を評価する指標として使われるFF比(フレンド数÷フォロー数)ってのが正の寄与ではありますが、それほど機会学習的には重要な素性としてはみなされていなようです。

これはFF比率が重要な素性としてみなされてから、不正にこの比を調整しているような事例が多くあるようなことに起因するのかもしれませんな。

今度はtwiter botに搭載してみて、実際にどの程度、うまく推定てきるのか応用面を調査してみたいと思います。
prevhome next












トラックバックURL
→http://tachiphoto.blog61.fc2.com/tb.php/1471-87c4f136
home
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。