物欲購入目録日誌 写真館
スポンサーサイト
--.--.-- (--:--) スポンサー広告
Twitterでつぶやく
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
twitter bot( @tachi_pic_bot) に サポートベクターマシンを搭載してみた!
2010.11.23 (02:05) アニメ・漫画trackback(0)comment(0)
Twitterでつぶやく
svm_mio.jpg


twitter bot(@tachi_pic_bot)にサポートベクターマシン(SVM)を搭載してみた。

オイラのbotの機能で設定されたRSS情報を取得してトリガーワードにマッチしたレコードのみ投稿する機能はあったのですが、新たにトリガーワードに不一致なケースはsvmで文書のカテゴリを推定してある閾値以上の場合はtweetするように変更してみたっす。

具体的には以下のような感じで実装しています。

1) オイラの興味あるデータ(正解事例)をクロールしてきます。ここでは主に自分のブログとその他のブログ等をクロールして正事例のデータとしています。

2) 負事例用のデータもクロールしてきて両者をわせて教師データとします。

3) 教師データを形態素解析して、各形態素に素性idを割り当て素性の重みとしてtf-idfを計算して付与しておきます。

4) SVMのlibとしてTinySVMを利用し、モデルを作成します。

5) 指定したURLからrss情報を取得します

6) rssのtitle,link,descriptionを取得します。

7) 予め用意したトリガーワードがtitle,descriptionに含まれていないか検索します。

8) トリガーワードがtitle or descirptionに存在すればtitleとbit.lyのAPIを用いて短縮化したURLをtitleに結合してtweetします。
  ※もし140文字以上であれば切り詰め処理を実行します。

9) トリガーワードがtitle or descirptionに存在しなかった場合、title,descriptionを形態素解析して、素性idへの変換,tf-idfスコアリングを実行してSVMの入力フォーマットとします。

10) TinySVMに渡して推定します。

11) 推定結果が閾値以上の場合にはtweetします。

こんな処理の流れです。これで一応ちょっと広めの情報をtweetできるようになったのですが、もうちょっと調整が必要かもです。

SVMを用いると他にも以下のようなことがすぐにできます。

I. フォロー返しの際にフォローワーさんの過去のtweet内容取得し,自分の発言と同じような趣味の人なのか推定します。同じ趣味の可能性が高い人の場合にはフォローを返します。このように仲魔だけフォローするような挙動に変更したりもできます。


そして最後に澪ちゃんかわいい。
t-all5.gif

prevhome next












トラックバックURL
→http://tachiphoto.blog61.fc2.com/tb.php/1206-c0c17908
home
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。