物欲購入目録日誌 写真館
スポンサーサイト
--.--.-- (--:--) スポンサー広告
Twitterでつぶやく
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
twitter bot( @tachi_pic_bot)にナイーブベイズ分類器を搭載しました。
2010.11.04 (00:49) 余談trackback(0)comment(0)
Twitterでつぶやく
ritu.jpg


先日から改良したのですが、 @tachi_pic_bot
に文書の分類ができるようにナイーブベイズ分類器を搭載しました。こでて文書のジャンル分けができるようになったので、よりナイスなことができるようになりました。

クローラーを作ったりライブラリをラップするクラスを作ったりしたので結構なライン数になってしまいましたが、なんとか無事動いているっぽい。

・実際にナイーブベイズ分類器が動いている場所


実際にどの部分に分類器を用いているかというとオイラのbotはgoogleの急上昇ワードを拾ってきてbotが気になるワードのリンクを付与して投稿する機能があったのですが、実際はランダムで生成していたのですが、今回は本当オイラが気になるワードを選ぶように変更しました!!


--
google急上昇ワード 第1位 パトロン 第2位 早慶戦 第3位 船橋競馬 第4位 ナビスコカップ 第5位 ジュビロ磐田 オイラは "ナビスコカップ" が気になりますヮ。 http://bit.ly/aDJCaW
--

という例で気なる部分がオイラの気になるものをチョイスするようになったのです!t-all5.gif

たったそれだけに膨大な作業量を当てました!!!すばらしい。

具体的には以下のような流れ

1) 訓練データを作成のために特定のサイト内のみの情報をクロールします。

2) オイラの興味のない情報として他のサイトをクロールします。

3) 抽出したクロールデータを訓練データ用に形態素解析&NGワード削除などを行います。

4) 分類機をbotの機能に組み込みます。

5) 急上昇ワードとスニペットと取得します。

6) 個々のワードに対して上記で得た情報を形態素解析など加工して分類機に渡します。

7) 個々のワードに対して分類結果のスコアを用いて確信度を算出します。

8) 確信度からもっともうまく分類できているであろうワードを気になる語としてtwitter APIの関数にわたします。

といった感じで分類器を使っています。いろいろたぶんもっと改良できる部分もあると思うので今後も改良していこうかと思います。もし気になる方がいらっしゃいましたらフォローお願いします。


そして最後にリッちゃん可愛い。
t-all5.gif
prevhome next












トラックバックURL
→http://tachiphoto.blog61.fc2.com/tb.php/1182-f0120caf
home
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。