物欲購入目録日誌 写真館
スポンサーサイト
--.--.-- (--:--) スポンサー広告
Twitterでつぶやく
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
twitter bot( @tachi_pic_bot) 用のSVMモデルの精度測ってみた。
2010.11.18 (00:31) アニメ・漫画trackback(0)comment(0)
Twitterでつぶやく
svm_graph.png


twitter bot( @tachi_pic_bot) の文書分類のためにサポートベクターマシン(SVM)を入れるために部品を作ってきたのですが、だいたい一通り完成。^-^

早速、SVMでモデルの精度がどの程度あるのかCross-validationで調べてみた。

モデルを構成する際に素性の重みとして頻度(freq)とtf-idfを用いてさらに、低頻度の形態素を削除しているのですが、どの程度を閾値としていいのかわからなかったので、削除する頻度の閾値と素性の重みのスコアリングを変えてAccuracyを計算してみました。

入力事例は約5000事例で教師データの1/30を検証用データとして残りのデータを教師データとして交差検定をしてみました。

結果、一応tf-idfのほうがよさそうということと、低頻度の語の差はあまりないことがわかった。

というか、、もともとの形態素解析の後処理のほうをもっとちゃんとやったほうが精度があがるとおもうのでそのあたりに手をいれたほうがいいかも。

とりあえず、Accuracyが90%以上あるので良い感じです!
prevhome next












トラックバックURL
→http://tachiphoto.blog61.fc2.com/tb.php/1200-223b215c
home
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。