物欲購入目録日誌 写真館
スポンサーサイト
--.--.-- (--:--) スポンサー広告
Twitterでつぶやく
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
twitter bot( @tachi_pic_bot)用のクローラープロトタイプでけた
2010.11.01 (01:06) 余談trackback(0)comment(0)
Twitterでつぶやく
crawler.png


twitter bot( @tachi_pic_bot)用のデータ収集用に作成していたクローラーのプロトタイプがでけた。^-^/


$./crawler.rb
[Mon Nov 01 00:50:52 +0900 2010] crawl start
[Mon Nov 01 00:50:52 +0900 2010] acess seed url: http://tachiphoto.blog61.fc2.com/
[Mon Nov 01 00:50:53 +0900 2010] acess url :http://tachiphoto.blog61.fc2.com/
[Mon Nov 01 00:50:54 +0900 2010] acess url :http://tachiphoto.blog61.fc2.com/blog-date-201010.html
[Mon Nov 01 00:50:54 +0900 2010] acess url :http://tachiphoto.blog61.fc2.com/blog-date-201012.html
[Mon Nov 01 00:50:55 +0900 2010] acess url :http://video.fc2.com/
[Mon Nov 01 00:50:58 +0900 2010] acess url :http://ranking.fc2.com/



[Mon Nov 01 00:55:15 +0900 2010] acess url :http://tachiphoto.blog61.fc2.com/page-1.html
[Mon Nov 01 00:55:16 +0900 2010] acess url :http://miyama0101.blog8.fc2.com/
[Mon Nov 01 00:55:16 +0900 2010] acess url :http://seo.fc2.com/rankingchecker/
[Mon Nov 01 00:55:17 +0900 2010] crawl finished
[Mon Nov 01 00:55:17 +0900 2010] crawled number of URL : 139
[Mon Nov 01 00:55:17 +0900 2010] crawled file : /Users/private/Program/Ruby/crawler/data/data.txt
[Mon Nov 01 00:55:17 +0900 2010] crawled file byte size: 968853


seed urlとhop数を指定するしてデータを収集しますです。

試しに2hopクロールでroot urlをオイラのブログのurlとした場合"139URL"が収集できましたよ。

利用したライブラリは


require 'rubygems'
require 'hpricot'
require 'mechanize'
require 'extractcontent'
require 'kconv'


になります。
prevhome next












トラックバックURL
→http://tachiphoto.blog61.fc2.com/tb.php/1180-a8cab43a
home
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。