Googleエグイ!Googleの新インデックス技術「Caffeine」が完成」
Googleの新インデックス技術「Caffeine」が完成、検索結果がより“新鮮”に う~ん、googleエグイな~ 基本的にインデクシング更新の手法を変更したってことですね、基本的にインデクス更新のやり方としては、ある程度バッチジョブ的にある特定の大きなweb文書をクロールしてインデクスを作る。そしてあるレイヤータイプでバタンバタンと切り替えて更新してゆくタイプの方式。 一方で、もっと独立にクロールしながら解析してインデクス、検索エンジンを切り替えてゆくリアルタイム性の強い方式、ということで、googleは前者から後者に切り替えたってことですね。 でも前者にしておかないとpage rank計算をする際にどうやってんだ?という疑問があったりします。 基本的にpage rank計算はweb空間上の文書のリンク構造から遷移確率行列を得て、対角化問題に帰着後、その固有ベクトルを求める作業を行っているというのがセオリーだと思うのでうすが、、page rankっていっても全文書がスコープじゃなくてある程度のデータセットでいいということなのかな? それともpage rankだけ別系統で計算しているのかな? |
|
トラックバックURL
→http://tachiphoto.blog61.fc2.com/tb.php/922-a909d856 |
+ home +
|