ロボット系サーチエンジンの内部

  1. ロボット系サーチエンジンの内部
    ロボット系サーチエンジンは、データ収集部と検索部からなる。データ収集部は、自動でWeb空間を徘徊するロボットを放つ。ロボットは、種となるWebページを収集、そのページにあるリンクを辿り、新たなページを収集対象とする。これを繰り返しながら多くのページを収集する。検索部は、検索要求があると、ロボットが蓄積したWebページに含まれる文字列の全文検索を行いキーワードが含まれるページの一覧を返す。
     
  2. 参考
    1. Webリンクの俯瞰図を見ることができるNattoView
      http://vilab.org/lab/?NattoView
    2. ロボット排除の仕組みhttp://www.google.co.jp/search?hl=ja&q=robots+noindex+nofollow

--鵜川義弘