ロボット系サーチエンジンの取りこぼし問題

あるはずなのに、Webページが出てこない
その理由は、、、

  1. すべてのページが収集されているとは限らない。
    1. Webページの総数は2000年現在で25億URL(表面上)と推定され、1年で倍増するほどの勢いでさらに増え続けている。その一方、最大級を誇るサーチエンジンでも約1〜2億ページほどしか収集できていない。これは、サーチエンジンによるWebデータの収集に時間がかかるため、網羅性を優先し、浅く広くデータを収集するようになっているからかも知れない。
    2. ロボットがデータ収集している途中、検索等のウインドウが開き、キーワードを与えないといけない部分があると、能動的でないロボットでは、そこから先の収集は不可能になる。検索がデータを提供する側に負荷をかけすぎる等のことがあり、ロボットによるアクセスを排除しているサーバもある。 
  2. 参考
    1. UC Berkeley How-much-info Projectによる情報量推計、25億ページ、深層5500億ページ(2000年)
      http://www.sims.berkeley.edu/research/projects/how-much-info/internet.html
      http://www.media.k.u-tokyo.ac.jp/how-much-info/internet.html(和訳)
    2. WWWのサイズ(全URL数)に関する研究by S.Lawrence & L.Giles(98.4.3 Science)
      http://www.neci.nj.nec.com/homepages/lawrence/websize.html
      1997年12月の統計で、3.2億URL
    3. Netcraftによる、WWWサーバ数の統計
      http://www.netcraft.com/survey/Reports/200303/graphs.html
    4. www.nw.comのホスト名が登録されている計算機の数(=5千万)
      http://www.nw.com/zone/WWW/dist-bynum.html
      コメント:ホスト名が登録されている計算機5千万のうち、6百万(12%)がWebサーバとして稼働。
      各Webサーバにある平均URL数は150(9億URL/6百万サーバ)。ということがわかる。
    5. Netscapeによる調査、サーチエンジンが収集したページ数(=AltaVista 1,5000,0000)
      Search Engine Watch 1999 http://home.netscape.com/escapes/search/reviews_8.html
    6. Martijn Koster氏(津村一昌氏訳)「WWWロボットFAQ」
      http://fml.ec.tmit.ac.jp/robofaq-j.html
    7. 清水 奨氏「日本の Search Engine のリスト」
      http://www.ingrid.org/w3conf-bof/search.html
    8. 山名 早人氏「WWW情報検索サービスの動向」
      http://www.etl.go.jp/~yamana/Research/WWW/survey.html
    9. 山名 早人氏 「サーチエンジンの現状・課題・新技術 」
      http://www.rd.nacsis.ac.jp/~ntcadm/publication/ipsj-panel99/yamana-r/ppframe.htm
    10. インターネットアーカイブ、http://www.archive.org/
    11. 鵜川義弘「インターネットを使った研究情報の流通と図書館」http://bank.dna.affrc.go.jp/~qxugawa/disc-home/public_html/DigitalLib.html

--鵜川義弘