大学院教育学研究科、環境教育実践特別演習、2000年6月8日、22日

環境教育情報の収集

インターネット・環境教育情報の検索とサーチエンジン

宮城教育大学環境教育実践研究センター 鵜川義弘 


インターネットに存在する情報は、日増しに増え、教育と研究に関する情報も多く存在するようになり、それを検索するための検索エンジン(サーチエンジン)が開発され、利用されている。ここでは、環境教育情報のインターネット検索とサーチエンジンについて学習し、演習として、開発中の「環境教育サーチエンジン」のシードURLとなるデータベースの作成を行う。

インターネットで可能な2種類の検索

インターネットで可能な検索には、検索対象の異なる2つがある。

  1. 既存データベースの出力にWebブラウザで検索できるインターフェイスをつけたもので、特許、蔵書検索、論文検索、遺伝子検索などができるもの(対象がWebページではない)。

    参考

    1. 国内図書館蔵書検索 http://webcat.nacsis.ac.jp/webcat.html
    2. 世界の生物系データベース http://www.infobiogen.fr/services/dbcat/
    3. 菊間忠之氏Search Engines of Patent & Trade Mark、
      http://www.kikumapat.com/
    4. ブリタニカ百科事典の内容すべてが無料で検索できる
      http://www.britannica.com/
    5. 医学分子生物関係の論文検索ならPubMed
      http://www.ncbi.nlm.nih.gov/PubMed/
  2. 増え続ける世界中のWebページからデータを登録、または収集したものを検索対象とする、いわゆるサーチエンジン。
    例:お勧めのGoogle http://www.google.com/(収集したページの参照「され」方を調べ、被参照数が多いものが上位に出てくる)

サーチエンジンの種類

Webページを検索対象とするサーチエンジンは3種類。

  1. ディレクトリ系(人手による良いページ探しをし、それを検索対象とする)
    収集に専門家が必要だが、うまく収集でき、数が増えれば、検索した場合に粒のそろったWebページが出てくる(下のロボット系では、あまり重要でないページ(=ノイズ)が多く出てくることが多い)。
    例:老舗Yahoo http://search.yahoo.com/bin/search?p=environmental+education
    登録数が多くないものは、単なるURL集と呼ばれる。これが無駄というわけでなく、無数のURL集が以下のロボットの検索対象となっているのも事実。
  2. ロボット系(ロボットによりリンクをたどり、芋づる式に全データをあつめそれを検索対象とする)
    最新情報は、ロボットによる収集に頼るしかないが、後述の問題が存在する。
    例:収集量で最大級を誇るhttp://www.altavista.com/
  3. メタ系(他人のふんどしで相撲をとる、ちゃっかりタイプ)
    複数のディレクトリ系とロボット系に対して検索要求を出し、その結果をまとめて検索結果として返す。バナー広告の収入でなりたっている商用検索サーバの上前をはねることになり、運用がむずかしいと思われる。

    参考:清水 奨氏「日本の Search Engine のリスト」
    http://www.ingrid.org/w3conf-bof/search.html

    インターネット検索のまとめ

    1. データベース系
      1. 様々なデータベースに対する検索が可能
    2. Webページ系
      1. ディレクトリ系
      2. ロボット系
      3. メタ系

サーチエンジンの内部

サーチエンジンは、データ収集部と検索部からなる。データ収集部は、自動でWeb空間を徘徊するロボットを放つ。ロボットは、種となるWebページを収集、そのページにあるリンクを辿り、新たなページを収集対象とする。これを繰り返しながら多くのページを収集する。検索部は、検索要求があると、ロボットが蓄積したWebページに含まれる文字列の全文検索を行いキーワードが含まれるページの一覧を返す。

 

参考

  1. Webリンクの俯瞰図を見ることができるNattoView
    http://www.myo.inst.keio.ac.jp/NattoView/
    http://www.mos.ics.keio.ac.jp/groups/IPS/NattoView/natto97-liftup2.gif

 

インターネットサーチエンジンによる検索の問題点

現在、複数の一般向けのサーチエンジンが運用されているが、これらを使って研究に関するWebページを検索すると、研究とは関係ないWebページが多く出てきて困ることがあり。また、あるはずなのに、Webページが出てこないということも起こる。

Webページの総数は2000年現在で約10億URLと推定され、1年で倍増するほどの勢いでさらに増え続けている。その一方、最大級を誇るサーチエンジンでも約1〜2億ページほどしか収集できていない。これは、サーチエンジンによるWebデータの収集に時間がかかるため、網羅性を優先し、浅く広くデータを収集するようになっているからかも知れない。

ロボットがデータ収集している途中、検索等のウインドウが開き、キーワードを与えないといけない部分があると、能動的でないロボットでは、そこから先の収集は不可能になる。検索がデータを提供する側に負荷をかけすぎる等のことがあり、ロボットによるアクセスを排除しているサーバもある。

参考

  1. WWWのサイズ(全URL数)に関する研究by S.Lawrence & L.Giles(98.4.3 Science)
    http://www.neci.nj.nec.com/homepages/lawrence/websize.html
    1997年12月の統計で、3.2億URL
  2. Netcraftによる、WWWサーバ数の統計
    http://www.netcraft.co.uk/survey/Reports/199909/graphs.html
    http://www.netcraft.co.uk/survey/Reports/200004/graphs.html
    コメント:1997年12月2百万→1999年9月6百万は、3倍。
    http://www.netcraft.co.uk/survey/Reports/199909/overallb.gif
    http://www.netcraft.co.uk/survey/Reports/200004/overallb.gif
  3. www.nw.comのホスト名が登録されている計算機の数(=5千万)
    http://www.nw.com/zone/WWW/dist-bynum.html
    コメント:ホスト名が登録されている計算機5千万のうち、6百万(12%)がWebサーバとして稼働。
    各Webサーバにある平均URL数は150(9億URL/6百万サーバ)。ということがわかる。
  4. Netscapeによる調査、サーチエンジンが収集したページ数(=AltaVista 1,5000,0000)
    Search Engine Watch http://home.netscape.com/escapes/search/reviews_8.html
  5. Martijn Koster氏(津村一昌氏訳)「WWWロボットFAQ」
    http://fml.ec.tmit.ac.jp/robofaq-j.html
  6. 清水 奨氏「日本の Search Engine のリスト」
    http://www.ingrid.org/w3conf-bof/search.html
  7. 山名 早人氏「WWW情報検索サービスの動向」
    http://www.etl.go.jp/~yamana/Research/WWW/survey.html
  8. 山名 早人氏 「サーチエンジンの現状・課題・新技術 」
    http://www.rd.nacsis.ac.jp/~ntcadm/publication/ipsj-panel99/yamana-r/ppframe.htm

 

専用収集ロボットの開発

研究情報をもれなく、しかも効率良く検索できるようにするには、一般の検索エンジンにたよらず、研究分野毎にサーチエンジンを持てばよいのではないかと考え、バイオ関連の研究用Webページのみを収集し、検索対象をバイオ関連のみとした、Bio-Crawlerを開発した。

http://bio-crawler.dna.affrc.go.jp/pissearch/search_j4.html

 

専用メタ検索ロボットの開発

収集対象の不足をおぎなうため、一般のサーチエンジンを利用するが、その場合に、生物系URLを含む結果のみを出力するメタ検索エンジンも開発した。このメタ検索では、一般のサーチロボットが対象としていないキーワード検索も可能となっている。

 

http://bio-crawler.dna.affrc.go.jp/metasearch/


演習:環境教育用のサーチエンジンの作成支援

生物系データ専用のサーチエンジンを作成した同じ技術で「環境教育サーチエンジン」も作成が可能である。どのサーバ、どのWebページ配下のページを検索の「シード」とするか、そのURLを50選択し、メールで 宛に提出する。その後、講義参加院生相互のディスカッションによりURLを取捨選択し、最終的に、初期100URLを決定する。

参考

  1. 生物系データ専用のURL
    http://bio-crawler.dna.affrc.go.jp/pissearch/urllist_j.html
  2. その元となった磯合氏のリンク集
    http://www.yk.rim.or.jp/%7Eaisoai/body-j.html

 


連絡先:
鵜川義弘
〒980-0845宮城県仙台市青葉区荒巻字青葉
宮城教育大学環境教育実践研究センター
宮城教育大学情報処理センター(兼務)
http://edb.miyakyo-u.ac.jp/ugawa/