我国における全WEBグラフからのサイバーコミュニティの抽出とその成長過程の解析
【研究分野】計算機科学
【研究キーワード】
World Wide Web / データベース処理 / コミュニティ発見 / Webページ・クローリング
【研究成果の概要】
本研究では、わが国の全Webページから、潜在するサイバーコミュニティを抽出すると同時に、コミュニティの発現・成長過程、並びに、コミュニティ相互関連性を明らかにすることを目的とする。つまり、概ね1億程度と推定されている(米国の約1割弱)わが国のWebページを、独自に開発したクローラにより収集した後、ハイパーリンクにより結合された巨大なグラフ構造を導出する。1億ノードという巨大グラフ構造を一台のマシンで効率良く処理することは困難である事から、本研究者らが長年に亘って開発して来たDBカーネルなる並列データベース処理系を利用することにより既存設備であるPCクラスタ上に高性能ワークベンチを構築し、サイバーコミュニティ抽出実験を行うを研究目的とする。
本研究の情報収集のために、WWW関連の国際会議として最大規模のWWW10に参加し、現在のWWWに関する最新のシステム情報、新たなコミュニティ発見アルゴリズムなどについての情報収集を行った。さらに、コニュニティ発見アルゴリズムと日本のWEBページを用いた結果について、海外の研究者と情報交換を行った。
また、米国ACMのSIGMODが主催するデータベースの研究集会としては世界最大規模の国際会議SIGMOD2001に出席をし、Web DBなどの基礎研究について情報を収集するとともに、最新の大規模データベース処理技法などに関する情報交換を行った。
【研究代表者】
【研究分担者】 |
中野 美由紀 | 東京大学 | 生産技術研究所 | 助手 | (Kakenデータベース) |
柴山 悦哉 | 東京工業大学 | 大学院・情報理工学研究科 | 教授 | (Kakenデータベース) |
|
【研究種目】基盤研究(B)
【研究期間】2001 - 2003
【配分額】9,900千円 (直接経費: 9,900千円)