問題: 著者の影響を解析する (2)
私は影響の大きさや内容ということはとりあえず忘れ,関係のあるなしから全体への影響の大きさを考えるという方法から始めることにする.幸い,このような関係のあるなしを基礎にしている数学の理論や,実際に利用されてきた方法がある.その方法とはグラフ理論と線形代数という数学を使うものである.この方法は長年の間多岐に渡って利用されてきた.Web の時代になり,Web page間の関係を知るためにも用いられている.影響力の大きなPage は興味ある Pageであるだろうから,サーチの結果の上位に示せば探している Page をみつけやすいだろうということで,どのように影響力の大きな Pageを求めるかが考えられてきた.おそらく現在最も利用されている手法は,Web page の影響力を,Web page 間が関係しているかいないか,つまりリンクは張られているかいないか,だけをもとにして計算する方法であろう.この方法は Web page の内容はまったく理解せずに影響力を考えることができる方法であり,画期的であった.この方法はGoogleという会社が初めて Web page のサーチの基準として用いたことで有名である[bib:pagerank].内容を理解しなくても良いということで,どの言語でも,どの分野でも利用可能であり,自動化が可能である.人間が内容を元にランクをつけた方が精度は良い可能性は高いが,何千,何万という計算機を使って自動で行えるという方法は人間よりも高速で安価であり,人間がランクを決めていた方式にたちまちとってかわった.
Web に応用する手法は特に PageRankと呼ばれているが,その基礎には線形代数の固有値問題がある.
ここではまずグラフ理論を概観し,それを実際の著者間の影響を計算する方法として応用してみる.
というわけで次回はグラフ理論入門である.
Comments
Post a Comment