Wednesday, January 2, 2013

マルコフ行列の中の著者達 Part 2 (10): どの著者がもっとも人々に影響を与えたのか? 実験編


結論

どの著者が Literature に影響を及ぼしているかを調べるため,Wikipedia のlink 構造を抽出し,それに PageRank アルゴリズムを適用した.その結果は表に示した通りである.また異なる言語の Wikipedia のデータを同じカテゴリ(今回の例では著者)に関して適用することで,各言語の Wikipedia 間の違いを見ることができた.

個人的に面白いなと思ったのは,たとえばイギリスの著作家に Winston Churchil や Issac Newton が入っていることである.今回始めて Winston Churchil はノーベル文学賞受賞者であることを知った.

Computational Literature


私は最近,言語や文学を理解するために,情報科学あるいは数学的なアプローチを用いている.Bren'e Brown は彼女の TED talk で ``Maybe stories arejust data with a soul.'' と述べた.もしかしたらそうかもしれないと思う.ただし,私は soul が data にかすかな影を落としているように思えてならない.もちろん,現状ではこの影から soul を再構成することなど到底できそうにない.それでも,すばらしい作品は私の心を動かす.本を読むというのは,ある意味,ただ単なるデータ,シンボルの列,を読んでいるだけなのに,感動が起こることは確かにある.私はこの魂の影がデータの中にあるのではないかと思って,このようなアプローチを試してみることがある.今回の著者の文学界への影響というものも,その一種の試みである.私はこのアプローチを何と呼んで良いのかわからないのだが,他に良い名前を思いつくまで仮に,これを計算機を用いた文学へのアプローチという意味で, Computational literature と呼んでいる.

Future work


議論で述べたこと含めてまとめておく.


  • Wikipedia の著者による bias はあるのか
  • どのように自動でデータを取得するか.カテゴリの問題を避ける方法はあるか.
  • PageRank 以外のグラフ構造解析アルゴリズムを用いてはどうか.
  • Marix が full rank でないことなど,ネットワーク構造をさらに数学的に調べたら面白いかもしれない.
  • 他の言語の Wikipedia で他の言語の著者に関しても興味がある.
  • この手法は著者に限ったことではないので,音楽家や政治家など興味ある対象があれば調べてみたい.


二部に渡る長い話におつきあい下さった方,どうもありがとうございます.この話はあと一回,Python の Unicode 処理についての付録で終わりたいと思います.

謝辞

英語と内容の両者に関してアドバイスを下さった Andy K., 昼食時にこの趣味のProject に様々なヒントを与えてくれた友人達,そしてこの Project のきっかけとなった質問をしてくれた Rebecca M. に感謝する.

No comments:

Post a Comment