Skip to main content

Posts

マルコフ行列の中の著者達 Part 2 (7): どの著者がもっとも人々に影響を与えたのか? 実験編

前回までに結果の上位 40 位の表を掲載した.この表を眺めているといろいろと興味深いので,まずは名前をざっとご覧になられると良いと思う.ここからはこれまでに掲載した表などに関しての議論を述べる. 議論 Matrix rank 表 3 では,sink rank や外向きのみのリンクを持つノードを除いたにもかかわらず,matrix は full rank ではないことを示している.これはlink 関係に相互リンクのあるいくつかのグループが存在していることを意味する.このようなグループに関する調査は将来の課題とする. Japanese Wikipedia template bias 最初,日本の Wikipedia での pagerank 計算結果を見たところ,夏目漱石も芥川龍之介も三島由紀夫も森鴎外も全て 100 位以下であった.また,日本の著者に関する結果はドイツ語と英語の Wikipedia の結果とあまりにもかけ離れていた.調べた所,芥川賞受賞者が圧倒的に上位に入っていることが判明した.これは図 5 に示すように,芥川賞受賞者間では相互リンクが張られるからである.受賞者は全ての他の受賞者からリンクを受ける.これによってpagerank が高くなる.そこで今回の計算では受賞者の相互リンクは排除した.その結果が表 12 である. Figure 5: Award winner cross link bias problem. この芥川賞のリンクがどのような bias を生んでいるのか興味ある読者のために,まったく Postprocessing 処理をせずに PageRank を計算した結果を表 13 に示す.表 13 の全員が芥川受賞者である(注 1).実際には芥川賞受賞者全員が上位に来る結果となった.この方式では 101 位に初めて芥川賞受賞者でない三島由紀夫が登場する.Bias を除くと,芥川賞受賞者のうち次の 8 人のみが Top 40 に入っている:大江健三郎,松本清張,吉行淳之介,開高健,丸谷才一,古井由吉,石原慎太郎,安岡章太郎. 図 6 にはこの postprocessing をした場合としない場合の Adjacency matrix を示しておく.Matrix の比較をすると,bias と考えられる内部の相互リンクがパ...

マルコフ行列の中の著者達 Part 2 (6): Japanese author result

日本の著者の結果 Table 10: Japanese author rank result in de wikipedia. Table 11: Japanese author rank result in en wikipedia. Table 12: Japanese author rank result in ja wikipedia. 次回はこの結果に関する議論を行う.

マルコフ行列の中の著者達 Part 2 (5): English author result

イギリスの著者の結果 Table 7: English author rank result in de wikipedia. Table 8:English author rank result in en wikipedia. Table 9: English author rank result in ja wikipedia. (Our page rank implementation can only find 29 valid authors.)

マルコフ行列の中の著者達 Part 2 (4): German Author result

今回から3回は遂にPageRank(Eigen analysis)結果を示す. ドイツの著者の結果 Table 4: German author rank result in de wikipedia. ``en'' is en wikipedia's rank result. Table 5: German author rank result in en wikipedia. Table 6: German author rank result in ja wikipedia. (Our page rank implementation can only find 31 valid authors.)

マルコフ行列の中の著者達 Part 2 (3): どの著者がもっとも人々に影響を与えたのか? 実験編

今回はどんな matrix が生成されたかについて述べる. 実装 今回以下の 4 つのプログラムを実装した. Link_Vector_Extractor: 作家のリストベクトルを作成する Graph_Extractor: 隣接行列を作成する Page_Rank: PageRank の計算を行う Remapper: PageRank 結果を作家のリストベクトルに map する 実験に利用した計算機環境は CPU: Intel(R) Core(TM) DUO CPU P8400, 2 Cores, OS: 64bit Linux 3.2.0.32, Kubuntu 12.04. である.プログラミング環境としては Python 2.7.3, Beautiful Soup 4.0.2, matlab R2006a, octave 3.2.4を用いた. Adjacency matrix Adjacency matrix がどんな形になっているのかを図 2, 3, 4 に示す.この図では隣接関係がある著者間に点がうたれている. Figure 2: Adjacency matrices. Top to bottom: German authors in de.wikipedia.org, en.wikipedia.org, ja.wikipedia.org. Figure 3: Adjacency matrices. Top to bottom: English authors in de.wikipedia.org, en.wikipedia.org, ja.wikipedia.org. Figure 4: Adjacency matrices. Top to bottom: Japanese authors in de.wikipedia.org, en.wikipedia.org, ja.wikipedia.org. German author の en.wikipedia.org に規則的なパターンが見られるが,これに関しては後に述べる template bias の可能性が高い(注1).また,en.wikipedia.org はもう一つ変わった点として著者への平均リンク数が他に比較してずいぶん高いことがある....

マルコフ行列の中の著者達 Part 2 (2): どの著者がもっとも人々に影響を与えたのか? 実験編

実験 実験に用いたデータを表 1 に示す.幸い,どの Wikipedia にも各言語の作家のリストが存在したので,そのリストを Root page として直接リンクされている作家の page を download した.Download に際しては 15 秒に 1 pageのスピードで download し,サーバへの負担にならないように注意した.ここで利用したWikipedia のページのうち,日本語の「石原慎太郎」は例外的にファイルが圧縮されていたため,実験においては展開して利用した.Root page に関しては,他にも候補はあったが,表 1 にあるものを利用した.例えば,ドイツ語 Wikipedia におけ英語の著者として,Liste_englischsprachiger_Schriftsteller ではなく,Liste_britischer_Schriftsteller を利用している.これは私が任意に選んだだけであって,こちらでなくてはいけないという理由はない.なお,実験に使用したファイルは全て 2012-5-30 に download したものである. Table 1: Experimental data set.

マルコフ行列の中の著者達 Part 2 (1): どの著者がもっとも人々に影響を与えたのか? 実験編

今回から Part 2 の実験編である.これまではどうやって最初の疑問,「どの著者がもっとも人々に影響を与えたのか?」について考えてきた.Part 2 ではついにこの答えについて述べる. 著者間の関係の解析 著者グラフの作成方法 著者間の関係を eigenanalysis を用いて実際に解析してみる.まずは著者間の隣接関係を作成する必要がある.もちろん私が手で作成しても良いのであるが,日本の著名な著者だけでもおそらく千人は下らない人数がいるであろう.その著者間の関係を調べ挙げるだけで,私の生涯の趣味の時間では不足するだろう.このグラフのデータを簡単に入手することはできないだろうかと考えた.Web 上のデータで使えるものはないかと考えた時,Wikipedia の Link 関係が良いのではないかと思い,これを利用してみた. 本実験の前提 Wikipedia の著者の Page にある Link 関係は著者間の関係を示していると仮定する. この前提に異論があることは確実であろう.まず,著者間の関係とは何か,というような問題に戻ることになる.したがって,ここでは著者間の関係はWikipedia の Link 関係として与えられるものと定義する.直感的には,「Wikipedia の筆者らが link を張った著者間には,Wikipedia の筆者らが,著者間に関係があると考えたからである.」と考えても良いと我々は思ったからである.この仮定が認められない場合には以下の議論は全て成立しない.今後,より良い手法が出てきた際にはこの前提を再考する必要があるであろう. この前提に基き,Wikipedia のリンクの関係を著者間の隣接関係として,固有値問題を解くことにする. この方法には次のような利点と欠点がある. 利点: 大量のデータが既に利用可能 ある程度の review がなされている 人間によって書かれているので,リンク構造には意味があることが予想できる 欠点: リンク構造の誤りがある可能性がある 特定の Wikipedia の著者による bias がある可能性がある Wikipedia の編集方針による bias がある可能性がある ここで私は大量のデータが既に利用可能であるという利点を最大限に活用することに...