前回までに結果の上位 40 位の表を掲載した.この表を眺めているといろいろと興味深いので,まずは名前をざっとご覧になられると良いと思う.ここからはこれまでに掲載した表などに関しての議論を述べる.
議論
Matrix rank
表 3 では,sink rank や外向きのみのリンクを持つノードを除いたにもかかわらず,matrix は full rank ではないことを示している.これはlink 関係に相互リンクのあるいくつかのグループが存在していることを意味する.このようなグループに関する調査は将来の課題とする.Japanese Wikipedia template bias
最初,日本の Wikipedia での pagerank 計算結果を見たところ,夏目漱石も芥川龍之介も三島由紀夫も森鴎外も全て 100 位以下であった.また,日本の著者に関する結果はドイツ語と英語の Wikipedia の結果とあまりにもかけ離れていた.調べた所,芥川賞受賞者が圧倒的に上位に入っていることが判明した.これは図 5 に示すように,芥川賞受賞者間では相互リンクが張られるからである.受賞者は全ての他の受賞者からリンクを受ける.これによってpagerank が高くなる.そこで今回の計算では受賞者の相互リンクは排除した.その結果が表 12 である.
Figure 5: Award winner cross link bias problem. |
図 6 にはこの postprocessing をした場合としない場合の Adjacency matrix を示しておく.Matrix の比較をすると,bias と考えられる内部の相互リンクがパターンとして認識できる.より詳しく見るために,図 6 の下図は,この差をとってみた.差は賞の相互リンクを示している.完全に規則的でないのは,芥川賞以外にもいくつかの相互リンクを行う賞(例えば毎日芸術賞)があるからである.
Figure 6: Adjacency matrices. Japanese authors in ja.wikipedia.org. Top: Removed Navbox bias, Middle: No postprocessing, Bottom: difference (middle - top) |
Table 13: Japanese author rank result with Navbox. We think this Navbox causes a bias. |
(注 1): 表 13 において,赤瀬川原平は尾辻克彦のペンネームで芥川賞を受賞している.
Comments
Post a Comment