Skip to main content

マルコフ行列の中の著者達 Part 2 (8): どの著者がもっとも人々に影響を与えたのか? 実験編


Wikipedia's Category problem

ここで言うカテゴリ問題とは,期待した人物が Wikipedia によっては異なるカテゴリに属しており,データの取得に失敗している問題である.以下のsubsection で示すような問題が判明した.これらに関しては何の処理もしていないので,たとえば,「Shakespeare が日本の Wikipedia 解析の結果では英国の文学者としては存在しない」というような問題でもそのまま結果に示した.

私は趣味でこのような調査をしているため,データの取得はできる限り自動で行いたい.そのため,今後どうやって自動でデータを取得するかは課題として残った.

No Shakespeare in Japanese Wikipedia result


Shakespeare はドイツ語,英語共に英国の著者としては一位であったが,日本語の Wikipedia の結果には Shakespeare が存在しない.調べた所,日本語のWikipedia では Shakespeare というカテゴリが存在し,イギリスの著作者に分類されていない.そのため,今回のようにroot page を指定した方法ではこれらの作家は存在しないことになってしまった.

図 7 にこの Page を示す.

Figure 7: The category of English authors page in ja.wikipedia.org as of 2012-11-19.


  • イギリスの小説家のカテゴリ
  • ハーバート・ジョージ・ウェルズ
  • シェイクスピア
  • ジョージ・バーナード・ショウ
  • ジョージ・ゴードン・バイロン
  • ウィリアム・ブレイク
  • オスカー・ワイルド

これらが同列の階層に位置するため,ウェルズ,シェイクスピア,ショウ,バイロン,ブレイク,ワイルドはイギリスの小説家に分類されていない.これは日本語の Wikipedia 固有の問題であり,他の言語の Wikipedia にはない問題である.(ここで問題というのは,我々が「イギリスの小説家一覧」という一覧にこれらの人物も入っていると仮定したことから生じる.我々は実験を始める前にこの仮定は妥当だと考えた.)

No Shiki Masaoka in the Japanese Wikipedia result


日本語 Wikipedia では正岡子規が存在していない.調べたところ,正岡子規は日本の歌人俳人のカテゴリに属し,日本の著作家のカテゴリには属していなかった.したがって,日本の歌人俳人は今回の調査では漏れている.これは英語とドイツ語の Wikipedia の両者で正岡子規が top に rank されたにもかかわらず,日本語の Wikipedia の結果に現れなかったので気がついた.他の言語とのWikipedia の結果との比較が有効であった例の一つである.

Not available in other Wikipedia problem


Wikipedia によっては国による著者の分類をしていないものがある.ドイツ語のWikipediaには British の著作者があるが,英語の Wikipedia では英語の作家というカテゴリなので,アメリカやオーストラリアの作家も含まれてしまい,結果,ずいぶん異なるリストの比較になってしまう.比較を困難にするもう一つの要素は,言語による作家のリストの充実度の違いである.たとえば,ドイツ語の Wikipedia には 5975 人ものドイツ語の著作家がリストされているが,一方,日本語の Wikipedia にはドイツ語の著者としてリストされているのは 136 人である.

表 7, 8 には Wikipedia 間の結果の相互比較があるが,この表に n.a. として示されるものがこの問題の存在を示している.表 8 には 40 人中 16 人もの n.a. がある.つまり,これらはドイツ語の Wikipedia の英国の作家には分類されているが,英語の Wikipedia では存在しないか,英語の作家には分類されていない.

その他にも興味深いと思われる問題があったので次回ももう少し議論を続ける.

Comments

Popular posts from this blog

共有メモリによるプロセス間通信

Unix の共有メモリを使ったプロセス間通信について調べて実験をしてみた.対象は1つのホスト上での複数のプロセスである.ネット上でいくつか例題はないかと探したが,どうも良い例となるコードが見当たらなかった.結局はある解説記事と,Stack Overflow の議論と,man page を見て作ってみたものになったので,例をここに置くのも有用かと考え,この記事を書く.(もしかしたら探し方が悪くて良いコード例をみつけられなかっただけかもしれない.) mmap を使うかどうかという話がいくつもでていたが,POSIX の方向としては,shmem_open と mmap を使うという方向があるということだったので,それを信じてその形での実装を試してみた. 基本的なコードの流れは次のようになる. 共有メモリ領域を1つのプロセスが shm_open() を使って作成する.その際に,プロセス間で共通の文字列を識別子(``identifier'')とする.(Linux ではこれが /dev/shm/identifier のように見える.) 共有メモリ領域を mmap() でメモリにマップする.共有メモリポインター (shared_ptr)が得られる. shared_ptr を使って複数のプロセスで通信をする. 利用終了後は munmap() をつかってマップを消す. 共有メモリオブジェクトを shm_unlink() によって消す. 以下に示すプログラムは,server と client の2つのプロセスが共有メモリを使って通信をするものである.ここで,server プロセス数と client プロセス数は共に 1 を仮定する.server と client は自分の領域にしか値を書き込まないことで,ロックを避けている.互いに相手の値を読み,それよりも1大きい数を一定の期間ごとに自分の領域に書くという例題である.シンプルではあるが,共有メモリで通信をする基本としては十分なものだと思う.ソースコード(shmem_test.cpp)を以下に付加する.ソースコードのコメントにコンパイル方法とどのように利用するかを書いておく. /*   Shared memory inter process communication minimal exa...

複数の線を持つ線グラフを Jenkins の plot plugin で描く方法

私は毎夜のソフトウェアテストを自動化するために Jenkins というツールを使っています.今回は, valgrind  を使ってメモリーリークのテストを自動化することにし ました.その際,エラーの数の結果をグラフとして表そうと思って, Plot plugin  を使うことにしました. Plot plugin の例図からは,複数のデータラインを描くことができるのは明らかなのですが,どうやったらいいのかは参照のページや,例としてあった Perl script,plugin 中の help からは私にはよくわからなかったのです. ここで重要な考えは,それぞれのデータラインにはそれぞれの出力ファイルが必要ということでした.私はこれを誤解していました. 例として,ビルドの時に次の property データファイルを出力します.それぞれのファイルが1つのデータラインを表します. valgrind_trunk_result.definitely.property valgrind_trunk_result.indirectly.property valgrind_trunk_result.possibly.property それぞれのデータの中身は1行のデータ点です.たとえば, valgrind_trunk_result.definitely.property ファイルの中身は次のような1行 です. YVALUE=0 このファイルを ${WORKSPACE} ディレクトリ以下に出力します.ここで," WORKSPACE " は jenkins が提供する環境変数です. 図1が私の plot plugin の設定を示しています.これは jenkins の config 画面です.3つの data series があって,それぞれにデータファイルがあります. Figure 1: Plot plugin configuration in Jenkins 図2が結果です.複数の線が描かれているのがわかります.(実際には 3 本の線がありますが,最初の線と2番目の線が同じデータなので,重ねって見えません.) Fugure 2: Plot data with multiple data lines

ソニーのカメラ (α 5000) の 30 分のビデオ録画時間の制限を外す方法

私は Sony の Alpha 5000 を気にいって使っています。しかし一つだけ問題がありました。それはビデオの録画時間の制限が 30 分というものです。 今日,ちょっと気になって探したらこの制限を解除できることがわかりました。以下のビデオがその紹介です。 https://youtu.be/7cstA_PuRIg このビデオの作者によれば,ほとんどのソニーのカメラのビデオの制限はなくせるそうです。ただし私が試したのは,Alpha 5000 のみです。 手順 カメラ側 スイッチ On Menu -- Setup --- USB connection を MTP にする スイッチ Off and On USB ケーブルでカメラをコンピュータに接続する (以下接続したままにする) コンピュータ側でソフトのダウンロードとインストール (私は Windows 10 で試しました) 次の URL に行く https://sony-pmca.appspot.com/apps ただし,Internet Explorer か Safari のみサポートということでした。Chrome では上手くいきませんでした。私が試したのは Windows 10,Internet Explore 11 です。 注意事項: このサイトは Sony のサイトですが,ここにあるソフトウェアは Sony のものとは限らないので保証はありません。御自分でリスクを判断してご利用下さい。当方も何も責任を負えません。 上記の URL から,OpenMemories のページに移動する。 このページにある PMCADownloader plugin (PMCADownloader.msi) をダウンロードする PMCADownloader をインストールする 私はいちどここでページを閉じてもう一度 https://sony-pmca.appspot.com/apps を開き,OpenMemories のページに移動しました ここで log に Loading plugin Plugin loaded と表示されます。PMCADownloader の Install がされていない時には,``Plugin loaded'...