Wikipedia's Category problem
ここで言うカテゴリ問題とは,期待した人物が Wikipedia によっては異なるカテゴリに属しており,データの取得に失敗している問題である.以下のsubsection で示すような問題が判明した.これらに関しては何の処理もしていないので,たとえば,「Shakespeare が日本の Wikipedia 解析の結果では英国の文学者としては存在しない」というような問題でもそのまま結果に示した.私は趣味でこのような調査をしているため,データの取得はできる限り自動で行いたい.そのため,今後どうやって自動でデータを取得するかは課題として残った.
No Shakespeare in Japanese Wikipedia result
Shakespeare はドイツ語,英語共に英国の著者としては一位であったが,日本語の Wikipedia の結果には Shakespeare が存在しない.調べた所,日本語のWikipedia では Shakespeare というカテゴリが存在し,イギリスの著作者に分類されていない.そのため,今回のようにroot page を指定した方法ではこれらの作家は存在しないことになってしまった.
図 7 にこの Page を示す.
Figure 7: The category of English authors page in ja.wikipedia.org as of 2012-11-19. |
- イギリスの小説家のカテゴリ
- ハーバート・ジョージ・ウェルズ
- シェイクスピア
- ジョージ・バーナード・ショウ
- ジョージ・ゴードン・バイロン
- ウィリアム・ブレイク
- オスカー・ワイルド
これらが同列の階層に位置するため,ウェルズ,シェイクスピア,ショウ,バイロン,ブレイク,ワイルドはイギリスの小説家に分類されていない.これは日本語の Wikipedia 固有の問題であり,他の言語の Wikipedia にはない問題である.(ここで問題というのは,我々が「イギリスの小説家一覧」という一覧にこれらの人物も入っていると仮定したことから生じる.我々は実験を始める前にこの仮定は妥当だと考えた.)
No Shiki Masaoka in the Japanese Wikipedia result
日本語 Wikipedia では正岡子規が存在していない.調べたところ,正岡子規は日本の歌人俳人のカテゴリに属し,日本の著作家のカテゴリには属していなかった.したがって,日本の歌人俳人は今回の調査では漏れている.これは英語とドイツ語の Wikipedia の両者で正岡子規が top に rank されたにもかかわらず,日本語の Wikipedia の結果に現れなかったので気がついた.他の言語とのWikipedia の結果との比較が有効であった例の一つである.
Not available in other Wikipedia problem
Wikipedia によっては国による著者の分類をしていないものがある.ドイツ語のWikipediaには British の著作者があるが,英語の Wikipedia では英語の作家というカテゴリなので,アメリカやオーストラリアの作家も含まれてしまい,結果,ずいぶん異なるリストの比較になってしまう.比較を困難にするもう一つの要素は,言語による作家のリストの充実度の違いである.たとえば,ドイツ語の Wikipedia には 5975 人ものドイツ語の著作家がリストされているが,一方,日本語の Wikipedia にはドイツ語の著者としてリストされているのは 136 人である.
表 7, 8 には Wikipedia 間の結果の相互比較があるが,この表に n.a. として示されるものがこの問題の存在を示している.表 8 には 40 人中 16 人もの n.a. がある.つまり,これらはドイツ語の Wikipedia の英国の作家には分類されているが,英語の Wikipedia では存在しないか,英語の作家には分類されていない.
その他にも興味深いと思われる問題があったので次回ももう少し議論を続ける.
Comments
Post a Comment