参加メモ:JaLC対話・共創の場(第2回)「研究データに対するDOI」

さらっと好き勝手にイベントメモ。

後日、JaLCのサイトで配布資料・動画ともに公開されると思うし、第1回と同様に『情報管理』誌にレポートがそのうち載るかもしれない。

所感

このイベントに限らず、一般に研究データとDOIについて議論されるとき、研究データの管理そのものに関する課題と、研究データへのDOI登録に関する課題の区別がうやむやになっているという印象がある。

巷で語られてる課題のほとんどは前者=管理に関するものではないだろうか。つまり、適切な管理さえできれば(あるいはすでにそれなりの管理がなされていれば)、素直にDOIを付与するだけで済んでしまうのではないか。いまの状況は、DOIの登録をきっかけに、これまで以上にしっかりした、そして利用(特に引用)しやすい管理のあり方について考えてしまい、いろいろな課題が(余計に)浮かび上がってしまっているように見える。(いや、適切な管理ってなんやねん、というツッコミはあるだろうけど。)

また、後者、つまりDOI登録に付随する課題についても、本当に研究データ特有の事情なのか、他のコンテンツでも共通するものなのかどうかを見極める必要があると思う。

今回のイベントにはそんな問題意識をもって参加した。結果、研究データへのDOI登録特有の問題点も少しは存在するのかなと思えてきた(詳しくは後述)。

なお、研究データの国内動向について、トップダウン的な動きとしては以下のものがある。

じわじわ。

プロジェクトの現状(メモ)

JaLCでは、2014年12月のシステムバージョンアップ(いわゆるJaLC 2)によって研究データというコンテンツタイプに対してもDOIを登録することが可能になった。そして現在、登録実験プロジェクトを実施中である(2014年8月公募開始。参加機関=7研究機関+千葉大学附属図書館。NIIも機関リポジトリの研究データを対象に参加。2015年12月最終報告会開催予定)。プロジェクトの目的は、JaLCにおける研究データの登録ポリシーと登録手順書を作成することだという。
https://japanlinkcenter.org/top/#top_project

プロジェクトで検討中の課題として、

  • a)運用フロー
  • b)アクセスの持続性の保証
  • c)DOI登録対象の粒度
  • d)DOIのランディングページの要件の検討
  • e)研究データの特性に応じた取り扱い
  • f)研究データに登録したDOIの活用

が挙げられていた。

特に研究データ特有の事情が存在すると自分が感じたのは、

  • a)多様な関係者(研究者、プロジェクト、データ管理者、データ登録者)。データのpublisherは誰か?→DOIのprefixはどうすべきか。
  • c)粒度の多様さ(データセット、レコード、図表、プロジェクト、、、)
  • f)研究データを引用する習慣の有無、インセンティブの設計

あたり。

研究データの管理は、階層構造や細かなバージョニングが想定されるなどといった点で、図書館資料よりもアーカイブズ資料の世界に近いと感じる。確定後の公開を主眼としたリポジトリよりも、ECM(Enterprise Content Management)システムのほうが相性が良いのではないか。と、大学時代の先輩(@yumioka)の会社の方の記事を思い出した。

事例報告(メモ)

研究データ管理というトピックでは海外の事例ばかりが注目されるが、国内の研究所や民間企業の事例を知ることも同じくらい大切だと思っている。という意味で、ふだんお話を聞く機会のない事例を伺えたのは良かった。

(1)DIASプロジェクト(NII)

データセット単位でユニークIDが付与されていて、ユーザもこの単位でダウンロードする。そのためデータセットごとにDOIを登録するのが自然である。しかし、データセットは200件、データファイル全体は4000万件という激しい差が存在するので、DOIの粒度と引用の単位とのあいだにギャップがありそう。
http://www.editoria.u-tokyo.ac.jp/projects/dias/

(2)北極域データアーカイブ(国立極地研究所

データ公開による研究者のインセンティブ(業績評価、被引用数)について力説されていた。DOI発行者はデータの品質に責任を持つ必要があるというお話もあったが、これは(冒頭で武田先生@NIIがおっしゃったように)DOI登録とは無関係だろう。とはいえ、そういう話をされる気持ちはよく分かる。。DIASはメタデータをオンライン入力していたが、こちらは観測現場がオンラインとは限らないのでExcelで入力しているという話が面白かった。極地研では紙媒体でデータを出版している(JARE-data reports、NIPR arctic data reports)。こうして査読を経たものに対してDOIを登録するとか、データジャーナルを出版するといったアイディアが語られた。
https://ads.nipr.ac.jp
http://polaris.nipr.ac.jp/~library/publication/pub/pub1.html

ディスカッション(メモ)

あいにく残り時間が短くて中途半端になってしまったけど、研究データ公開のインセンティブの話から発展したauthorshipに関する議論は面白かった。簡単に言えば、研究データでは論文等に比べて関係者が多様なので、creator/contributorとして、誰をどのように記述すべきかという問題がある、ということかな。

例えば以下のような意見が出た。

  • プロジェクト単位でしか書かれていなかったりする
  • 技術補佐員、観測技術員、データ登録者などの多様な人が含まれる
  • 著者IDがないと機械処理がしづらい
  • 極地研ではデータに関わったひと全員をcreatorに書いている(contributorは使わない)
  • データのライフサイクルのどの段階で関わったか、という基準もありうる。
  • 人事異動があると個人名を出しても問い合わせなどに対応できないので組織に責任を持ってもらう
  • PLOS ONEの論文はAuthor Contributions欄に、各著者がどういう貢献をしたかが平文で記述されている(例:doi:10.1371/journal.pone.0118316

なお、自分んとこのメタデータ管理では、creator/contributorにlabelという属性を設けて、役割(例えばBook Reviewerとか)を記述したりしている。完璧にやっているというわけではないけど。

ほかに、DOIでランディングページ(メタデータ)を表示したあと、実際のデータにアクセスする方法がmachine-readableではないという指摘も出ていた。これは論文等でも同じで、フルテキストURLを取得するための標準的な方法がないんだよなあ。citation_pdf_urlというのはあるけど。