シンポジウム「オープンデータとデジタルヒューマニティーズ」参加メモ

先日職場で開催されたシンポジウムのメモと個人的な感想をちょろっと。役に立つ情報は後日公開されるであろう資料をご覧いただくとして……。

挨拶・趣旨説明(冨浦)

今回のシンポジウムのテーマはデジタルヒューマニティーズと人材育成。人文社会科学系のオープンデータということでデジタルヒューマニティーズ、分野を超えたデータの流通や活用を促進するためにはそれを支える人材が必要ということで人材育成、ということだった。

米国の大学を中心としたオープンデータの現状:訪問調査から(畑埜)

2016年3月の訪問調査(Harvard University、University of Illinois at Urbana-Champaign、California Digital Library)から、各大学のシステム基盤と人的体制(データキュレータが何人いて、実際どんな仕事をしているかなど)についての紹介。

内容については、自分は一年前に学内報告会でだいたい伺っている。ただ、研究者のひとがみずからの立ち位置からオープンサイエンスについて語るのを聞くのは、やっぱりいい機会になるなあと思った。自分はどうしても借りてきたことばで話してしまいがちだし、自分のなかで咀嚼できてない(もしかしたらどうでもいいかもしれない)情報でもつい語ろうとしてしまう。それらが、自分が(本業の)研究をしていくうえで本当に喜ばしい話なのか、付き合ってもいい話なのか、そんなふうに疑ってかかる姿勢は、プロの研究者ではない自分にとってはたとえフェイクでしかありえなくても、なんとか持とうとしなくてはいけない、と思った。

なお、手元のメモに「めんどくさい、と、めんどくさそう、は異なるもので、どちらかといえば後者のほうがやっかいと言える。なにが、なぜ、めんどくさいのかということがクリアになっている状態は案外取り組みやすい。ぼやっとした印象ほどやっかいなものはない。」と残っていたけど、何を聞いてそう連想したのかがもはや記憶にない。研究者の気持ちを想像したのだろうか。。

Creating Open Data for New Scholarship: HathiTrust Research Center Case (Stephen Downie)

2人目はUIUCのStephen Downie。聞き取りやすい英語で、諭すような語り口で、まるで大学院の講義を受けてるような気分になった。

内容は、HathiTrustの概要と、それをベースにしたデジタルヒューマニティーズの実践、のはなし。 HathiTrustといえばJohn Wilkinの顔がまず頭に浮かぶけど、彼はいまUIUCの図書館長らしい。

前半は、デジタルヒューマニティーズを支えるにはどのようなデジタルイメージ/メタデータを用意すればいいのかという観点から聞いた(Co-ordinated OCR、METS形式のメタデータなど)。

後半はいわゆる非消費的研究(non-consumptive research)がテーマ。デジタル化した資料を *著作権を侵害しないように* デジタルヒューマニティーズな研究に活用していくため、技術力を駆使してカプセル化された環境を用意して、、、という感じ。PhDの学生によるもの含めて、実際の研究での具体的な利用例が次々と紹介されて、聞き応えがあった。bookwormの話が多かったかな。

また、図書館との深いつながりということで、米国の大学図書館ではscholarly commonsというのを設置するのが流行っていて、そこを使って?ユーザ調査などのアウトリーチ活動をしているはなしがあった。この記事のような感じなのかなあ。UCLAは来月行くのでちょっと見てきたいと思っている。
UCLA図書館、図書館員との協同も視野に入れた(デジタル)人文学研究者・学生等のための共同研究用ラボを開設 | カレントアウェアネス・ポータル

お話を聞いて、せっせとデジタル化しよう、きちんとライセンスつけよう、と自分の役割を確認した。

ひさしぶりにnon-comsumptive researchという単語を聞いて、この記事を書いたときの苦労を思い出した。ニュースソースを読んでもことばの指す内容に自信が持てなくて、図書館以外の情報源もあちこち調べまわって解説を書いた記憶がある。。
米インディアナ大学、HathiTrustのコンテンツを利用した非消費的研究のためのプロジェクトを開始 | カレントアウェアネス・ポータル

データキュレーションへの期待と課題:自然科学から人文科学まで(北本)

3人目はNIIの、デジタル台風の北本先生。お話を直接伺うのは初めてで、とても面白かった。

イントロダクションで話された、「オープンサイエンスとは?」(単一の定義は困難だが、よりオープンにという方向性は共有)、「オープンの3つの側面」(再利用、透明性、参加)、「3種類の研究データ」(研究資源データ、論文付属データ、研究過程データ)という整理はとても分かりやすくてぐっときた。こんなふうに話せばいいんだなあ。

ひとつのベストプラクティスでということだろう、有名な「江戸料理レシピデータセット」というか「クックパッド江戸ご飯」の話は、けっこう時間を使って丁寧にされていた。このデータセットには、

  1. 江戸の料理本をデジタル化
  2. くずし字を翻刻
  3. 翻刻を現代語訳
  4. 現代語訳をレシピ化・公開
  5. クックパッドでもレシピ公開
  6. つくれぽで個人の経験を共有

というプロセスが含まれている、という。古典籍というものが秘めている価値を、(自分も含めた)現代の一般人のふところにマークはずす飛びこみでさっともぐりこませるためには、これだけのプロセスが欠かせなかったんだろうなあ。「データに適したプラットフォームに載せることが大事」とおっしゃっていたけど、もちろん「ポータルにデータを流せ」程度のことはこの業界でもさんざん言われてきている。この事例では、単にデータをそのまま流すのではなく、このコンテンツの本質が「レシピ」であると認識し(なかなかできないことではないか)、コンテンツを解体し、解釈しなおし、という「ひと手間」(いや、ちっとも「ひと」じゃないけど)を加えているのが成功のポイントだと理解している。ここは、後半でデータライブラリアンとデータキュレーターの違いを考察し、後者のポイントは「価値」にあるのではないかとおっしゃっていたところと通じるところ。データキュレーション、というときにここまでできるのか、我々(?)。

南山さん@極地研の実践例も例に挙げつつ、データライブラリアンやデータキュレーターの役割についても語られた。「研究者インタビューを行なってメタデータスキーマを決めるところからやってくれると非常に助かる」とおっしゃっていたが、期待するレベルは研究者によって大きく差があるだろうからやっかい……。でもこの研究者のところへ踏み込んでいく、というのが今後の(といってもずいぶん前から言われてる気もするけど)ポイントだろう。

まとめで話された「書籍(雑誌)とデータの違い」というスライドも自分にとって示唆的で、でもメッセージとしては同じ地点に収斂していく。

  • 書籍や雑誌:整理・編集済みの最終生産物だけを扱っていればよかった。
  • データ:ライフサイクルの全過程を扱わなければならない。
  • 関係者(ステークホルダー)やプロセスが多いため、メタデータも複雑化する。
  • その分、未開拓の部分も大きく、これから発展するテーマです!!

紙の本や雑誌と比べて対象物の質的な複雑さはあるけれど、そのことよりも、(出口で)ものがやってくるのをただ受け身で待っていればいいわけではない、というところがクリティカルだと思っている。生産過程のすべてに関わる必要があるとまでは思わないけど、少なくともどこかには入り込んでいく必要がある。

ライフサイクルは分野によっても異なりうる、とおっしゃっていた。この手の研究データの扱いづらさって、伝統的なL(ibrary)の資料よりも、A(rchives)の世界に近いと思っていて、知り合いのAのひとたちにはお話したりしている。Alfrescoを研究データ管理に使おうとした事例(南アかどこかの)を知ったときにもそう思ったんだっけ。

Training Information Professionals for the Emerging Data Ecosystem (Melissa Cragin)

4人目、MelissaさんからはUIUCのiSchoolのカリキュラムの話。

座学でどんなことを教えているかについてはあまり興味が持てず(ごめんなさい!)、あちこちのデータセンターにインターンでいけというのがいいなあと思った(羨ましさも込みで)。インターン先を列挙したスライドが配布資料になかった(OCLCが入ってたのだけは覚えている)。もう一度見たい。

パネルディスカッション

以下の3つのお題を設定して、パネリストが順番に答えていくというスタイルだった。

  1. オープンデータを推進するために研究者に対してどのような支援が必要か?
  2. そのような支援を行う人材にはどのようなスキル、知識が必要か?
  3. そのような人材養成するにはどのようなプログラムが必要か(対象の領域知識はないという前提で)

噛み合ってるのかそうでないのか分からないところもあってメモを取るのを途中で諦めたんだけど、以下の発言は印象強く残っている(発言ママではありません)。

  • 北本:研究者が欲しいのはフィードバック。いちばんいいのは業績として評価されることだが図書館でできることではない。データを公開したことによって利用されていることがわかる、あるいは使われるためにプロモートしてくれるとか。公開してよかったという経験が増えるといい。
  • Stephen:研究者は自分のリサーチクエスチョンに注力すべきであり、それ以外のことについてはサポートしたほうがいい。
  • 北本:データをpublishするコストをなるべく下げることが大切。将来、商業出版社がお金で解決するという可能性がある。図書館を使わないこともありうるという前提でサービスを考えたほうがいい。

まとめ

現在の自分の姿勢は、

  • 研究データ管理についてはまだまだ積極的になれていない(研究者の具体的かつ強いニーズが感じられていない)。
  • デジタルヒューマニティーズ(というかその前提としての資料デジタル化)については大学図書館としてやれることがいろいろあるし楽しそう。資料知識はないけど。
  • 人材育成の議論は一般にあまり興味が持てない(「日本だと育ててもどうせすぐ異動でしょ」と思ってしまう)。

という認識。

HathiTrust Research Centerやクックパッド江戸ご飯(のキュレーション)のはなしも面白かったけど、今回のシンポジウムで収穫があったのはこの3点目についてかな。

最後のパネルディスカッションで、北本先生が

本でいえば作家のところに行って、どう管理したらいいかどうかを聞く必要がある、という意味でおおきく変わると思う。producerとuserをつなぐ。日本でできるかどうかは分からないが。

というようなことをおっしゃっていた。

研究データとちゃんと向き合うということは、図書館の外に出て、データの生産者(研究者)のところへ行き、データの現場を知り、という(従来の図書館員にはあまりなかった)姿勢が求められる、ということだと受け止めた。こういった姿勢の変化の必要性自体は、研究データの文脈で(部分的にはそれ以前から機関リポジトリの文脈でも!)しばしば言われていることだけど、今回あらためて聞いて、今後、大学図書館員が、あるいは自分が、研究データというものを真正面から扱わないことになったとしても、こういったライブラリアンとしての姿勢やマインドセットの変化は身につけたいな、そのほうがこれから楽しそうだし、と感じた。こんな図書館員を養成することにつながりうるのなら、オープンデータな人材育成について考えておくことも意味があるのかもしれない、というか、今後はその観点から考えてみることにしよう、とちょっと前向きになれた。この点が自分にとって大きかったと思う。

# いや、もちろん、データライブラリアンをきっちり育成して、(ジョブローテーションに乗せずに)きっちり活用していくほうが断然いいと思うけど。

とはいえ、こんな感慨も、むかしエンベデッドライブラリアンやURAや地域資料について勉強したときに胸に湧き上がったはずなんだよね……。マインドセットが変化するきざしを、きちんと業務実践に乗せていくのはほんとに難しい。