citation_pdf_urlでMendeleyにPDFをインポート

HighWire Press tags、というのがあるらしい。先日エルゼビアの高橋さんとMendeleyの話をしていたときに教えていただいた。初耳。


これは「citation_*」という形式をしていて、HTMLのmetaタグとしてメタデータを埋め込むために使う。そのメタデータは、Google Scholarでのインデクスや、Mendeleyでのインポートの際に使われる。

メタデータを埋め込むにはdc/dctermsやprismでもいいし、最近ならSchema.orgのような動きもあるのだけど、Highwire Press TagsにはフルテキストのURLを指定するcitation_pdf_urlというタグがあるのがポイント(なぜか上のMendeleyの出版社向けページでは紹介されてない)。

こうやってフルテキストのURLを記述するための(比較的)標準的な方法はないのだろうかと以前から気になっていたのだった。


身近なところではCiNii

CiNiiでは右下に「Mendeleyに書き出し」というリンクを設置しているが、詳細画面のHTMLにはこんなふうにちゃんとタグが埋め込まれている。

<meta name="citation_journal_title" content="図書館雑誌" />
<meta name="citation_publisher" content="日本図書館協会" />
<meta name="citation_authors" content="原,聡子;片岡,真" />
<meta name="citation_title" content="ディスカバリーサービスとこれからの図書館" />
<meta name="citation_date" content="03/2014" />
<meta name="citation_volume" content="108" />
<meta name="citation_issue" content="3" />
<meta name="citation_firstpage" content="185" />
<meta name="citation_lastpage" content="187" />
<meta name="citation_abstract_html_url" content="http://ci.nii.ac.jp/naid/120005418029" />
<meta name="citation_issn" content="0385-4000" />

http://ci.nii.ac.jp/naid/120005418029/ja/

でも、citation_pdf_urlは使われていない。PDFがないのならしかたないけど、NII-ELSで電子化されていてOAのPDFがあるものでも同じだった。なにか理由があるのかな。ちょっともったいない。


HighWire Press Tagsの一覧

調べてみると名称は散見されるくせに、肝心のタグの一覧が見当たらない。そこで、あちこちのサイトから使われているタグを拾い集めてみた。

  • citation_title
  • citation_author[*1]
  • citation_author_institution
  • citation_author_orcid
  • citation_author_email
  • citation_authors[*2]
  • citation_journal_title
  • citation_journal_abbrev
  • citation_conference_title
  • citation_publisher
  • citation_issue
  • citation_volume
  • citation_doi
  • citation_id
  • citation_id_from_sass_path
  • citation_collection_id
  • citation_pmid
  • citation_mjid
  • citation_firstpage
  • citation_lastpage
  • citation_date
  • citation_year
  • citation_publication_date
  • citation_online_date
  • citation_price
  • citation_abstract_html_url
  • citation_abstract_pdf_url
  • citation_fulltext_html_url
  • citation_public_url
  • citation_fulltext_world_readable[*3]
  • citation_isbn
  • citation_issn
  • citation_language
  • citation_keywords
  • citation_dissertation_institution
  • citation_technical_report_institution
  • citation_technical_report_number
  • citation_section
  • citation_reference

これだけでも40種近く。もっとありそうだ。用途がよく分からんのもある。


東大リポジトリ

citation_pdf_urlを活用している日本のサイトはないだろうか?と探していたら、東大のリポジトリがあることを知った。さすが。前田さんだろうか。via: MendeleyでCiNiiから論文本文のPDFごとインポートする - 教育社会学の勉強・備忘録

例えばこんなふうに。

<meta name="citation_publisher" content="言語処理学会" />
<meta name="citation_abstract_html_url" content="http://repository.dl.itc.u-tokyo.ac.jp/dspace/handle/2261/29441" />
<meta name="citation_pdf_url" content="http://repository.dl.itc.u-tokyo.ac.jp/dspace/bitstream/2261/29441/1/v02n4_01.pdf" />
<meta name="citation_issn" content="13407619" />
<meta name="citation_date" content="1995-10" />
<meta name="citation_title" content="日本語マニュアル文における条件表現「と」「れば」「たら」「なら」から導かれる制約" />
<meta name="citation_authors" content="森, 辰則; 瀧野, 弘幸; 中川, 裕志" />
<meta name="citation_language" content="ja" />
<meta name="citation_keywords" content="日本語; マニュアル文; 接続助詞; と; れば; たら; なら; Japanese; Manual; Conjunctive Particles; TO; REBA; TARA; NARA; Journal Article" />

http://repository.dl.itc.u-tokyo.ac.jp/dspace/handle/2261/29441

このページでMendeley Web Importerを使うと、メタデータだけじゃなくPDFもちゃんと取り込まれる! いいね![*4]

【2014/7/29追記】

2010年に杉山さん@静大DRF-MLにポストしているのを発見。

北大さんもcitation_pdf_urlを使っていて、しかも複数PDFにも対応していた。

失礼しました。


DSpace x HighWire Press Tags

このようにDSpaceでHighWire Press Tagsを出力するというのは機関リポジトリ界隈でむかしからあった話らしく、江別の鈴木さんがパッチを書いていた。

そのおかげかどうかは分からないが、例えば京大のリポジトリでもHighWire Press Tagsに対応しているんだけど、東大とは違ってcitation_pdf_urlは出ていなかった。


複数PDFの扱い(Mendeley)

で、一番気になるのはひとつのメタデータ複数のPDFが存在していた場合はうまくMendeleyに取り込まれるのかどうか(PDFを複数ファイルに分割してる場合を意識して)。→実験してみた。

まず、東大リポジトリはPDFが複数の場合はcitation_pdf_urlを出力していなかった。
例:http://repository.dl.itc.u-tokyo.ac.jp/dspace/handle/2261/20027

ローカルに保存したHTMLでもWeb Importerは機能するようだったので、HTMLにcitation_pdf_urlを2つ加えてからテストしてみると、どうも最後のURLのPDFだけが取り込まれるようだった。Mendeley Desktopでは複数ファイルを添付できるので、Web Importerの仕様なのかな。(これまで認識してなかったけど、そもそもMendeley Webではファイルアップロード自体できないんだったっけ。。)

ちょっとつらいけど、ひとまずは諦めるしかないか。


複数PDFの扱い(Google Scholar

please specify the locations of all full text versions using citation_pdf_url

http://scholar.google.com/intl/en/scholar/inclusion.html#indexing

とあるので、Mendeleyはともかく、Google Scholar対応としては全てのPDFを含めるのが良いようだ。

上の、東大の複数PDFの例をGoogle Scholarで検索してみると、

  • タイトルをクリック → メタデータページへ
  • 「u-tokyo.ac.jp の [PDF]」をクリック → 要旨のPDFへ

という結果だった。PDFのほうは、ひとつめにリンクするという仕様なのかな?(想像)


まとめ

もっとcitation_pdf_url使おう。そしてMendeley Web Importerさんは複数のcitation_pdf_urlに対応してほしい。でももっとスマートな方法があったりして。

*1:著者系タグは構造化されてないけど、citation_author, citation_author_institution, ...のように繰り返せばいいのかな。e.g., http://www.pnas.org/content/early/2014/07/24/1322291111.abstract

*2:非推奨? http://www.monperrus.net/martin/accurate+bibliographic+metadata+and+google+scholar

*3:オープンアクセスであることを示すタグらしく、のように使う。e.g., http://www.sciencedirect.com/science/article/pii/S1570866714000173

*4:東大のリポジトリでWeb Importerを試していると、dcterms.abstractがアブストラクトとしてインポートされず、dc.descriptionのほうが取り込まれることに気づく。このへんいろいろテストしてみないと。。