データリポジトリでの研究データ公開① データリポジトリについて知る
このページでわかること
- データリポジトリ(データアーカイブ)とは何か
- 研究データを公開する意義
- データリポジトリでできること
はじめに
近年広まりつつある「オープンサイエンス」の流れを受け、研究の過程で生成・取得した研究データのオープン化が進んでいます。
具体的には、
- 研究助成を受ける際の要件として、研究データの公開を助成機関から要求される
- 論文を学術雑誌に投稿する際に、その論文に紐づく研究データの公開を出版社から求められる
といった事例が増えています。
このページでは、研究データの公開先としての「データリポジトリ」の概要、研究データ公開の意義、データリポジトリの機能について解説します。
目次
データリポジトリとは
「リポジトリ」(repository)とは元々、英語で貯蔵庫や倉庫を指す言葉です。そこから転じて、「各種のデータを保管・管理する場所」という意味でも使われるようになりました。
「データリポジトリ」とは、研究データを保管し、インターネット上で公開する場のことを言います。「データアーカイブ」と呼ぶ場合もあります。データリポジトリには大きく分けて、特に研究分野を指定せず、幅広い分野のデータを公開しているもの(汎用リポジトリ)と、特定の研究分野に特化したもの(分野別リポジトリ)の2種類があります。
また、大学・研究機関が運営する「機関リポジトリ」は、その機関の研究・教育活動の成果(論文など)のインターネット公開を行う場ですが、研究データの公開にも対応している場合があります。
データ公開にあたって、どのデータリポジトリを選ぶかのポイントは、「データリポジトリでの研究データ公開② データリポジトリへの投稿の流れ」の記事で説明します。
学術雑誌に投稿する論文の付属データを公開する場合、該当の雑誌の出版元が推奨するデータリポジトリのリストを公表しているようであれば、それも参照しましょう。
以下に示す「データリポジトリの例」のうち「A:学術雑誌の出版元が推奨するデータリポジトリの例」がこれにあたります。
千葉大学に所属している皆さんは、千葉大学の機関リポジトリ「CURATOR」で研究データの公開を行うことができます。詳しくは、CURATORからの研究成果公開の流れを確認の上、附属図書館のリポジトリ担当にご相談ください。
「どのリポジトリで研究データを公開するのがよいか分からない」場合なども、附属図書館のリポジトリ担当に、気軽にご相談ください。
データリポジトリの例
データリポジトリには、次のような例があります。
A:学術雑誌の出版元が推奨するデータリポジトリの例
- J-STAGE Data
国立研究開発法人科学技術振興機構 (JST) が運営するデータリポジトリ。同機構が運営する電子ジャーナルプラットフォーム「J-STAGE」で公開される論文に関連するデータの公開に使用できる - Springer Nature社の推奨リスト
- PLOS ONEの推奨リスト
B:研究データを取り扱っている機関リポジトリの例
- Deep Blue Data
米国・ミシガン大学附属図書館が運営する、研究データに特化した機関リポジトリ - Illinois Data Bank
米国・イリノイ大学附属図書館が運営する、研究データに特化した機関リポジトリ - Materials Data Repository (MDR)
国立研究開発法人物質・材料研究機構が運営する、材料研究データや文献等を保存・公開しているデータリポジトリ
C:分野別リポジトリの例
- SSJデータアーカイブ (SSJDA) - 社会学系
労働調査、社会調査の個票データ(個々の調査票の記入内容。マイクロデータ)を収集・保管するためのデータベース。
運営:東京大学社会科学研究所附属社会調査・データアーカイブ研究センター - NDBCヒトデータベース - 医学系
基礎医学研究や臨床研究、ゲノムコホート研究など、ヒト由来試料を用いた研究から産出されるデータ(ヒトデータ)を保管・共有するためのデータベース。 運営:国立研究開発法人科学技術振興機構(JST)NBDC事業推進部(NBDC) - 情報学研究データリポジトリ - 情報学系
民間企業や大学等研究者から受け入れた各種のデータセットを研究者に提供するためのデータベース。
提供:国立情報学研究所(NII)データセット共同利用研究開発センター(DSC)
他にも様々なデータリポジトリがあります。データリポジトリの検索システム「re3data」などを活用し、自分の目的に合ったデータリポジトリを探してみましょう。
データを公開する意義
現在広まりつつあるオープンサイエンス(※1)の流れを受け、国際的に研究データのオープン化が進んでいます。
具体的には、
- 研究助成機関から助成の要件として、研究データの公開を要求される
- 論文を学術雑誌に投稿する際に、その論文に紐づく研究データの公開を求められる
といった事例が増えています。
研究データを公開することには、その研究データを取得・生成した人自身にも、その他の人たちにとってもメリットがあります。
(※1)「オープンサイエンス」とは、インターネットを通じて研究データを公開し、一般の人々がそのデータの分析・再利用などに参加できるようにすることで、科学研究の進展を図ろうというコンセプトのことです。
このコンセプトは、米国の理論物理学者マイケル・ニールセンによって提唱されました(詳しくは本ページの参考文献(ニールセン 2013)を参照)。また、公的研究資金(例えば科研費)の助成を受けた研究に関して、その成果を広く国民や社会一般に公開し還元していくべきだという議論の場面においても、「オープンサイエンス」という言葉が使われます。
参考:国立情報学研究所オープンサイエンス基盤研究センター「オープンサイエンス概要」
1. 他の人が研究結果を検証できるようになる
研究データが公開されていることで、そのデータに基づく研究結果(論文など)の妥当性を検証できるようになります。それにより、個々の論文の読み手・書き手、学術の世界全体、社会全体といった様々な立場の人にメリットが生まれます。
2. 新たな研究の可能性が広がる
研究データが公開されると、まったく別の分野の研究者が、公開されたデータを別の観点から分析・再利用することができるようになります。それによって、新たな研究成果が生み出されるといった可能性が広がります。
研究データ公開の意義について詳しくは、「研究成果をオープンアクセスにする」の記事でも説明していますので、併せてご覧ください。
FAIR原則
「FAIR原則」とは、データの適切な公開方法を表現した国際的な原則です。「FAIR」という名称は、データ公開にあたって留意すべきポイントを示す、以下の4つの言葉の頭文字から取られています。
Findable (見つけられる)
必要としている人が研究データを見つけられるよう、メタデータ(=研究データに付与する説明。データについてのデータ)や、識別子(=あるデータを他のデータから識別するための、一意で永続的なID)が適切に整備されていること。
Accessible (アクセスできる)
発見したデータに、「標準化された通信プロトコル」を用いて、識別子によってアクセスできること。データが利用不可となったとしても、メタデータにはアクセスできること。
Interoperable (相互運用できる)
データやメタデータの知識表現のために、「形式が定まっていて、到達可能であり、共有されていて、広く適用可能な記述言語」を使うこと。データやメタデータが、他のデータやメタデータへの特定可能な参照情報を含んでいること、など。
Reusable (再利用できる)
データやメタデータが、正確な関連情報を豊富に持つこと。例えば、データやメタデータが、明確でアクセス可能なデータ利用ライセンスと共に公開されていること、来歴とつながっていること、など。
これら4つのポイントには、それぞれを実現するための具体的な原則が付随します。これら15の原則の全ては、FAIR原則の本文(日本語訳あり)で確認できます。
皆さんがデータリポジトリ等で研究データを公開する際は、FAIR原則にのっとった形でそのリポジトリ等が運用されているかも考慮すると良いでしょう。
データリポジトリでできること
ここでは、データリポジトリで皆さんの研究データを公開する際に、どのようなことができるかを見ていきましょう。
データリポジトリによって具体的なサポートの内容は異なりますので、データを提出する前に確認する必要があります。以下は、データリポジトリが提供するサポートの一例です。
データの流通促進
知名度の高いデータリポジトリで研究データを登録することで、皆さんの個人Webサイトなどで研究データを公開する場合に比べ、データがより多くの人の目に留まりやすく、使われやすくなります。
他のデータベースとの連携
一部のデータリポジトリは、自リポジトリに登録された研究データに関する情報(メタデータ)を他のデータベースに提供することで、研究データがより発見されやすい環境を実現しています。例えば、Materials Data Repository(MDR)や日本国内の大学の機関リポジトリに登録された研究データは、CiNii Research上でも検索できるようになります。
データの検索手段の提供
データリポジトリでは、リポジトリに登録された研究データの検索手段を提供しています。具体的にどのような方法で検索ができるか(検索できる項目の種類など)は、データリポジトリにより様々です。
データへの長期アクセスの保障
データリポジトリは、長期間にわたり安全に皆さんのデータを保管する体制を整えて運営されています。皆さんが個人として研究データを公開する場合に比べ、Webサイトの消滅などによって公開した研究データにアクセスできなくなってしまう可能性が非常に低くなります。
データリポジトリの利用規約やWebサイト上の説明ページでは、データリポジトリの運営体制やデータの長期保管を行う運営者の責任を明記しているはずなので、登録前に確認してみましょう。例えば、汎用データリポジトリ「Zenodo」の説明ページでは、CERN(欧州原子核研究機構)が運営母体であることや、セキュリティ管理状況が説明されています。
永続識別子の付与
多くのデータリポジトリでは、自リポジトリに登録された研究データへの「永続識別子」(※2)の付与を実施しています。研究データに永続識別子が付与されることで、公開URLが変更になった場合にもリンク切れすることなく研究データにアクセスできるようになるため、研究データを論文中に引用する場合にも便利です。
(※2)永続識別子とは、あるデータを他のデータから見分け、同定するための一意で永続的なIDです。代表的な永続識別子には、研究データなどのデジタルコンテンツに付与される「デジタルオブジェクト識別子(DOI)」や、研究者個人を識別する「ORCID iD」があります。
ファイル形式のチェック
皆さんから受け取った研究データのファイルについて、形式面でのチェックを行います。例えば、特定のソフトウェアを使わないと扱えないファイルよりは、汎用性の高いファイル形式(例:.docx よりは .txt、.xlsx よりは .csv)を推奨することによって、再利用しやすい形式でのデータ公開を促進します。
データについての説明文書(Readme;リードミー)の公開
研究データの本体となるファイル(群)をただ公開するだけでは、研究データを閲覧・活用しようとする人にとって、ファイルに入っているデータの詳細やファイル同士の関係が分かりにくいままになってしまいます。こうした状態になることを防ぐために、多くのデータリポジトリでは、データについての説明文書(Readme)をテキストファイルとして作成し、研究データ本体のファイルとともに公開することを推奨しています。
Readmeの例
- Readmeファイルの記載例 (汎用データリポジトリZenodo)
- Readmeファイルテンプレート (米国・イリノイ大学附属図書館)
- Readmeファイルテンプレート (汎用データリポジトリDryad)
他にもデータリポジトリでは、専門的なスタッフによる以下のようなサポートを実施している場合があります。具体的なサポート内容はデータリポジトリにより異なりますので、Webサイトなどで確認しましょう。
データファイルのチェック
データリポジトリのスタッフがファイルを実際に開き、ファイル形式の問題はないか、Readmeファイルが含まれているかなどのチェックを行います。
データについての説明文書(Readme)の作成支援
Readmeファイルの作成を、データリポジトリのスタッフが支援する場合があります。一部のデータリポジトリでは、Readmeファイルの作成方法についての資料を公開しています(例:汎用データリポジトリZenodoの資料)。
データについて説明する情報(メタデータ)の作成支援
公開する研究データの概要(タイトル、作成者名、キーワード、説明文等)を記述した「メタデータ」を適切に作成することは、データリポジトリ上で研究データが発見されやすくするために重要です。多くのデータリポジトリでは、研究データをシステムにアップロードする際に登録者自身がメタデータを入力できるようになっていますが、登録者が入力したメタデータの補記をデータリポジトリのスタッフが行う場合があります。
「千葉大学学術成果リポジトリ CURATOR」でできること
千葉大学の機関リポジトリである「CURATOR」では、研究データの公開にあたって次のようなサポートを行っています(2023年9月現在)。
- データへの長期アクセスの保障:大学図書館が運営基盤となることで、長期的に安定した運営体制を整えています。
- 永続識別子の付与:研究データへのDOI付与を行っています(任意制)。
- 他のデータベースとの連携:CURATORに登録された研究データは、CiNii Researchからも検索できるようになります。
- ファイル形式のチェック:研究データの公開にあたり、職員がファイル形式の簡易チェックを行います。リポジトリでの公開により適したファイル形式への変換についてアドバイスする場合もあります。
- データについての説明文書:研究データと併せて公開する説明文書(Readme)の作成について、職員がご相談に乗ります。
- その他:研究データに付与するメタデータの記述方法などについてご相談に乗ります。
参考文献
ニールセン, マイケル著(高橋洋訳)『オープンサイエンス革命』紀伊國屋書店, 2013.4