Simple Open Data
あなたは、あなたのデータをオープンに公開したいと思っていますか?素晴らしいです!このページには、オープンデータをシンプルに、そして効果的に公開するためのヒントを提供しています。
目的
何故あなたはオープンデータを公開すべきなのか?
- オープンなデータ共有方法を利用することは、あなたの組織を内部から効率化します。 あなたがデータの公開方法やパッケージ方法、管理方法に気を遣うことで、有用な資産が他の部署から発見されやすくなり、さらに、それらの資産を有効活用することが容易になります。
- 幅広い閲覧者を得ることは、更なる創造性や、あなたのデータの内容を理解した有能な人々を獲得することを意味します。 もっとも興味深いデータの利用方法は、時に予想外の方法であったりもします。たとえばクロスリファレンスの研究やデータビジュアライゼーションプロジェクトが生まれることによって、そのデータに対して一般の人々が注目することになります。
オープンフォーマットを使う
多様な閲覧者を持つということは、あなたが想定する以外の方法で、彼らがデータを利用することを意味します。あなたが使っているのは、特定のオペレーティングシステム(OS)やソフトウェア、時にはサイトライセンスを持つソフトウェアかもしれません。しかし周りの人は違います。ソフトウェアは法外に高価なものかもしれません。もしデータの取得が自由で無償であっても、取得したファイルを開くためだけに何万ドルもの費用がかかるのでは困ります。
幸いなことに、世の中にはシンプルかつオープンなフォーマットがたくさんあります。それらのフォーマットは、商用/フリーの違いやオペレーティングシステムを問わず、広範にサポートされています。
テキスト形式データ
マイクロソフトWord形式でテキストを公開するのは避けましょう。 マイクロソフトWordフォーマットは複数のバージョン間の互換性がありませんし、マイクロソフト製品以外では読み込むことができません。
テキストをPDFで公開することは大丈夫です。 しかし、PDFが謳っているいくつかの利点は誤った考えであることを覚えておいて下さい。 PDFはどんな形式であれ、簡単に中身を編集することが可能です。従って、PDF形式のファイルが他の形式に比べて改ざんされないというわけではないのです。
もしあなたの文書が簡単な形式なら、シンプルなフォーマットが望ましいです。.txt ファイルは考えうるもっともシンプルなフォーマットであり、どのようなシステムからも読み込むことができます。
表形式データ
表形式データをPDFで公開することは決してしないでください。 PDFで作成された表形式のデータをコンピューターから読み込むことは不可能に近く、多くの利用者はデータをパースしたり、再入力する為に数多くの手作業を強いられます。
表形式データのもっとも効果的な公開手段はCSV形式です。 CSV は ‘Comma-separated values’ を表し、マイクロソフトExcelからエクスポートオプションを使って出力できます。
地理情報(Geographical Information)
好ましい地理情報データのフォーマットは、ベクターデータかラスターデータかによって違ってきます。また、データサイズによってもフォーマットを使い分けるのがベターです。
小さいベクターデータに対しては、GeoJSON か KML を利用しましょう。 これらはシンプルかつ広く利用されている標準形式です。 それらのフォーマットはWGS84 測地系の緯度経度を使うことが想定されており、データ利用者にとって使いやすい形式です。公開前に測地変換を行なっておくのが良いでしょう。
大きなサイズのベクターデータは、Shapefile 形式で公開しましょう。
ラスターデータを提供する際に使いやすく、シンプルなフォーマットは GeoTIFF 形式です。 GeoTIFFは多くの実装実績を持つ、オープンスタンダードな形式です。大きなサイズのラスターデータセットで地理情報を持たない配列データについては、NetCDF もまた広範にサポートされている良い選択肢です。
いくつかの Esri データ形式、例えば FileGDB, .lyr
, や .zlas
は故意に暗号化されており、高価な Esri 製品でしかサポートされていません。その為それらの形式はオープンデータ領域では推奨されません。おなじように、 GeoPDF もまた実装が少なく法的な制限もあるために推奨されません。
オープンライセンスを利用する
ライセンスを指定することは全ての提供方法において不可欠なことです。明確な法的条件なしには、誰も安心してそのデータを使うことはできません。どのライセンスを選択するかの判断には、数多くの要素を考慮する必要があります。
米国では、もしそのデータがアメリカ合衆国職員の作業で作られた場合には、パブリックドメイン扱いになりますので、選択肢はありません。同様に 米国の法律や勅令によって作られたもの に対しても著作権を主張することはできません。
もしあなたのデータがそれらの条件に当てはまらない場合、あなたは恐らくそのデータに対する著作権を保有しています。それはつまり、それらの権利を誰かに与えるか、あなたが持ち続けるかはあなたの選択次第ということを意味しています。
あなたが米国政府職員でない場合、もっとも進歩的な選択は、そのデータをCC0(パブリックドメインと同様の条件のオープンライセンス)ライセンスで公開することです。このライセンスでは、データに対するほとんどの権利を放棄します。このときに放棄される権利には、例えばクレジット表記の記載を求めることや、データの商用利用を禁ずることなどがあげられます。ですが、このライセンスを選択することにより、データを利用する際の法的な懸念が払拭され、データが利用される可能性がより高まります。
もしあなたが米国政府職員であったとしても、CC0を適用することにより、米国外においてもパブリックドメインの条件を明示できます。そのため、あなたのデータは、世界のどこであってもライセンス的な混乱なく、最大限の再利用ができるデータとなります。これは、Health and Human Services, そして Consumer Financial Protection Bureau という2つの事例からも見て取れる通り、とてもシンプルな方法です。
もしあなたがクレジット表記を求めるのであれば、あなたはODC-BY ライセンスを利用できます。ODC-BY ライセンスを利用すると人々にあなたのデータをクレジットつきで利用してもらうことができます。
他には、’share-alike’(継承)の著作権を伴ったライセンスもあります。これはあなたのデータと他のデータを混ぜて作成した作品には、元データのライセンスと同じライセンスをつけなくてはいけない(継承)というライセンスです。この代替策は、他の人々の努力にタダ乗り(freeloading)されるかもしれないという懸念を払拭することが可能ですが、そのかわり、あなたのデータをライセンス互換性の無いデータと混ぜることを困難に、時には不可能にすらしてしまいます。したがって、share-alike ライセンス、例えばODbLなどを新しいプロジェクトに適用することは推奨されません。
公開
あなたがオープンデータを持っているならば、いまこそ公開の時です!
シンプルにスタートするのが最善です。データポータルをセットアップしようとしたり、公開用のサーバーをセットアップしようとする前に必要なのは、シンプルなダウンロードページです。もしあなたが入手した公開可能なデータがほんの少ない量ならば、それらを公開して既存のCMSからリンクすることから試してみてください。
公開の戦略において最も重要な要素は、URLです。基本的なルールとして、参照しやすく、信頼性の高いURLで公開するようにしてください。URLを時間が経ったら変更するようなことはしないでください。
多くの組織にとって、オープンデータを信頼性高く安価に提供することは大切なことです。わざわざ特別なポータルに予算を充てることは、悩みの種を増やすだけです。既存のサービス、例えばAmazon S3などをダウンロード用のデータ置き場として活用することで、これらの問題を回避することが可能です。
APIが必要ですか?以下の条件に当てはまる場合は作っても良いと思います。
- APIに利用者がついた後、そのAPIのメンテナンスを担当するスタッフ、時間、予算が確保できる場合
- もしあなたが公開するデータが、皆が一度ダウンロードして利用するだけでは機能的に不十分で、さらに、利用者が状況に応じてフィルターして使いたい、などの明確なタイプの違いを持つ場合
もしそうでない場合、生のダウンロードの形でシンプルにデータを公開し、API公開による複雑さと信頼性維持の手間を省いたほうがよいでしょう。
プロモーション
あなたがデータを公開したら(おめでとうございます!)あなたは、皆が物事を考えるための基礎となる、素晴らしい方法を新しく提供したことになります。しかし、データの存在に興味を持ってもらい、そして使ってもらえるようにするには、どのようにすればよいのでしょうか。
仲間を探して、話をしましょう。 今やあなたはオープンな世界に身を置いています。あなたは同じようなことに取り組んでいる人々を見つけるでしょう。あなたの国には同じようなデータセットを持っている人々がいます。彼らと話し、繋がり、そして他の人々から学ぶ方法を見つけましょう。
いかにそのデータが素晴らしいか示しましょう。: あなたのデータを使った簡単なビジュアライゼーションや分析を行い、あなたのサイトからリンクしましょう。普段のコミュニケーション場所や、アナリストが集まる場所、たとえばTwitterやGithubなどで、それについて言及しましょう。