応用経済学(特に開発経済学周辺)分野での衛星画像データの利用について:院生によるまとめ
Last Updated: July 25, 2020
はじめに
2000年前後、特に2005年〜2010年ごろから衛星画像データを用いた実証分析が盛んになっている。これらのデータを研究に用いたいと考えている若手の研究者、大学院生も多いと思う。筆者もその1人である。筆者によるguesstimateだが、衛星画像データの利用方法(画像の入手から計量分析を行うまでの方法)を指導できる教員はそう多くないと思われる(若手の先生は積極的に使われている印象)。基本的に学生は、大学内で開講されているGIS系の授業を履修して学ぶand/or独学で学ぶ必要がある(農学部や工学部ではこれらの授業が多い印象)。この記事では、開発経済学を専門とする平凡な院生が備忘録を兼ねて、実証分析に衛星画像データの利用するのに必要な知識や情報を共有する。また、筆者自身もまだまだ素人であるため、本ブログやTwitterを通じて情報交換などもできればと思っている。
注: 間違った情報や記載がある場合はコメント欄からご指摘いただけますと幸いです。複数の記事にまとめる予定はありません。随時更新していく予定です。様々な利用方法があると思います。知識と経験の浅い院生によるまとめです。本記事で具体的な方法(QGISの操作方法、R/Pythonのコード)を紹介する予定はありません。筆者のTwitterアカウントはこちら (クソツイを量産しているので要注意)。
- 1 衛星画像解析をするのに必要なもの
- 2 GIS・地理情報システムとは
- 3 どのように衛星画像データを実証分析に利用するか
- 4 学術論文とデータ、関連記事の紹介
- 5 GISデータの可視化・地図の作成(Mapping)
- 6 おすすめのGIS教材・資料
- 7 最後に
1 衛星画像解析をするのに必要なもの
1.1 ググり力と英語力
これらがないとどこかで躓き、その先に進めない。日本語での情報はかなり限定的。強力な助っ人がいる場合は別。
1.2 パソコン
ほとんどの場合ノートPCでOK。メモリは8GB欲しいかも。4GBでどうなるかは分からない。筆者はMBPのメモリ16GBを使用。QGISやArcGISで大量の計算と結果の出力、保存を行う場合、DropboxやiCloudではなく外付けHDDが必要になることもあるかもしれない。事前に購入する必要は無し。
1.3 外付けモニター / ディスプレイ
ないと作業効率が有意に下がり、ストレスが溜まる。
1.4 インターネット環境
分からないことはとにかくググり、様々なデータをダウンロードする必要があるのでネット環境が整った場所での作業する必要がある。
1.5 ソフトウェア
無償で提供されているもので、最低限これが必要というのは、QGISだろうか。QGISはPython-unfriendly。R and/or Pythonが使えるとより便利に(後述)。ArcGISは所属大学や研究室がArcGISのライセンスを持っている場合に使用可能。こちらはWindows対応 、MacOS版はなく、Python-friendly。Stataは、Stata15から公式にGISデータの利用が可能に(機能は非常に限定的)。筆者はVersion 16を使っているが、対応するコマンドは使ったことがない。
1.6 GISの基礎知識
GISに限らないが、その分野に関連する全ての知識を身に付ける必要はないと思う。次の章で解説する。
2 GIS・地理情報システムとは
2.1 GISについて
GISとは、Geographic Information Systemの略。日本語では地理情報システムと訳されるが、みんなGIS(ジーアイエス)と呼ぶ。ジスではない。必要最低限の知識は、例えばesriジャパンのGISとはを読むといい。さらに詳しく知りたい場合は他の記事や本を読むといいかも。入門者にはマストではない。
2.1 GISデータについて
GISのデータの種類についても知っておく必要がある。知っておきたいのは2つ、ベクターデータ(vector data)とラスターデータ(raster data)。クロスセクションデータと時系列データくらい違うが、どちらも使用する必要がある。
・ベクターデータ
この世に存在する地物をポイント(点)、ライン(線)、ポリゴン(面)の3つの要素で、緯度・経度、または地図投影法を用いて表している。ポイントは、調査を行った家計・地域の地点や、紛争が起きた地域などを示すことができる。ラインは、道路や鉄道などインフラ関連の情報を表していることが多い。ポリゴンは最も使用頻度が高く、国や市町村などの行政区域を表す境界線がメジャー。
・ラスターデータ
衛星画像などの画像データはラスターデータと呼ばれる。GeoTIFF(拡張子.tiff)ファイルなどがメジャー。スマホなどで撮影する写真と同様、大量のピクセルが並べられて1枚の画像を作っている。目視はできないがそれぞれのセルに情報を表す量(数値情報)が含まれている。ピクセルの大きさは、30m×30mや、1km×1kmなど、その画像の解像度によって異なる。ミクロデータと突合したい場合はあまり荒いと使えない。
3 どのように衛星画像データを実証分析に利用するか
家計調査のデータを使用する場合を考える。どのような画像データでもよいが、夜間光(Nighttime Lights)データと家計調査のデータをマージしたいとする。この場合、主に次の2つの方法がある(他にも様々な方法があるが、代表的だと思うものを紹介する)。
3.1 地域レベルで画像を解析 → 地域レベルでマージ
家計調査のデータに、家計または家計が位置する地域のGPS、緯度経度の情報が含まれていない場合にはこの方法を用いることになる。1)夜間光データ(例えばDMSP-OLS Nighttime Lights)と地域のポリゴン・境界線のshapefileデータ(例えばGADM maps and dataから入手可)をダウンロード。どの行政区画レベルを選択するかは研究デザインによって異なる。2)QGISに2つのデータを読み込み、画像データの上に境界線データをOverlayする。「上に」と表現しているが、読み込む順番はどちらでもよい。3)ラスタ解析のゾーン統計量で必要な統計量(平均、分散、合計など)を計算する。計算結果は自動的にshapefileに保存される。4)shapefileをcsvにエクスポートしてStataで開いて対応する地域でマージ、もしくはshapefileをRまたはPythonで開いでデータクリーニングしてからマージ。
下の画像は、筆者がQGIS上で夜間光データとインドのDistrictの境界線データを表示させたものである。上の説明の(3)は、下の地図の境界線の内側にある各ピクセルに含まれている情報を計算することを意味する。
3.2 ポイントレベルで画像を解析 → ポイントレベルでマージ
家計調査のデータに、家計または家計が位置する地域のGPSデータ(ポイントデータ)が含まれている場合を考える。その点から半径Xm以内はどれだけ夜間光が明るいか、といった、一定の距離に応じて統計量を計算することができる。1)同上。2)画像データとポイントデータを読み込む。3)ベクタ→空間演算ツール→バッファでポイントからバッファで領域(XmやYkmなど)を定める。座標系を変更(CRS→Projected System)しておく必要がある(理由については後日加筆します)。3)以下、同上。
下の画像は、筆者がQGIS上で夜間光データとインドネシアのSubdistrictの境界線データとDHS 2002-03クラスターの位置情報を表示させたものである。上の説明の(3)は、下の地図のポイントの内側にある各ピクセルに含まれている情報を計算することを意味する。領域を広くすれば、この表示されているポイントの面積も大きくなる。
データに位置情報(GPS)が含まれてるかどうかによって、2つの方法を紹介したが、GPSデータが利用可能でも3.1の方法で行う方が望ましい場合もあると思われる。研究デザインによって研究者が決定すればよい。
4 学術論文とデータ、関連記事の紹介
この説では衛星画像データを用いて開発経済学分野の実証分析を行っている論文をいくつか紹介する。最後に、学術論文以外の日本語と英語で書かれた記事を紹介する。また、本記事を執筆中に一度下書きが全て消え去り、再度執筆し直している。やる気を失ったため、この説は後日加筆をしていく予定であり、紹介する文献は少なくなっている。
レビュー・サーベイ
まず初めに読むのはDonaldson and Storeygard (2016, JEP)であると思う。実証分析の例と応用方法についてかなり網羅的にまとめている。具体的には、リモートセンシングデータを使用することの利点、開発経済学分野での応用例、データの種類と利用方法、種類別(気候、農業、天然資源、汚染など)の研究とデータの紹介、そして利用する上の注意点が紹介されている。興味がある部分や必要と思われるところだけ読むのもいいかもしれない。
少し環境経済学分野が中心になるが、Dell et al. (2014, JEL)、Greenstone and Jack (2015, JEL)、Hsiang and Kopp (2018, JEP)とBanzhaf et al. (2019, JEP)などが、衛星画像・リモートセンシングデータを利用した実証研究を紹介している。
大気汚染
Jayachandran (2009, JHR)は大気汚染の健康への影響を分析した代表的な論文である。彼女の分析結果から、1997年にインドネシアで起きた大規模な火災によって、子どもの死亡率が増加したことが発見された。同時期のインドネシアの火災による健康被害を分析した研究は近年でも行われている。Rosales and Triyana (2018, JHR)とTan-Soo and Pattanayak (2019, PNAS)は、1997年の火災による大気汚染を母親の胎内で経験と大人になってからの身長の間に負の相関があることを示した。大気汚染のデータはTOMSなどがある。
森林伐採
Burgess et al. (2012, QJE)では、1998年のインドネシア・スハルト政権の崩壊後に起きた州や郡の増加に伴う境界線の変更を自然実験とした分析を行った。郡の数が増えると賄賂の競争が高まり、結果として木材価格の定価と供給の増加が起き、違法地域での森林破壊が進んでいることを示した。
Berazneva and Byker (2017, AER P&P)は、森林破壊は地域の環境や生態系の破壊に繋がり、マラリアの宿主となる蚊の捕食生物がいなくなることなどから一時的にマラリア感染が増加するという熱帯医学の知見を元に、ナイジェリアで起きた森林減少とマラリア罹患の関係について分析した。分析結果から、森林伐採が子どものマラリア感染を増やしていることが発見された。
洪水・旱魃
Maccini and Yang (2009, AER)は降水量が教育、健康、社会経済指標に与える影響について分析した代表的な論文である。途上国(インドネシア)において、平均より多い降水量は、教育年数、健康状態、社会経済指標を向上させることが分かった。使用されている降水量データはGlobal Historical Climatology Network (GHCN)。
Shah and Steinberg (2017, JPE)では、インドの降水量の教育への影響を分析。
その他関連記事
岡部 (2017)では、開発経済学でのリモートセンシングデータ含むビッグデータの利用について解説されている。数少ない日本語記事。
経済セミナー 2018年8・9月号 いま知りたい開発の『開発経済学の潮流』(神戸大山崎先生)でも、衛星画像データを利用した実証研究が紹介されている。とても貴重な日本語記事。
Remotely Sensed Data for Efficient Data Collection -- Taking a Closer Look at Impact from Hundreds of Kilometers above the Earthでは、リモートセンシングデータを活用したインパクト評価について説明。上で紹介した記事の内容と重複している部分もあるが、インパクト評価に焦点を当てているため、違った視点からリモセンデータの活用を学ぶことができる。
世界銀行で働くデータサイエンティストのブログの衛星画像データの解析を行うために学んだことは、短い記事であるが、その中にQGISまたはPythonを用いて画像解析を行うのに必要なツールが紹介されている。実際に解析を行う際に初めに読んでおきたい良記事。
宙畑(Sorabatake)のアマゾンの違法伐採をぞくぞく発見!77カ国の森林を守るJICAの衛星システムがすごかったはJICAがJAXAとともに開発した森林の違法伐採を監視するシステムについて紹介。
内閣府衛星データをビジネスに利用したグッドプラクティス事例集についてでは、日本国内外のリモートセンシング衛星を利用した製品・サービスの中から、革新的なビジネスモデルをまとめている。これまで政府主導で進められてきた宇宙事業が民間主導にシフトしてきていることを踏まえ、この流れを加速し、宇宙産業や宇宙利用産業の拡大を目指している。
5 GISデータの可視化・地図の作成(Mapping)
可視化の例
「いい論文にはいい図表が使われている。」これは有名な教授が言った言葉ではない。筆者がたった今思いついた言葉だが、間違っていない気がする。
An Economist's Guide to Visualizing Data. Schwabish (2014, JEP)のようなものは存在するが、地図作成に特化した経済学者へのガイドなるものは見たことがない。たった1枚の地図を作成するのも骨の折れる作業だったりする。いくつかリモートセンシングデータを元に作成した地図を紹介する。
前節でも紹介したBurgess et al. (2012, QJE)は、森林伐採に関する複数の地図を論文内で紹介している。以下の図は、彼らの論文内に挿入されているインドネシアRiau州のハゲ山の地域を年毎に示している。図の赤色の面積が増加していることからは、毎年森林伐採が進んでいることが分かる。
可視化・地図の作成の方法
個人的にQGISを使うのはおすすめできない。プリントコンポーザというものを使用するのだが、非常にストレスフル。実際に触るとわかりるが、とにかく再現性がない。1.5節で触れたが、RやPythonでもshapefileを読み込むことができるため、どちらかの環境で行うのがベストプラクティスだと思う。
どちらも様々なパッケージが用意されているが、Rではsfパッケージなどでshapefileを読み込めるようにして、ggplot2またはtmapを使えばいろいろなタイプの地図を作成できる。次回以降の記事で、いくつか例をコードとともに紹介する。
Pythonに関しては、、入門したばかりなので、習熟してから追記したいと思う。
6 おすすめのGIS教材・資料
洋書、和書ともに何冊か目を通したことがあるが、残念ながら自分にとって分かりやすい本にであうことはできなかった。とりあえず分からないことがあればググって解決してた(いくつかGIS関連の講義も履修したが、実戦レベルではあまり参考にはならなかった)。いくつか便利(だと思われる)サイトや資料を紹介する。
下松先生の資料はArcGISを使わない場合でも、空間データ、リモートセンシングデータと実証分析について深く学ぶことができる。
GIS Analysis for Applied Economists Melissa Dell (2009)。同じくArcGISのノートだが、Chapter 1ではGISデータに関する基礎知識を学べる。
慶應・河端先生の教材。河端瑞貴(2018)『経済・政策分析のためのGIS入門①基礎 ArcGIS Pro対応』と『経済・政策分析のためのGIS入門②空間統計ツールと応用 ArcGIS Pro対応』の演習をYouTubeでデモンストレーションされている。こちらはしっかりと確認したことがないが、恐らくここで紹介するものの中で一番初学者にやさしい内容になっている。
Google Earth Engine for R。これまで、Google Earth Engine(GEE)はJavaScriptまたはPythonベースで解析を行う必要があった(前者はクラウドベース)。とりあえずPythonは分からないがRには抵抗がないなら、RでGEEに入門するといいのでは。実は私もR de GEEの勉強を始めたばかりだ。Pythonを使用する場合と同様、GEEのコードエディタを使わずにRStudioでデータにアクセス、解析することができる。勉強仲間募集中。
7 最後に
今後、自分の勉強を止めない為にも、学んだことをアウトプットする場所として定期的にこの記事を更新、もしくは新しい記事を書くつもりでいる。アフィ収入で光熱費の支払いをして生活しているので、よろしければ、他の記事のリンクからAmazonに飛んでお買い物をしていただきたいと思う。添付のリンクとは関係のない商品を購入しても私にお金が入るので。
どのようなコメントでも受け付けているので、感想・ご意見をお待ちしております。