1. ホーム
  2. データ活用塾
  3. オープンデータ活用講座
  4. 2.オープンデータの活用(2)
根拠に基づく将来予測
オープンデータ活用講座

2.オープンデータの活用(2)

オープンデータの種類

 データの分類には、大きく2つの方法があります。

分類や種類を区別するための「質的データ」と数値として意味のある「量的データ」

一つは、データそのものの性質によって分類する方法です。
分類や種類を区別するための「質的データ」と、数値として意味のある「量的データ」がこれにあたり、データを評価する基準「尺度水準」によって4つに分類されます。
これは、統計学ではよく使われています。
種類定義尺度水準
質的データ数値で直接測定不可
(分類や種別の区別)
名義尺度性別、都道府県、製品名など
順序尺度順位、満足度、職位など
量的データ数値で直接測定可能間隔尺度時刻、温度、日付など
比例尺度身長、体重、金額など

「公開データ」と「非公開データ」 / 集計前の「RAWデータ」と集計後の「集計データ」

もう一つの分類法は、データの置かれている状況や扱われる状況による分類です。
データの公開・非公開で分類すると、オープンデータは「公開データ」であり、それ以外は「非公開データ」となります。
また、集計処理を行う前後では、処理前が「RAWデータ」で、集計後が「集計データ」となります。「集計データ」は、データ処理を連想させる「加工データ」、「処理データ」等の名称もあります。さらに、データが大量になるとビッグデータとなります。
 このように、オープンデータとは、公開できる状況に置かれたデータのことであり、他の状況と重なる場合もあります。たとえば、RAWデータでオープンデータもあり得ますし、ビッグデータでオープンデータもあり得ます。

個人情報や企業情報を含むデータの取り扱いに注意

 これら分類法とは別に、個人情報や企業情報などは情報を保護する必要があります。
そのため、公開データであるオープンデータに個人情報や企業情報などは含まれていません。
しかし、それ以外のデータには、個人情報や企業情報が含まれている可能性があるため、取り扱いには注意が必要です。

データ分類のまとめ

● データ細目の性質による分類
  ・ 「質的」か「量的」か
● データ全体の状況による分類
  ・ 「公開」か「非公開」か
  ・ 集計前の「RAWデータ」か「集計データ」か

オープンデータの使用で注意すべきこと

 オープンデータのうち「RAWデータ」に関しては、目的を明確にし、目的に適合した処理や分析を行った場合、目的にあった使われ方が実現できます。
 しかし、「集計データ」の場合、集計の目的は「集計データ」の「作成者」が決めます。そのため、オープンデータを使用する際は、「集計データ」の「作成者」と「使用者」の目的が一致しているかが問題となります。また目的は一致していても、集計時の分類法(カテゴリー)が違うとこれも問題となります。
 たとえば、「ある地域でどのようなものが買われているのか」を調べようとするとき、インターネット上の政府統計ポータルサイト「e-Stat」で調べると、「家計調査」と「全国消費実態調査」が使えそうだということがわかります。
そこで各々の目的を調べると、次のようなことがわかってきます。
「家計調査」は、「全国平均の家計収支の時系列の動きを明らかにすること」にあるため、調査規模が約9,000世帯と小さく、詳細な構造分析を行うことができません
「全国消費実態調査」は、「家計の構造明らかにすること」にあるため、調査規模を約56,400世帯(うち単身世帯約4,700世帯)とし、年間収入階級別、世帯主の年齢階級別などの各種世帯属性別、あるいは地方別、都道府県別など、地域別に家計の実態を明らかにしています。
このため、「全国消費実態調査」を使用する方が適切だと思われます。
 しかし、ここでわかることは、買われている物の傾向であり、商品まで特定することはできません。たとえば、牛肉が多く買われていることはわかっても、神戸牛なのかどうかはわからないわけです。年齢階級別に見ることも可能ですが、30歳未満と30歳以上は10歳ごとの階級になっているので、5歳ごとの階級では見ることができません。
 また、我々が独自で同じような調査を行って「全国消費実態調査」と比較しようとした場合、品目の分類を同じにする必要があります
 このように、オープンデータ(集計データ)を使用する場合は、その集計目的やカテゴリーに注意する必要があり、場合によってはそのままでは使用できないこともあります。

オープンデータの限界

 前節で説明したように、オープンデータの活用には注意を払う必要があります。
たとえば、「近年増加している医療費」について考えてみましょう。「増加の原因はどこにあり、我々の地域では将来どれくらいの額になるのか」というテーマを設定し、オープンデータを使用すると、どこまで分析できるのかを検証してみます。
 このテーマについては、全体的に増加している医療費のうち、「どのような病気の医療費が増加しているのか」・「どのような病気の患者が増えているのか」・「どの年代が病気にかかりやすいか」などを分析し、医療費増加に影響を与えている病気を特定し、その病気の予防策を策定する必要があります。

「国民医療費」と「患者調査」を使った分析

 これらの分析をオープンデータで行うためには、e-Statの「社会保障・衛生」分野の「国民医療費」と「患者調査」のデータを使用するのが適当です。 今回は、この中でも「傷病別・年齢階級別・年次別」のデータを使用します。
(「国民医療費」の13表「医科診療医療費,入院-入院外・年齢階級・傷病分類・年次別」と「患者調査」の上巻にある「総患者数,性・年齢階級×傷病分類別」のそれぞれ平成14年・17年・20年・23年・26年のデータを使用:下図参照)


図1 傷病分類別年齢階級別医科診療医療費


図2 傷病分類別年齢階級別総患者数

 この2表を年次別に比較します。比較するにあたって、傷病名や年齢階級(表頭・表側)を同一にする必要があります。
傷病名については、ローマ数字で表記されている部分(大分類)は同一ですが、再掲の部分で違う箇所があります。
また、年齢階級については、「国民医療費」では大きく分類されており、「患者調査」では、ほぼ5歳刻みになっています。
これらを同一にするためには、傷病名で「国民医療費」・「患者調査」ともにないものを削除します。また、年齢階級は大きいものを細かく分解できないので、大きいもの(「国民医療費」)に合わせます。合わせるにあたっては、「患者調査」の各階級を、対応する「国民医療費」の階級で加算しなければなりません。
これを分析する年度ごとに行うと分析データは完成します。
分析する年度については、「国民医療費」は毎年調査が行われ、「患者調査」は3年おきに調査が行われるため、「患者調査」に合わせる必要があります。
5回分の調査を分析対象とすると、直近の患者調査は平成26年なので、対象データは次の年になります。
対象データ:平成14年・17年・20年・23年・26年
 これらを加味した表が、下図になります。


図3 傷病名・年齢階級を合わせた国民医療費の推移(平成14年~26年)


図4 傷病名・年齢階級を合わせた患者数の推移(平成14年~26年)

 これらの表から、医療費や患者数の多い傷病を特定したいと思います。このために、年度ごとの変化がわかる折れ線グラフで傷病ごとの医療費と患者数を表示します。
(すべての年齢の合計で表示します)


図5 傷病名・年齢階級を合わせた国民医療費の推移(平成14年~26年)をグラフ化

 医療費については、「循環器系の疾患(090)」と「新生物(020)」が多く、特に「新生物(020)」は確実に増加していることがわかります。



図6 傷病名・年齢階級を合わせた患者数の推移(平成14年~26年)をグラフ化

 患者数については、「循環器系の疾患(090)」と「消化器系の疾患(110)」が多いのがわかります。医療費で高額だった「新生物(020)」は、患者数は増加していますが、それほど多くありません。患者一人当たりの医療費が高額だと思われます。


 患者一人当たりの医療費は、傷病ごとに医療費を患者数で割ると求められます。
(図3の各セルを図4の対応するセルで割ります)
求められたものをグラフ化すると下図のようになります。


図7 患者一人当たりの医療費をグラフ化

 「新生物(020)」は高額なのは予想できますが、「周産期に発生した病態(160)」はそれ以上に高額で、急増の度合いが高いことがわかります(「周産期に発生した病態(160)」は、医療費全体の割合からは小さいが、病院や患者にとっては課題となる可能性があります)。


「限界」を作っている要因

 以上のことから、高額な医療費を必要とする傷病や患者数の多い傷病が特定できます。
 しかし、何歳くらいから多くなるのかについては、65歳以上ということは分析できても、それ以上はできません。これは、分析データとして使用した「国民医療費」の年齢階級が細かく分かれていないからです
 また、過去10年間の変化を調べたいということに対しても、患者調査が3年ごとに行われるため、患者数についてはできません。この他、都道府県別のデータがないため同様な分析を行うこともできません
 「e-Stat」などのオープンデータは、このようにできないこともありますが、国の傾向を示しているものなので、国と各自治体との比較により有意義な結論を見出す可能性があります。
たとえば、都道府県独自で傷病別の医療費や患者数の調査を行い、その結果と「e-Stat」のデータを比較して違いを見出し、その原因を調査することにより医療費削減を実現できる可能性があります。
紹介ならびに使用したデータは、政府統計ポータルサイト「e-Stat」から入手できます。
政府統計ポータルサイト「e-Stat」
家計調査
全国消費実態調査
国民医療費
 (使用データ:平成14年・17年・20年・23年・26年の13表「医科診療医療費,入院-入院外・年齢階級・傷病分類・年次別」)
患者調査
 (使用データ:平成14年・17年・20年・23年・26年の上巻「総患者数,性・年齢階級×傷病分類別」)
< 1.オープンデータの活用(1)
3.オープンデータの活用(3) >


オープンデータ活用講座トップ

はじめに

  • 「より公共性の高い話題」を採用
  • 「オープンデータ」とは
  • Excelで実現!オープンデータ活用

1.オープンデータの活用(1)

  • オープンデータの定義
  • オープンデータの活用法

2.オープンデータの活用(2)

  • オープンデータの種類
  • オープンデータの限界

3.オープンデータの活用(3)

  • RAWデータの活用
  • 将来予測

4.人口統計

  • 人口統計の重要性
  • 人口推計の仕組み
    (人口方程式、コーホート分析)
  • 将来人口推計ツール

5.社会保障

  • 社会保障とは
  • 社会保障関係のオープンデータ
  • 医療費の現状

6.医療費の将来推計

  • 県の医療費の将来推計
  • 対策の考察

7.ビジネスで活かすオープンデータ(1)

  • 現在活用できる
    オープンデータの紹介
  • 人口を使ったデータ分析例

8.ビジネスで活かすオープンデータ(2)

  • ビジネスにおける
    オープンデータの活用例
    • 売れ筋商品の推測
      (人口構成データと
      アソシエーション分析の融合)
    • 店舗出店計画、
      店舗拡張/縮小計画
    • 医療分野における
      アソシエーション分析
 
 
ビッグデータの分析に最適!無料で使える【Adam-WebOLAP 無償版】
 
 
【好評発売中】

Excelから始めるビッグデータ分析