くまのつぶやき

かんがえる、きめる、はかる、つくる、つたえるにまつわるスキルやテクニックを書いてます。ときどき、はたらきかたとか、気になったこととかも。

散布図

こんにちは、くまごろうです。

グラフの使い方の基本編も最後となりました。

最後は散布図です。

これまでにご紹介した棒グラフ、折れ線グラフ、積み上げ棒グラフと比較すると、ちょっと取っ付きづらいところ、あるかもですね。

僕も分析にたずさわるまでは、ちょっとわかったようなわからないような、って感じでした。

でも、使い方がわかると、これほど便利なツールはないなあと思います。

では、さっそく行ってみましょう。

散布図の使い方

  • 複数の観察対象について、2つの軸の属性値から観察し、グラフ上にプロットする。
  • プロットした様子から、2つの軸の関係性を観察する。

散布図のサンプル

 

f:id:kumabro:20140211132913p:plain

 

 

今回も総務省さんの家計調査からもってきました。

ここでは「都道府県庁所在市及び政令指定都市」という観察対象について、「まぐろの購入数量」と「まぐろの支出金額」の関係性を、散布図でみています。

 

そうそう散布図を描くときに大事なことはy=axを意識することです。

y軸には答えとなる値を、x軸には答えを説明するための値を。

金額は数量☓単価で決まるので、ここではy軸に「支出金額」を、x軸には「購入数量」としています。

 

この図ではきれいに購入数量が大きいほど、支出金額が大きいことが見えています。

一番右上のちょっと離れている点は静岡市で、購入数量は6.2kg、支出金額は1.3万円。いっぽう一番左下は長崎市で、購入数量は0.4kg、支出金額は860円。

同じ日本でも食べる量、費やすお金にこれだけの差があることがわかります。

 

さて、もう少し突っ込んで考えてみましょう。

先ほど「 y  = ax  」というお話をしました。

そして、「 支出金額 = 購入数量 ☓ 単価 」の関係から、この散布図にしました。

 

総務省さんの資料には「支出金額」と「購入数量」が用意されています。

 

でもここで疑問に思う方もいると思います。

「 単価は全国的に同じなの?違うの?」と。

鋭いです。

データ分析を行うときに大事なことは、基準を揃えることです。

今回のケースでは、たとえば「支出金額の大きさは、単価に関係しているのでは?」という仮説が立てられます。

つまり「 支出金額 = 購入数量 ☓ 単価 」にもとづき、単価に着目して、支出金額への関係性をみてみる、と仮に考えてみる、ということですね。

では、散布図にしてみます。

f:id:kumabro:20140211133249p:plain

さっきの散布図とはだいぶ様子が変わりました。

点々が一列に並んでいませんね。

単価で150円から250円くらいの間に集中しています。

支出金額で一番大きい静岡市の100gあたり単価は216円。支出金額が一番小さい長崎市でも単価は212円。購入量が違っても単価はほとんど差がありません。

一番高くまぐろを買っているのは松江市で270円。

一番安く買っているのは那覇市で169円。

100g、210円くらいが日本のまぐろの平均的な価格で、170円から270円の間に単価がばらけている、ということなんですね。

では、この最小から最大まで100円程度のばらけかたが大きいのか小さいのか、それを調べるために、他の品目でも同様の分析を行います。

そうしてはじめて、まぐろの単価が全国でばらついているのか?それとも均等に近いのか?ということが見えてきます。

それはまたの機会にご紹介します。

では、今回のまとめです。

まとめ

  •  散布図は複数の観察対象について、2つの軸の関係性を観察する。
  • グラフにするときは「y=ax」を意識する。
  • さまざまな軸からyを説明する軸をみつめることで、関係性をより深く理解できる。

さて、グラフの基本はこれで終了です。

僕自身、分析をレポートするときに使うグラフは、この4つでほぼ事足りています。

これ以上のことや、3次元などに手を出すと、まず相手に伝わりません。

なので、まずはこの4つを使い込むことが大事です。

 

次回からはグラフの描き方、見せ方についてお話します。

 

それでは、また。

 

copyrights kumagorou all rights reserved.