散布図
こんにちは、くまごろうです。
グラフの使い方の基本編も最後となりました。
最後は散布図です。
これまでにご紹介した棒グラフ、折れ線グラフ、積み上げ棒グラフと比較すると、ちょっと取っ付きづらいところ、あるかもですね。
僕も分析にたずさわるまでは、ちょっとわかったようなわからないような、って感じでした。
でも、使い方がわかると、これほど便利なツールはないなあと思います。
では、さっそく行ってみましょう。
散布図の使い方
- 複数の観察対象について、2つの軸の属性値から観察し、グラフ上にプロットする。
- プロットした様子から、2つの軸の関係性を観察する。
散布図のサンプル
今回も総務省さんの家計調査からもってきました。
ここでは「都道府県庁所在市及び政令指定都市」という観察対象について、「まぐろの購入数量」と「まぐろの支出金額」の関係性を、散布図でみています。
そうそう散布図を描くときに大事なことはy=axを意識することです。
y軸には答えとなる値を、x軸には答えを説明するための値を。
金額は数量☓単価で決まるので、ここではy軸に「支出金額」を、x軸には「購入数量」としています。
この図ではきれいに購入数量が大きいほど、支出金額が大きいことが見えています。
一番右上のちょっと離れている点は静岡市で、購入数量は6.2kg、支出金額は1.3万円。いっぽう一番左下は長崎市で、購入数量は0.4kg、支出金額は860円。
同じ日本でも食べる量、費やすお金にこれだけの差があることがわかります。
さて、もう少し突っ込んで考えてみましょう。
先ほど「 y = ax 」というお話をしました。
そして、「 支出金額 = 購入数量 ☓ 単価 」の関係から、この散布図にしました。
総務省さんの資料には「支出金額」と「購入数量」が用意されています。
でもここで疑問に思う方もいると思います。
「 単価は全国的に同じなの?違うの?」と。
鋭いです。
データ分析を行うときに大事なことは、基準を揃えることです。
今回のケースでは、たとえば「支出金額の大きさは、単価に関係しているのでは?」という仮説が立てられます。
つまり「 支出金額 = 購入数量 ☓ 単価 」にもとづき、単価に着目して、支出金額への関係性をみてみる、と仮に考えてみる、ということですね。
では、散布図にしてみます。
さっきの散布図とはだいぶ様子が変わりました。
点々が一列に並んでいませんね。
単価で150円から250円くらいの間に集中しています。
支出金額で一番大きい静岡市の100gあたり単価は216円。支出金額が一番小さい長崎市でも単価は212円。購入量が違っても単価はほとんど差がありません。
一番高くまぐろを買っているのは松江市で270円。
一番安く買っているのは那覇市で169円。
100g、210円くらいが日本のまぐろの平均的な価格で、170円から270円の間に単価がばらけている、ということなんですね。
では、この最小から最大まで100円程度のばらけかたが大きいのか小さいのか、それを調べるために、他の品目でも同様の分析を行います。
そうしてはじめて、まぐろの単価が全国でばらついているのか?それとも均等に近いのか?ということが見えてきます。
それはまたの機会にご紹介します。
では、今回のまとめです。
まとめ
- 散布図は複数の観察対象について、2つの軸の関係性を観察する。
- グラフにするときは「y=ax」を意識する。
- さまざまな軸からyを説明する軸をみつめることで、関係性をより深く理解できる。
さて、グラフの基本はこれで終了です。
僕自身、分析をレポートするときに使うグラフは、この4つでほぼ事足りています。
これ以上のことや、3次元などに手を出すと、まず相手に伝わりません。
なので、まずはこの4つを使い込むことが大事です。
次回からはグラフの描き方、見せ方についてお話します。
それでは、また。