株式会社日経リサーチ

分散

分散とはデータのバラツキ・散らばりの程度を表現する統計量である。分散の定義式は簡単に書けるが、分散の意味を考えよう。
後述するように調査データ分析においては、調査設計にも直接的に関係する重要な統計量である。分散は調査・統計にとって「情報」とほぼ同義である。
 
下に3つのデータ(A、B、C)がある。いずれもデータの件数は5である。

<データA>
bunsan1.png
<データB>
bunsan2.png
<データC>
bunsan3.png
直観的にデータAよりも、Bの方が「分散が大きい」と納得できるであろう。そして、データCには分散がない、データCは散らばっておらず、すべて同じ値になっている。すなわち分散0である。これも納得できるであろう。
分散という指標をどのように定めるべきか考える。たとえばデータAとBの分布をみて、Bのバラツキの方が大きいことが直観的に分かったが、それはなぜか。Aは1から5の間でばらつき、Bは1から9の範囲に散らばっているからである。素朴な表現はレンジ(範囲)を考えることであろう。Aのレンジは5-1=4であり、Bは9-1=8なのでBの方が大きいという指標になっている。
しかし簡単には欠点がつきものである。以下のデータのレンジはすべて同値であるが、一見すれば異なる分布状況だと分かる。レンジがこの相違を表現できない理由は、最小・最大の両端の2点の情報しか使っていないからである。
bunsan4.png
bunsan5.png
bunsan6.png
そこですべてのデータの情報を利用することを考える。レンジにおいてもそうであったように、バラツキの指標を求めるのは、どこかに基準点が必要であり、その基準点からみて各点がどのように散布しているかを定義することで計算可能になる。分散はその基準点を平均値とするものである。
disp3.png
データAが表に示してあるので、分散の計算を、説明の冗長を避けずに、逐一追いかけてみよう。データAの列の下行には平均値が3、分散が2であると、既に計算結果が示されているが、「偏差」「偏差平方」の2列が、その計算過程を説明するために用意されている。

平均値を基準点とするという意味は、すべてのデータ(ここでは5件)について平均値を引くということである。これを偏差ないし平均偏差という。すなわち平均からの離れ具合を計算していることになる。平均値は3だから、1件目のデータ値1の偏差は1-3=-2である。 

偏差の合計が下段に0と示されている。従って偏差の平均も0である。実は平均からの偏差和は必ず0になるので当然の結果だが、これを分散と定義すれば、分散は常に0になってしまい、無意味である。 

常套手段として偏差を二乗(平方)する。それが「偏差平方」の列に計算されている。偏差平方の合計は10、平均は2であり、まさにこの「2」が分散である。偏差平方和のままでは、データ件数が増えるほど値が大きくなるので、比較に不便となる。したがって偏差平方和をデータ数(5)で割る、つまり偏差平方和の平均こそが分散である。 

以上の計算過程をまとめて分散(S2)を数式で書けば以下のようになる。
disp.png
この数式は、説明の繰り返しになるが、データx平均mを引いて(偏差)、その二乗を全部足して(Σ)、nで割る(平均を求める)――と述べている。 

<調査の失敗> 
「分散とは情報そのものである」と述べたが、その意味を調査の場合で考えてみる。 

極端な事例。30歳以上の日本人を対象とした調査で「あなたは成人ですか」と質問したら、全員が「ハイ」と回答し、分散0となった。ここに情報はない。 

「携帯電話で通話できることに満足ですか」と質問したら「1.満足」に回答が集中し、「2.やや満足」~「5.不満」への反応がなかった、という結果になるだろう。予期せず、実は自明だった質問を作ってしまうと、回答データの分散が極端に小さくなる危険があり、調査結果の分析から得られる知見は貧困になる。 

<分散と平均> 
「平均を引く」操作を中心化という。引いた結果は平均からの偏差という。中心化という用語の背景には、平均値を0にそろえるというイメージがある。どのようなデータであっても、平均をひいた(中心化した)データの、つまり平均偏差の平均値は0になるからである。平均値ではない別の値による偏差平均の絶対値は、必ず0より大きい値となる。 

平均ではない、何か別の値を引いたらどうなるかやってみよう。 
disp.png
この分散の式のmのところに、平均値3以外の値を、実際に1~5の間でいろいろな値を代入した結果が下のグラフである。 
disp2.png
このグラフから分かるように、m=3の時に、縦軸の値が最小値となる。つまり、平均値とは(s2 )を求めた時、あらゆる値のうちで(s2)が最小となるような値のことである。これは「平均値とは何か」を考える際に、たとえば「平均値とは重心である」という物理的な解釈とは別の、理論的な見地から解釈したということである。 

このような、平方和あるいは平均平方が最小になるような方法を、最小二乗法という。統計モデルを構成する際に、よく利用される方法である。 

その他のリサーチ用語

当サイトでは、利用者が当サイトを閲覧する際のサービス向上およびサイトの利用状況把握のため、クッキー(Cookie)を使用しています。当サイトでは閲覧を継続されることで、クッキーの使用に同意されたものとみなします。詳細については、「当社ウェブサイトにおける情報収集について」をご覧ください。