株式会社日経リサーチ
7n10KOtZDowa.SEMuF4FkRPqSlWws0SBC7HRwZYdPA--.gif

母集団

母集団とは統計学における概念である。母集団に対応する概念は標本である。母集団と標本を区別することが重要で、標本から母集団を調べる統計的推測の理論が確立されている。標本調査は標本だけを調査するのだが、最終的に知りたい目標とする関心対象は、標本ではなくて、あくまでも標本の向こうにある母集団である。
母集団を示すには調査対象集団を定義することが必要である。実際の定義例を示す。
 
 例1 「2005年9月末現在で20歳~69歳の日本人男女個人」
 例2 「平成27(2015)年10月1日午前零時現在、日本国内に常住している者」
 
例1は学術的な社会調査として有名なSSM調査(2005年社会階層と社会移動調査の国内調査)の調査対象集団の定義である。例2は平成27年国勢調査の調査対象者集団である。
SSM調査の調査対象集団は約8400万人で、国勢調査の調査対象集団は約1億2700万人である。このように母集団は定義によって異なる[i]
SSM調査は母集団から14,140人を無作為抽出して調査対象者とする標本調査である。国勢調査は調査対象集団の全員を調べる全数調査(悉皆調査)である。
母集団は常に大規模とは限らない。「2016年1月1日現在で、日経リサーチの正社員」という母集団に従業員満足度調査を実施する場合、この母集団は小さい部類になり、全数調査が十分に容易で可能である。マーケティング調査で「新製品Xを発売日の○月×日から一週間以内に都内の店頭で購入した消費者」という母集団は、小さい場合も大きい場合もあり得るが、小さい場合であっても調査対象集団を見つけて調査依頼することが(小さいが故に)非常に困難な場合もある。
 
<母集団と調査対象集団>
母集団を構成する個々の対象のことを一般に、要素(element)あるいは単位(unit)という。マーケティング調査、社会調査、世論調査など母集団の要素がヒトの場合に、調査対象集団は具体的に実在する集団であるが、母集団は統計学における抽象的概念である。しかし調査対象集団の個々の対象者と、母集団を構成する要素は一致している。
母集団と調査対象集団を厳密に区別する場合があるが[ii]、ほとんどの場合に同一の意味で使用して問題は生じない。しかし、母集団と標本は区別し、決して混同してはいけない。
 
<母集団と標本>
母集団から標本を抽出する方法はいくつか考えられるが、確率で抽出すると統計理論を利用して、標本から母集団を科学的に推測することができる。母集団のすべての要素を確率的に抽出する方法を無作為抽出という。標本の値は母集団の値と同じであるとは限らず、誤差を伴っている。どの程度の誤差(精度)かを統計学的に評価できる。
 
popu.png

<母集団の種類>
 ・目標母集団と枠母集団
標本調査の結果から推定したい母集団を目標母集団( the target population )という。実際に標本抽出をする標本抽出枠(母集団の要素を記述したリスト等)は、目標母集団と完全には一致していない場合があり、これを枠母集団( the frame population )という。あるいは抽出母集団( the sampled population )、調査母集団(the survey population)ということもある。
例1のSSM調査の目標母集団は定義のとおりであるが、標本抽出枠としては有権者名簿を使った。従って70歳以上も記載されており、これらは適格な要素ではなく「余分」である。実際、SSM調査の有権者名簿には102,457,494人が掲載されていた[i]。目標母集団の約8400万人との乖離は1800万人余もある。
逆に「不足」の例もある。世論調査を電話法で実施する場合、固定電話番号でRDDサンプリングを適用するとしたら、固定電話を契約していない有権者は決して抽出されず、この標本抽出枠には「不足」がある。実はRDDサンプリングでは「余分」もある。事業所用の電話番号や非使用番号も含まれているからである。
目標母集団と枠母集団の乖離をカバレッジ誤差という。特に不足の場合を「アンダーカバレッジ」という。余分な要素が含まれていても除外すればよい。しかしアンダーカバレッジには手立てがないという意味で、より深刻な誤差である。

 ・有限母集団と無限母集団
この区別は理論的な背景を持っているが、調査を実施するうえで考慮が必要になることは、ほぼ無い。
例1・例2の母集団の要素は有限個であり有限母集団という。要素が無限個であれば無限母集団という。たとえば実験や品質管理である。ある商品の広告作品をAとBの2種類作成しておき、WEB上で一定期間、AとBを無作為に表示し、広告終了後のAとBのルート別販売量を比較して広告効果を検定する。この実験計画の母集団は広告A・Bの無限回の表示試行を母集団として仮想している。製品の抜き取り品質検査も、製造工程が無限に継続することを想定した無限母集団である。投賽実験も、出目は有限の6個であるが、投賽試行は無限回を想定することが可能であり無限母集団である。
有限母集団は標本調査にあるように、実在的である。無限母集団は実験計画でよくあり、仮想的・仮説的である。有限母集団から標本抽出すると、母集団はしだいに小さくなって最後はなくなってしまう。無限母集団からは、どれだけ標本を抽出しても母集団の大きさは変化しない(無限にいくら足そうと、無限からいくら引こうと、結果は無限である)。無限母集団からの標本抽出は互いに独立となり、理論的には標準誤差の計算に影響する。
しかし、1億人の有限母集団から千人を抽出しても、結果に影響はほぼ無い。これは標準誤差の計算について述べれば、有効桁数で同値を得るという意味で、影響は無視できるということである。
なお、有限母集団と無限母集団は、復元抽出と非復元抽出に密接に関係している。有限母集団からでも復元抽出すれば母集団は変化しないからである。しかし、これも1億人の有限母集団から千人を、復元抽出しようと非復元抽出しようと、結果への影響はほぼ無い。
 
<populationと母集団>
母集団という用語はpopulationの和訳である。英語のpopulationは人口とか住民という意味であり、統計(statistics)が国家・政治活動(state)から始まったことを示唆している[i]
母集団は直訳ではない。漢字の母の意味はmotherではなく「そこから何かを生じさせるもとになるもの」という原意で、母校とか酵母という使い方と同じである。
母集団とは「そこから標本を生じさせる元になる」集団、という意味である。直訳ではなく、現在の統計学的な意味で、正しい日本語に翻訳したといえる。

-------------------------------------------------------------------
 国勢調査の調査票は世帯ごとに配布されるので、約5300万世帯を調査対象集団とみなすこともできる。
母集団と調査対象集団を厳密に区別することを強調したのは林知己夫(戦後の標本調査を確立した権威的存在で、統計数理研究所長など要職歴任)である。その説明は理解できるものの、多くの人々にとって分かりにくいであろう。調査対象集団と母集団の要素は、まったく同一であっても、個々の要素に確率を付与して抽出計画を設定すると調査対象集団は母集団となる。確率の与え方によって、調査対象集団は一つでも、母集団は複数あり得る。たとえば企業を調査対象集団とする場合、すべての企業に等しい確率を付与することもできるし、企業規模に応じて異なる確率を与えることもできる(大企業には大きい抽出確率を与えるなど)。

[i] 三輪哲・小林大祐編(2008)「2005年SSM日本調査の基礎分析―構造・趨勢・方法―」.2005年SSM調査研究会.
[ii] Statisticsに統計という訳語を与えたのは箕作麟祥といわれている(統計学辞典)。訳語の是非については森鴎外「統計ニ就テ」「統計ニ就テノ分疏」なども参照。populationに母集団という訳語を与えたのが誰かは確認していない。

その他のリサーチ用語