株式会社日経リサーチ

テキストマイニング

テキストマイニングとは、文章を定量的に扱うための分析手法であり、アンケートの自由記述や、コールセンターへの問い合わせ内容、TwitterなどSNSでのクチコミ分析といった分野で活用されている。
日本語の文章を定量的に扱うためには、文章を単語単位に分割し、過去形などの変化も戻して同じ言葉として集計できるようにする必要がある。この手法を形態素解析と呼ぶ。この形態素解析の精度が良くなってきたことから様々なソフトウェアが登場し、広く使われるようになった(図1)。分析の際には、この形態素解析に加え、単語間の意味的なつながりをみる、係り受け解析(構文解析とも呼ぶ)がセットで使われることが多い。
なお、英語にも形態素解析はある。英語は区切り位置ははっきりしているので、活用で変化した単語を元に戻す箇所が対象となる。例えば、children→childの複数形、ate→eatの過去形といった変換をする。
 
図1.形態素解析の例(オープンソースの形態素解析エンジン、MeCab 1を利用した場合)
  
text_m1.png


<利用に適している活用シーン/適していない活用シーン>
テキストマイニングが向いているのは、大きくは以下の2点である。
 
全体像を把握する:
大量の文章があったとき、どのような話題が多いのか“ざっくり”と把握する
特徴を抽出する:
(現在はまだ件数は少ないが)増加している不満や、年代別の観点の違い等について「ヒント」を探す 
 
いずれも “正確に”集計することには向いていないことに注意が必要である。例えば、あるお菓子への不満が書かれたアンケートデータがあるとする。「味」について書いているのか、「パッケージ」についてなのか、「値段」についてなのかを正確に分離することは難しい。これは現在主流となっている分類方法が、特定の単語の有無で判定しているため、「様々な言い回しができる話題」と、「言い回しがおおよそ限られている話題」とで、分類の精度とカバーできる範囲が変わってしまうためでる。
例えば、「味」グループは、「味」「美味しい」「まずい」といった単語を含んだ文章でグループをつくる。すると、「適度な辛さが最高」といった文章は漏れることになる。そこで今度は漏れないように「辛い」「うまい」といった単語を含む場合も「味」グループに追加する。すると今度は、「小遣いが少ないので値上げは辛い(つらい)」「CMの作り方がなかなかうまい」等が「味」に入ってしまう。一般に見落としを減らすためにルールを増やすと、精度は落ちる。
 
<全体像を把握する例>
図2は、アンケートで聞いた「店舗についての不満」をテキストマイニングツールのひとつである「見える化エンジンで分析したものである。詳細は省略するが、青色の丸で繋がった単語がよく書かれるトピックを表し、緑の丸とセットで読み込むことで、どのような文脈で書かれているのかを大よそ理解することができる。人の目で1件ずつ自由回答を読み、文章の全体像を把握するには長い時間がかかる。このように同一文章内での単語間の関係を含めてみることで、短い時間で全体像を把握しつつ、単語の含まれる実際の文章にまで目を通すことで、時間が短縮できる。
 
図2.ストアサービスブランド調査、店舗についての不満の自由回答
 
text_m2.png
 
<特徴を抽出する例>
図3では、図2の店舗に対する不満に関して、さらに男女別にどのような違いがあるのかみたものである。「男性が女性よりも多く書く単語」、「女性が男性よりも多く書く単語」をそれぞれ、「男性」、「女性」の丸と繋いで描画している。ここから、女性は「店員」「態度」「丁寧」など接客に関する不満をよく書くことが多く、一方、男性は「品質」「アフターサービス」など、商品そのものや、その後のサポートの記載が多いことがわかる。
ここから、店舗側では「では、不満に思われる店員の態度は?」というように事例を社内で共有する方法もあるだろうし、さらに女性に絞って、今度は年代別の違いをみることで世代による不満の違いを把握するといった形で分析を掘り下げていく場合もあるだろう。
 
図3.ストアサービスブランド調査、図2の不満を男女別の特徴に分けたもの
text_m3.png
 
テキストマイニングは、件数の見方に注意が必要となる。選択肢に回答する形式の調査における「3人」という数字は通常、あまり意味を持たないが、どんな言葉を選んでも良い純粋想起、自由回答という形式のもとで、特定の単語を「3人も」選び、使ったということは、大きな意味を持つ場合がある。同じ3件という件数でも、背景の相違を考慮する必要がある。
 
http://taku910.github.io/mecab/
現在主流の「単語の有無」で判断して分けることには限界があるという意味。将来は、機械学習の高度化により、かなり正確な分類ができるようになることが見込まれる。
株式会社プラスアルファ・コンサルティング社が提供するテキストマイニングサービス(http://www.pa-consul.co.jp/mieruka/)

その他のリサーチ用語

当サイトでは、利用者が当サイトを閲覧する際のサービス向上およびサイトの利用状況把握のため、クッキー(Cookie)を使用しています。当サイトでは閲覧を継続されることで、クッキーの使用に同意されたものとみなします。詳細については、「当社ウェブサイトにおける情報収集について」をご覧ください。