テキストマイニングについて|Excel(エクセル)で学ぶデータ分析ブログ

■テキストマイニングとは?

Wikipedia より(一部編集)
“テキストマイニング(text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。”

アンケートを実施する際、必ずと言っていいほど自由記述の項目が設定されます。

20150728_img_01

あえて「質問項目」を設定しないことで自由に書いてもらう。こういった手法は想定外の情報を得るためには有効な手法といえます。

ただ、10~50件程度であれば手作業でも把握ができますが、100件、500件、1,000件の回収となりますと
当然のことながら読み解くことが難しくなってきます。

そういった場合にテキストマイニングという手法が活用されますのでご紹介致します。


■文章を単語化する「分かち書き」

文章の構成は
「文章、段落、文、文節、単語」といった感じで細かくすることができます。
また、自由記述は内部に含まれる量によって
文章/1回答のものもあれば、文/1回答のものもあります。

20150728_img_02

文程度の情報量のデータであれば、単語レベルに細分化して
「○○|だった|。」
「△△|でした|!」
といった感じで、後は頻出単語を集計して「どんなキーワードが用いられていました」と評価することができます。
こういった単語を切る処理を分かち書きと呼びます。

20150728_img_03

数値化さえしてしまえば、相関係数を取ったり、距離を測ってクラスター分析に掛けたりといろいろ処理が可能になりますね。
「○○」という単語の後に「だった」という単語が使用されることが多く、相関係数は「0.59」とやや強めの正の相関があった。という評価も可能となります。

相関係数

20150728_img_04

●クラスター分析

20150728_img_05

●主成分分析のV1、V2を使用した散布図

20150728_img_06

もちろんこういった評価で終えることもできますが、個人的には疑問が残ります。
「○○」の後に「だった」という記述が多いことはわかったけれど、それがイベントの満足度とどう関係しているのだろうか?


■キーワードを分かち書きしても終わりではない!?

分析の目的は「単語と単語の相関性を知りたい!」ということではなく、「アンケートの評価を記述から読み解きたい!」点にあることを忘れてはいけません。もっと言うと、単語間の相関性なんて興味ありません!
ナレッジモータースの新車展示会の感想を集計しました。

20150728_img_07

キーワードレベルでの集計を行った場合、「乗ったのか、見たのか」をカウントすることは可能です。
数字だけをみれば「乗→4、見→2」なのでほとんど乗りましたね。と評価ができると思います。
ただ、文章をよく読むと、良い意味でも悪い意味でも使われていることがわかります。
あるいは、乗という単語も「乗れた、乗れなかった」とニュアンスが異なり、さらに満足か不満かのまったく異なります。
※例文はいやらしい感じの仕上がりですが、実際に業務で扱う内容は上記のような文章ばかりです。

20150728_img_08

じゃあこうすれば「乗×よかった=3人で、見×よかった=4人とカウントできるじゃないか、と言われれば間違いではありませんが、「乗」も「見」も「よかった」も「よくなかった」も混在している回答もありますね。正確な評価とは言いがたいです。

20150728_img_09

こういう評価ならいかがでしょうか。文程度の内容であれば円グラフ化も可能です。

20150728_img_10

また、文章レベルになった場合は、1つの記述内でいくつか評価要素が混在するので複数回答的な加工を行えば棒グラフでも評価ができますね。

20150728_img_11

こういった加工を弊社では「自由記述の複数回答化」と読んでいます。もっと言えば、複数回答で集計できるのであれば自由記述で収集する必要がなくなると思えませんか?

最初に説明しました「文の相関性を読む」作業は、「自由記述の複数回答化」を図るために傾向を読む手法として活用しています。
1.キーワード間の相関性を読み取り、文章傾向を把握する。
2.文章の傾向から回答のパターンを数パターン書き出し、それを元に記述を分解していく
3.自由記述を複数回答項目に書き換え、集計、グラフにて可視化する

テキストマイニングと言われると一見難しく感じますが、ここまで単純化できれば誰でもわかる汎用性の高いデータになると思います。
弊社で分析をお預かりする際には専門的なスキルを使いながらも、誰でもわかる簡単な情報に作り変える点に注意して日夜研究を続けております。力になれることがありましたら是非ご相談下さい。