読者です 読者をやめる 読者になる 読者になる

futurebase’s diary

おもしろいもの、役に立つものを仕事にしたい系ベンチャー企業のブログです。

KH coderを用いた形態素解析

※12/19 15:54 内容を一部修正しました。

KH coder
という凄いフリーソフトがあることを教えられました。
まだチュートリアル程度しか触っていませんが
今までやってきたのは何だったんだ・・・というレベルで便利すぎます。
これをカスタマイズするためにPerlとRを覚えたくなるレベル。


1.使用するデータ

以前別件で使った
2014/04/01~2014/10/01間の「#金曜ロードSHOW!」が入ったツイート
Twitterの過去発言を拾う を参考にして下さい
みんなのキャンパス「東海大学」授業評価
「東海大学」授業評価 2014/09/22に取得したデータ
が調度よい感じにあったので使用します。
utf-8データをshift-jisに変換したので、一部消えた文字・変換した文字があります。
参考程度にお願いします。


2.#金曜ロードSHOW!ツイート

・抽出語リスト
まず、文の中で出てくる単語を見つける「抽出語リスト」
上位20位を表にすると

ちなみに、この時期に200件以上ツイートのあった映画の視聴率、ツイート数を書き上げると

04/18:名探偵コナン絶海の探偵・プライベート・アイ (604件)13.6%
04/25:アメイジングスパイダーマン (549件)14.0%
05/16:ナルニア国物語/第3章:アスラン王と魔法の島(274件)12.0%
05/23:X-MEN:ファースト・ジェネレーション (646件)11.8%
05/30:藁の楯 (236件)13.0%
06/20:ガリバー旅行記 (249件)11.0%
07/04:もののけ姫 (299件)21.9%
07/11:となりのトトロ (467件)19.4%
07/18:借りぐらしのアリエッティ (342件)17.2%
08/08:トランスフォーマー (253件)11.0%
08/22:ヱヴァンゲリヲン新劇場版:序TV版 (806件)9.5%
08/29:ヱヴァンゲリヲン新劇場版:破TV版 (644件)11.8%
09/05:ヱヴァンゲリヲン新劇場版:Q+巨神兵東京に現わる (1253件)10.0%
09/19:猿の惑星:創世記ジェネシス (241件)10.2%

ほとんどのワードが入っていますね。
「祭り」は「3週連続ヱヴァ祭り」、
「破る」は「ヱヴァンゲリヲン新劇場版:破」、
「剣」は「ナルニア国物語(7つの剣を集める内容)」でした。

・共起ネットワーク
単語毎の繋がりを見る「共起ネットワーク」

分析してる!って感じがしますよね。
辞書登録をしていなかったので、色々言葉がバラバラになってしまいました。


3.みんなのキャンバス 東海大学 授業評価

・抽出語リスト

講義に関する言葉が出てきています。

共起ネットワーク

全ての学部の評価を一つにまとめて処理したので、特色のない感じになりました。

・コロケーション統計
以前からやっている係り受け解析に似た感じの処理です。
指定したキーワードに対して、他の言葉がどの位置に多くあるのかを統計します。

「楽しい」をキーワードにして上位10個を表にします。

「楽しい」の近くに「授業」が206個あって
75個が「授業」の左側に(例:楽しい授業)
131個が「授業」の右側に(例:授業は楽しい)あることになります。
「テスト」は「~で楽しい授業でした。テストは~」という形で多く使われているようです。

「厳しい」について同様の処理をすると

「評価」「テスト」「出席」「単位」と学生が気になる言葉が多く出現しました。



4.今後はどうするか

ツイッターだと
・RT、拡散で多く出回っている文章
・一人で何回も同じ発言をしている
そういったツイート文が入ってくるとこが多いです。
炎上もSNSの特徴だから取り入れたほうが良いのだろうけど・・・
取り除いたデータでの解析もしたほうが無難ですよね。
係り受け解析で数を比較する場合、同じ文章が何個もあるとどうしてもそっちに偏りますからね。
注意しないといけません。

今回は無視しましたが、顔文字やネットスラングなど辞書にしにくい言葉も多いです。
ワロタ→大いに笑った
(*^-^*) ニッコリ☆ →笑う
(ノД`)・゜・。 →泣く
といったように変換すべきかどうかも考えないと・・・。

 

最後まで読んでいただいて、ありがとうございました!

会社のブログには、他の分析記事も載せています。
興味がありましたら是非遊びにきてください。
http://futurebase.co.jp

 ブログランキング・にほんブログ村へ
にほんブログ村