futurebase’s diary

おもしろいもの、役に立つものを仕事にしたい系ベンチャー企業のブログです。

鳥取にスターバックスがオープン。県民の反応は?

 鳥取県スターバックスが出店したそうです。
お洒落空間に耐性のない自分は、スタバとは縁遠いです。

Twitterのプロフィール欄からユーザーの居住地を推定するプログラムの練習として
この出来事を解析したいと思います。

鳥取県ユーザーのつぶやきが増加していれば…まぁ成功ということです。

1.使用するデータ

2015-05-17 12:16:11~2015-05-25 10:57:46
の間に「スタバ」「スターバックス」と発言したツイート(ハッシュタグも含む)。
44,3823件。
RT・スパムの区別はしていません。


2.結果

①1日毎のツイート数
24時間のデータのない5/17と5/25はグラフから除きました。
やはり開店初日の5/23にツイート数が増加しています。
ユーザーの重複を無くしたのがオレンジの線になります。
1日何回ツイートしたとしても1回としてカウントしました。



②1時間毎のツイート数
9時頃からツイート数が増加して、23時頃になると急激に減少しています。
スターバックスの営業時間と関係があるんでしょうか?

鳥取店のオープンが近づくに連れて、投稿の形にも若干の変化があります。
1日の投稿数の変化が台形から右上がりの形になっているような気がします。
夕方~深夜のツイートが増加しているのが原因だと思われます。

普段は『スターバックスで飲食をしている報告ツイート』なので
営業時間に沿った台形の動き。
オープン前は、夕方から『鳥取店に関する意見や感想のツイート』が飛び交ったので
右上がりの動き。

・・・ということでしょうか?
今回は形態素解析をしていないので不明です。
(44万件のツイートの解析には時間がかかりそうなので)


③県別にみるツイート数
重複をなくした状態のものを使用します。
あるユーザーが1日に何回ツイートしても1回としてカウントします。
ツイート数というよりも、
『スタバについてツイートしたユーザー数』になりますね。

プロフィール欄から居住地を解析した結果が以下の表になります。
平均すると16.5%の割合でユーザーの居住地を推定できました。
・・・ちょっと性能悪いですね。別件では40%近くいったんですけど。
スターバックスに興味のある若いユーザーは
自分の居住地を書いていないことが多いことが原因だと思います。



解析可能のものを「東京」「鳥取」「その他」に分類すると以下のようになります。
やっぱり人口の差がモロに出ますね。東京都民が大部分を占めています。
5/21と5/22を見てもらうと、
ユーザーの総数に大きな変化はありませんが
鳥取県民は38人から213人と大幅に増加しています。
いい結果が出ました。



解析可能だったユーザー数との割合に直したのが以下のグラフ。
東京都民は常に20%辺りを維持しています。
鳥取県民の割合が5/23のオープンを凸にして増加しているのが分かります。





3.今後について

Twitterプロフィール欄の居住地のテキスト文の解析を行ったのですが…
地名の判別がやや怪しい部分がありました。
形態素解析にはMecabを使用しているのですが、
『サムイサムイ』『ムリ』『雷』といった言葉も「地名」と判別しているようです。
地名判別にはオリジナルの辞書を作成する必要がありそうですね。

今回、RT・スパム等の判断は行えませんでしたが、
これらの判断ができれば、よりユーザーの声の動きに近いものが解析できそうです。

 

最後まで読んでいただいて、ありがとうございました!

会社のブログには、他の分析記事も載せています。
興味がありましたら是非遊びにきてください。
http://futurebase.co.jp

 ブログランキング・にほんブログ村へ
にほんブログ村