futurebase’s diary

おもしろいもの、役に立つものを仕事にしたい系ベンチャー企業のブログです。

2015-01-01から1年間の記事一覧

K特性値で歴代首相の所信演説を分析してみた

気がついたら2ヶ月もブログを書いていませんでした。心機一転頑張ります。これ何回書いたっけ?頑張りますよ!0.はじめにユールのK特性値をいう指標があることを知りました。ユールが『キリストに倣いて』の執筆者を調べるために使用したものです。作品中にx…

イベントの入場者数とツイート数は連動するのか調べてみた

数量化Ⅰ類という方法を使えば、数値以外の情報でも回帰分析が可能になるそうです。例えば天気の情報。 日付 天気 09/12 晴 09/13 晴時々曇り 09/14 雨 となっていたら、 日付 晴 曇り 雨 09/12 1 0 0 09/13 1 1 0 09/14 0 0 1 と数値化することで計算可能に…

家賃を決定づける要因は何か調べてみた

何が原因で数値が上下しているのか?を知りたいときは、相関係数などを用いた回帰分析を行います。今回は、家賃はどのような要因で決定されるかを調べてみたいと思います。0.使用するデータ不動産サイトから収集した横浜市泉区内の賃貸物件データ。1554件。…

花火大会のツイートをベイジアンフィルタで分類してみた

8月4日に神奈川新聞花火大会がありました。他県民の人にはパッとしない行事ですが、今年は京浜東北線が止まったりと大変でした。本来なら今年の花火大会に関するツイートを分類したかったのですが・・・・・・少し検索してみると事故関連のツイートが多く、分類が…

Azure SQLデータベースの書き込み速度を調べる

最近、触り始めたAzure。データの転送速度が気になっていたので調べてみることにしました。ちなみにAzure SQLデータベースには3つのサービスレベルがあります。Basic、Standard、Premiumです。「早く大量にデータを使いたければ金払え」と資本主義に基づく形…

「最近はどの曲も似ている」は本当なのか?

「音楽を聴かなくなった」「どの曲も同じに聞こえる」「アイドルの判別ができない」定期的に新聞のコラムなどで見かける話題ですよね。「アイドルの判別」は・・・本当に難しいですよね。48人って歴代徳川将軍の約3倍ですから。顔と名前を覚えるのが苦手な自分…

鳥取にスターバックスがオープン。県民の反応は?

鳥取県にスターバックスが出店したそうです。お洒落空間に耐性のない自分は、スタバとは縁遠いです。Twitterのプロフィール欄からユーザーの居住地を推定するプログラムの練習としてこの出来事を解析したいと思います。 鳥取県ユーザーのつぶやきが増加して…

Twitterのフォロー・フォロワー数の関係性

花見に雪が降ったかと思ったら、一気に最高気温26度と容赦が無いですね。冬物と夏物しか準備しなくて良いので助かってますけど。 さて今までもTwitterAPIで情報を収集してきたのですが、思い出してみると使用していない数値がありました。・ツイート数・フォ…

全国の駅名で最も多く使われている漢字は?一位はあの漢字!

我が家では夕飯はテレビを見ながら食べています。月曜日は「ネプリーグ」というクイズ番組を見ていたりするのですが、「首都圏で『谷』がつく駅名、10個答えよ」という問題がありました。渋谷、市ヶ谷、四谷、鶯谷、西谷・・・意外と思い出せないものです。…

LANDSAT-8の精度って?

今日はNASAの地球観測衛星LANDSAT-8の幾何学補正の精度が凄く良いという話。 LANDSAT-8のデータは http://landsat8.geogrid.org/l8/index.php/ja/産総研のWEBサイトからダウンロードできます。 LANDSAT衛星やデータについても詳しく書かれています。 …

プログラムねた その一『緯度経度の表示変換メソッド』

よく使う(あくまで自分が、、)プログラムの小技を紹介します。 Pythonでリモセン、GIS系のプログラムを書いている時によく使う緯度経度の表示変換メソッドを紹介します。 緯度経度を60進か10進どっちを使うかです。。。関数で一発変換できれば便利です…

社内システムを考える その①

新年度に入り気持ちも新たに”まめにブログを更新”することにしました。漠然とはかけないのでテーマを絞って書いて行くことにしました。そこで暫くは社内システムです。弊社はコンピュータソフト、システムを作成・運用することを生業としています。社内で日…

ドラマ『相棒』、監督・脚本家・シーズン・放送枠のどれが視聴率に影響するのか調べてみた

だいぶ前の話になりますが、ドラマ「相棒」s13が最終回となりましたね。ネタバレになりますので内容については触れませんが・・・次シーズンが作成できるのか非常に不安です。再放送があるのでしばらくはそれで相棒成分を補充したいと思います。さて本題。集…

tf-idfで各政党の特徴を探ってみた

今回のメインである「tf-idf」文章中の単語に関する重みの一種です。wikipediaの説明ページはコチラ数式アレルギーが若干あると泣きたくなりますけど、噛み砕いてしまえば簡単。色々計算方法はありますが、今回はPythonのライブラリーであるnltkを基準にして…

Google+APIとTwitterAPIで箸休め

「風立ちぬ」が地上波放送されました。シベリヤは関東地方ではわりとポピュラーなお菓子らしいです。大学時代、自分を田舎者だと吊るしあげた友人(大阪出身)に教えてあげたい。更なる被害者を出さないためにも山崎パンさんには全国展開を頑張ってもらいた…

ツイートは視聴率になりうるか?を調べてみた

視聴率を図っているビデオリサーチ社さんがTwitter TV エコー というものをやっています。テレビ番組のネットでの評価をTwitterへの投稿文から読み解こうという解析方法みたいです。以前、NHKでもやっていました。それの真似事をしてみたくなったので、少し…

特定地域のツイートを抜き出してみた

TwitterAPIには色々機能があって、時間を見つけては試しています。その中にgeocodeという検索機能があります。ツイートを検索する際に、緯度経度と半径を指定するとその緯度経度を中心にした円の中で投稿されたツイートを取得できます。勿論、位置情報をONに…

NHK紅白歌合戦のツイート数を観察してみた

少しネタは古いですが年末!コタツ!紅白歌合戦!ということで年末の一大イベント(?)でもある紅白歌合戦のツイート数を観察します。1.使用するデータTwitterAPIで取得した2014/12/31 19:15~2014/12/31 23:45の間で投稿された「#NHK紅白」のハッシュタグを付…