2015-01-01から1年間の記事一覧
気がついたら2ヶ月もブログを書いていませんでした。心機一転頑張ります。これ何回書いたっけ?頑張りますよ!0.はじめにユールのK特性値をいう指標があることを知りました。ユールが『キリストに倣いて』の執筆者を調べるために使用したものです。作品中にx…
数量化Ⅰ類という方法を使えば、数値以外の情報でも回帰分析が可能になるそうです。例えば天気の情報。 日付 天気 09/12 晴 09/13 晴時々曇り 09/14 雨 となっていたら、 日付 晴 曇り 雨 09/12 1 0 0 09/13 1 1 0 09/14 0 0 1 と数値化することで計算可能に…
何が原因で数値が上下しているのか?を知りたいときは、相関係数などを用いた回帰分析を行います。今回は、家賃はどのような要因で決定されるかを調べてみたいと思います。0.使用するデータ不動産サイトから収集した横浜市泉区内の賃貸物件データ。1554件。…
8月4日に神奈川新聞花火大会がありました。他県民の人にはパッとしない行事ですが、今年は京浜東北線が止まったりと大変でした。本来なら今年の花火大会に関するツイートを分類したかったのですが・・・・・・少し検索してみると事故関連のツイートが多く、分類が…
最近、触り始めたAzure。データの転送速度が気になっていたので調べてみることにしました。ちなみにAzure SQLデータベースには3つのサービスレベルがあります。Basic、Standard、Premiumです。「早く大量にデータを使いたければ金払え」と資本主義に基づく形…
「音楽を聴かなくなった」「どの曲も同じに聞こえる」「アイドルの判別ができない」定期的に新聞のコラムなどで見かける話題ですよね。「アイドルの判別」は・・・本当に難しいですよね。48人って歴代徳川将軍の約3倍ですから。顔と名前を覚えるのが苦手な自分…
鳥取県にスターバックスが出店したそうです。お洒落空間に耐性のない自分は、スタバとは縁遠いです。Twitterのプロフィール欄からユーザーの居住地を推定するプログラムの練習としてこの出来事を解析したいと思います。 鳥取県ユーザーのつぶやきが増加して…
花見に雪が降ったかと思ったら、一気に最高気温26度と容赦が無いですね。冬物と夏物しか準備しなくて良いので助かってますけど。 さて今までもTwitterAPIで情報を収集してきたのですが、思い出してみると使用していない数値がありました。・ツイート数・フォ…
我が家では夕飯はテレビを見ながら食べています。月曜日は「ネプリーグ」というクイズ番組を見ていたりするのですが、「首都圏で『谷』がつく駅名、10個答えよ」という問題がありました。渋谷、市ヶ谷、四谷、鶯谷、西谷・・・意外と思い出せないものです。…
今日はNASAの地球観測衛星LANDSAT-8の幾何学補正の精度が凄く良いという話。 LANDSAT-8のデータは http://landsat8.geogrid.org/l8/index.php/ja/産総研のWEBサイトからダウンロードできます。 LANDSAT衛星やデータについても詳しく書かれています。 …
よく使う(あくまで自分が、、)プログラムの小技を紹介します。 Pythonでリモセン、GIS系のプログラムを書いている時によく使う緯度経度の表示変換メソッドを紹介します。 緯度経度を60進か10進どっちを使うかです。。。関数で一発変換できれば便利です…
新年度に入り気持ちも新たに”まめにブログを更新”することにしました。漠然とはかけないのでテーマを絞って書いて行くことにしました。そこで暫くは社内システムです。弊社はコンピュータソフト、システムを作成・運用することを生業としています。社内で日…
だいぶ前の話になりますが、ドラマ「相棒」s13が最終回となりましたね。ネタバレになりますので内容については触れませんが・・・次シーズンが作成できるのか非常に不安です。再放送があるのでしばらくはそれで相棒成分を補充したいと思います。さて本題。集…
今回のメインである「tf-idf」文章中の単語に関する重みの一種です。wikipediaの説明ページはコチラ数式アレルギーが若干あると泣きたくなりますけど、噛み砕いてしまえば簡単。色々計算方法はありますが、今回はPythonのライブラリーであるnltkを基準にして…
「風立ちぬ」が地上波放送されました。シベリヤは関東地方ではわりとポピュラーなお菓子らしいです。大学時代、自分を田舎者だと吊るしあげた友人(大阪出身)に教えてあげたい。更なる被害者を出さないためにも山崎パンさんには全国展開を頑張ってもらいた…
視聴率を図っているビデオリサーチ社さんがTwitter TV エコー というものをやっています。テレビ番組のネットでの評価をTwitterへの投稿文から読み解こうという解析方法みたいです。以前、NHKでもやっていました。それの真似事をしてみたくなったので、少し…
TwitterAPIには色々機能があって、時間を見つけては試しています。その中にgeocodeという検索機能があります。ツイートを検索する際に、緯度経度と半径を指定するとその緯度経度を中心にした円の中で投稿されたツイートを取得できます。勿論、位置情報をONに…
少しネタは古いですが年末!コタツ!紅白歌合戦!ということで年末の一大イベント(?)でもある紅白歌合戦のツイート数を観察します。1.使用するデータTwitterAPIで取得した2014/12/31 19:15~2014/12/31 23:45の間で投稿された「#NHK紅白」のハッシュタグを付…