データマイニングハックス(仮)

東京都内のIT企業でデータ分析の仕事をしています。データマイニングを使って世界を良い方向へ変えていきたいです。起業準備中。各種オフ会なども積極的に参加したいと考えています。もし、よろしければお声掛けください。

データ分析関連の楽しい本たち

部屋にあった「データ分析に関連した話題を扱っている本」たち。 少しづつ書評を書きながら紹介していこうかな、と考えています。

2chのスレッドを自動要約するプログラム

2chのスレッドを自動要約するプログラムを作りました。現在、要約結果をブログに投稿する試験をしています。運用から10日ほど経ちまして、訪問者数は徐々に伸びている模様。 以下、google アナリティクスの画面のキャプチャです。 今後、自動要約する際の…

記憶力を強くする ver.0 [更新日:2012/4/18]

記憶力を強くする―最新脳科学が語る記憶のしくみと鍛え方 (ブルーバックス)作者: 池谷裕二出版社/メーカー: 講談社発売日: 2001/01/19メディア: 新書購入: 39人 クリック: 178回この商品を含むブログ (149件) を見る 記憶に自信のなかった私が世界記憶力選手…

創造力を強くする ver.0 [更新日:2012/4/18]

創造力の不思議―アイデアは脳のどこからやってくるのか作者: アルベルト・オリヴェリオ,川本英明出版社/メーカー: 創元社発売日: 2010/12/04メディア: 単行本この商品を含むブログを見る アイデアのつくり方作者: ジェームス W.ヤング,竹内均,今井茂雄出版社…

Rに関するメモ書き

R

■パスを指定してcsvをデータフレームに変換 x<-read.csv("C:/Users/****/Desktop/motodata.csv", header=TRUE) 以下、x はデータフレームとする。 ■データフレームに新しく列を追加transform(x, new=0) ■データフレームの行数を取得nrow(x) ■余計な列(ここで…

ターミナルに文字が出力されない...。

ターミナルでコマンドを実行しても文字が正しく出力されなくて、しばし困ってしまった。 しかし、ターミナルの環境設定→設定→詳細→言語環境→文字エンコーディング、でUnicode(UTF-8)にしたらなおった。 なんともつまらないことで時間を無駄にしてしまった…

テストタイトル

テスト本文

 2ちゃんのスレッド一覧から各スレのURLを取得

#!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib2 fp = urllib2.urlopen('http://uni.2ch.net/wikileaks/subback.html') html = fp.read() match = re.findall('[0-9]{10}[//]', html) ita= "http://uni.2ch.net/test/read.cgi/wiki…

unicodeの日本語文字列で正規表現

import re # encoding: shift_jis p=re.match(u"[あ-ん]+", u"おはよう御座います") print p.group() #「おはよう」と返る

matchの実行

import re p=re.compile('[a-z]+') m=p.match("abc") print m

明日の自分は予測できるか

iPhone5を購入して約1カ月。 購入の翌日から、iPhone5のGPS機能を使って、自分の移動履歴を記録しています。 1か月たったのでデータをGoogleマップにインポートして見てみました。ふーん、って感じ。 今後、自分に関するあらゆるデータを記録して、それぞれ…

指定したURLのHTMLからタグを削除し形態素解析

#!/usr/bin/env python# -*- coding: utf-8 -*-import reimport urllib2fp = urllib2.urlopen('http://www.yahoo.co.jp’)html = fp.read()fp.close()data = htmlp = re.compile(r'<.*?>')res= p.sub('', data)f = open('text.txt', 'w')f.write(res)f.close(…

PythonからMecabの形態素解析を実行

#coding:utf-8import MeCabtagger = MeCab.Tagger("-Ochasen")result = tagger.parse("この記事はPythonの勉強メモです。")print result

Pythonで日本語を扱う

#!/usr/bin/env python# -*- coding: utf-8 -*-print 'こんばんは'

指定したURLのHTMLを取得し、テキストファイルに保存

import urllib2fp = urllib2.urlopen('http://www.yahoo.co.jp/')html = fp.read()fp.close()f = open('text.txt', 'w')f.write(html)f.close()

指定したURLのHTMLを取得

import urllib2fp = urllib2.urlopen('http://www.yahoo.co.jp/')html = fp.read()fp.close()print html

リンク先のURLを取得

import refrom mechanize import Browserbr = Browser()br.open('http://www.google.com/')br.title()for i in br.links():print i

[Python] Pythonはじめました。

Pythonの学習をはじめました。参考にしている文献は「みんなのPython Webアプリ編」です。私はAmazonで中古を購入しましたが、現在は著者のご厚意で無料でのダウンロードが可能なようです。 こちら↓ http://coreblog.org/ats/minpy-web-is-now-free-to-read …

[R] フォルダ内のファイル名の一覧を取得する。

R

fl<- list.files("C:/Users/***/Desktop/フォルダ名") これでファイル名の一覧がベクトルに格納されます。 取得後、 fl[1] といった形で要素を指定してあげると、それぞれのファイル名を参照できるようです。

Twitterのアカウントを作りました。

@dm_hacks です。 まだ何もつぶやいてませんが・・・。

記憶のススメ

記憶に自信のなかった私が世界記憶力選手権で8回優勝した最強のテクニック作者: ドミニクオブライエン,Dominic O’Brien,梶浦真美出版社/メーカー: エクスナレッジ発売日: 2012/07/02メディア: 単行本(ソフトカバー)購入: 1人 クリック: 2回この商品を含む…

Arduinoとセンサでデータを記録する

Arduinoという電子工作キットに明るさを計測するセンサをつなぎ、データを記録してみました。 まず、こちらはセンサから取得した明るさの値を取得し、それをパラメータとしてLEDの点滅速度を制御している様子です(画像だとチカチカしませんが)。 こちらは…

データマイニングで地震の発生を予測できるか

地震が続くと「最近、怖いね・・・」と誰もが思うと思います。 では、果たして、直近の地震の頻度や大きさと将来発生する地震の大きさに相関はあるのでしょうか。 もし、直近の地震の発生と将来の地震の発生の間に、相関が認められれば「最近、地震が増えて…

facebookやmixiのデータを入手して分析してみよう

SNSのデータを解析してます。 過去、あれこれ実践したネタを小出ししていきます。

ヤフオク、ebayの落札情報データを解析する

ヤフーオークションやebayのデータをデータマイニングしていきます。 海外市場から仕入れた商品を日本国内で販売することで、関税や手数料を抜いて収益を上げることはできるのでしょうか。

Excel VBAで電子楽器を制御する

Excel VBAからMIDI経由で電子楽器を鳴らす方法をメモしていきます。 1.MIDIデバイスを開いてハンドルを取得。 (デバイスが取得できたか確認) 2.デバイスに対して、音色とか音階などのパラメータをメッセージにして送信。3.デバイスを閉じる。 が基…

テスト

書けているかな?