データマイニングハックス(仮)

東京都内のIT企業でデータ分析の仕事をしています。データマイニングを使って世界を良い方向へ変えていきたいです。起業準備中。各種オフ会なども積極的に参加したいと考えています。もし、よろしければお声掛けください。

 2ちゃんのスレッド一覧から各スレのURLを取得

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import re

import urllib2

fp = urllib2.urlopen('http://uni.2ch.net/wikileaks/subback.html')

html = fp.read()

match = re.findall('[0-9]{10}[//]', html)

ita= "http://uni.2ch.net/test/read.cgi/wikileaks/"

for i in match:

print(ita+i) 

明日の自分は予測できるか

 

iPhone5を購入して約1カ月。

購入の翌日から、iPhone5のGPS機能を使って、自分の移動履歴を記録しています。

1か月たったのでデータをGoogleマップにインポートして見てみました。ふーん、って感じ。

今後、自分に関するあらゆるデータを記録して、それぞれの相関関係を解析し、「明日の自分」の予測モデルを作りたいと考えています。

 

 

指定したURLのHTMLからタグを削除し形態素解析

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import urllib2
fp = urllib2.urlopen('http://www.yahoo.co.jp’)
html = fp.read()
fp.close()
data = html
p = re.compile(r'<.*?>')
res= p.sub('', data)
f = open('text.txt', 'w')
f.write(res)
f.close()

#coding:utf-8
import MeCab
tagger = MeCab.Tagger("-Ochasen")
result = tagger.parse(res)
print result