データマイニングハックス(仮)

東京都内のIT企業でデータ分析の仕事をしています。データマイニングを使って世界を良い方向へ変えていきたいです。起業準備中。各種オフ会なども積極的に参加したいと考えています。もし、よろしければお声掛けください。

 2ちゃんのスレッド一覧から各スレのURLを取得

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import re

import urllib2

fp = urllib2.urlopen('http://uni.2ch.net/wikileaks/subback.html')

html = fp.read()

match = re.findall('[0-9]{10}[//]', html)

ita= "http://uni.2ch.net/test/read.cgi/wikileaks/"

for i in match:

print(ita+i) 

unicodeの日本語文字列で正規表現

import re

# encoding: shift_jis

p=re.match(u"[あ-ん]+", u"おはよう御座います")

print p.group() #「おはよう」と返る

 

matchの実行

import re

p=re.compile('[a-z]+')

m=p.match("abc")

print m

明日の自分は予測できるか

 

iPhone5を購入して約1カ月。

購入の翌日から、iPhone5のGPS機能を使って、自分の移動履歴を記録しています。

1か月たったのでデータをGoogleマップにインポートして見てみました。ふーん、って感じ。

今後、自分に関するあらゆるデータを記録して、それぞれの相関関係を解析し、「明日の自分」の予測モデルを作りたいと考えています。

 

 

指定したURLのHTMLからタグを削除し形態素解析

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import urllib2
fp = urllib2.urlopen('http://www.yahoo.co.jp’)
html = fp.read()
fp.close()
data = html
p = re.compile(r'<.*?>')
res= p.sub('', data)
f = open('text.txt', 'w')
f.write(res)
f.close()

#coding:utf-8
import MeCab
tagger = MeCab.Tagger("-Ochasen")
result = tagger.parse(res)
print result

PythonからMecabの形態素解析を実行

#coding:utf-8
import MeCab
tagger = MeCab.Tagger("-Ochasen")
result = tagger.parse("この記事はPythonの勉強メモです。")
print result

Pythonで日本語を扱う

#!/usr/bin/env python
# -*- coding: utf-8 -*-
print 'こんばんは'