2ちゃんのスレッド一覧から各スレのURLを取得
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import urllib2
fp = urllib2.urlopen('http://uni.2ch.net/wikileaks/subback.html')
html = fp.read()
match = re.findall('[0-9]{10}[//]', html)
ita= "http://uni.2ch.net/test/read.cgi/wikileaks/"
for i in match:
print(ita+i)
matchの実行
import re
p=re.compile('[a-z]+')
m=p.match("abc")
print m
明日の自分は予測できるか
iPhone5を購入して約1カ月。
購入の翌日から、iPhone5のGPS機能を使って、自分の移動履歴を記録しています。
1か月たったのでデータをGoogleマップにインポートして見てみました。ふーん、って感じ。
今後、自分に関するあらゆるデータを記録して、それぞれの相関関係を解析し、「明日の自分」の予測モデルを作りたいと考えています。
指定したURLのHTMLからタグを削除し形態素解析
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import urllib2
fp = urllib2.urlopen('http://www.yahoo.co.jp’)
html = fp.read()
fp.close()
data = html
p = re.compile(r'<.*?>')
res= p.sub('', data)
f = open('text.txt', 'w')
f.write(res)
f.close()
#coding:utf-8
import MeCab
tagger = MeCab.Tagger("-Ochasen")
result = tagger.parse(res)
print result