データマイニングハックス(仮)

東京都内のIT企業でデータ分析の仕事をしています。データマイニングを使って世界を良い方向へ変えていきたいです。起業準備中。各種オフ会なども積極的に参加したいと考えています。もし、よろしければお声掛けください。

Python+正規表現

 2ちゃんのスレッド一覧から各スレのURLを取得

#!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib2 fp = urllib2.urlopen('http://uni.2ch.net/wikileaks/subback.html') html = fp.read() match = re.findall('[0-9]{10}[//]', html) ita= "http://uni.2ch.net/test/read.cgi/wiki…

matchの実行

import re p=re.compile('[a-z]+') m=p.match("abc") print m