読者です 読者をやめる 読者になる 読者になる

データマイニングハックス(仮)

東京都内のIT企業でデータ分析の仕事をしています。データマイニングを使って世界を良い方向へ変えていきたいです。起業準備中。各種オフ会なども積極的に参加したいと考えています。もし、よろしければお声掛けください。

 2ちゃんのスレッド一覧から各スレのURLを取得

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import re

import urllib2

fp = urllib2.urlopen('http://uni.2ch.net/wikileaks/subback.html')

html = fp.read()

match = re.findall('[0-9]{10}[//]', html)

ita= "http://uni.2ch.net/test/read.cgi/wikileaks/"

for i in match:

print(ita+i)