データマイニングハックス(仮)

東京都内のIT企業でデータ分析の仕事をしています。データマイニングを使って世界を良い方向へ変えていきたいです。起業準備中。各種オフ会なども積極的に参加したいと考えています。もし、よろしければお声掛けください。

指定したURLのHTMLからタグを削除し形態素解析

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import urllib2
fp = urllib2.urlopen('http://www.yahoo.co.jp’)
html = fp.read()
fp.close()
data = html
p = re.compile(r'<.*?>')
res= p.sub('', data)
f = open('text.txt', 'w')
f.write(res)
f.close()

#coding:utf-8
import MeCab
tagger = MeCab.Tagger("-Ochasen")
result = tagger.parse(res)
print result