指定したURLのHTMLからタグを削除し形態素解析
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import urllib2
fp = urllib2.urlopen('http://www.yahoo.co.jp’)
html = fp.read()
fp.close()
data = html
p = re.compile(r'<.*?>')
res= p.sub('', data)
f = open('text.txt', 'w')
f.write(res)
f.close()
#coding:utf-8
import MeCab
tagger = MeCab.Tagger("-Ochasen")
result = tagger.parse(res)
print result