読者です 読者をやめる 読者になる 読者になる

データマイニングハックス(仮)

東京都内のIT企業でデータ分析の仕事をしています。データマイニングを使って世界を良い方向へ変えていきたいです。起業準備中。各種オフ会なども積極的に参加したいと考えています。もし、よろしければお声掛けください。

ターミナルに文字が出力されない...。

ターミナルでコマンドを実行しても文字が正しく出力されなくて、しばし困ってしまった。 しかし、ターミナルの環境設定→設定→詳細→言語環境→文字エンコーディング、でUnicode(UTF-8)にしたらなおった。 なんともつまらないことで時間を無駄にしてしまった…

 2ちゃんのスレッド一覧から各スレのURLを取得

#!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib2 fp = urllib2.urlopen('http://uni.2ch.net/wikileaks/subback.html') html = fp.read() match = re.findall('[0-9]{10}[//]', html) ita= "http://uni.2ch.net/test/read.cgi/wiki…

unicodeの日本語文字列で正規表現

import re # encoding: shift_jis p=re.match(u"[あ-ん]+", u"おはよう御座います") print p.group() #「おはよう」と返る

matchの実行

import re p=re.compile('[a-z]+') m=p.match("abc") print m

指定したURLのHTMLからタグを削除し形態素解析

#!/usr/bin/env python# -*- coding: utf-8 -*-import reimport urllib2fp = urllib2.urlopen('http://www.yahoo.co.jp’)html = fp.read()fp.close()data = htmlp = re.compile(r'<.*?>')res= p.sub('', data)f = open('text.txt', 'w')f.write(res)f.close(…

Pythonで日本語を扱う

#!/usr/bin/env python# -*- coding: utf-8 -*-print 'こんばんは'

指定したURLのHTMLを取得し、テキストファイルに保存

import urllib2fp = urllib2.urlopen('http://www.yahoo.co.jp/')html = fp.read()fp.close()f = open('text.txt', 'w')f.write(html)f.close()

指定したURLのHTMLを取得

import urllib2fp = urllib2.urlopen('http://www.yahoo.co.jp/')html = fp.read()fp.close()print html

リンク先のURLを取得

import refrom mechanize import Browserbr = Browser()br.open('http://www.google.com/')br.title()for i in br.links():print i

[Python] Pythonはじめました。

Pythonの学習をはじめました。参考にしている文献は「みんなのPython Webアプリ編」です。私はAmazonで中古を購入しましたが、現在は著者のご厚意で無料でのダウンロードが可能なようです。 こちら↓ http://coreblog.org/ats/minpy-web-is-now-free-to-read …