2009年1月27日火曜日

web2py

これほどまでに万能(変態)の名がふさわしいフレームワークがあるだろうか。

・フルスタック
・1からアプリケーションを開発できるエディタつき万能WEBADMIN
・GUIでER図を描くSQL Designer
・Stan-likeなHTML BuilderとDjangoとPSPのいいとこどりテンプレート
・とりあえずBEAUTIFY
・Railsのflash
・Model連動Form
・SQLAlchemyに対抗心メラメラなORM
・gae-likeモデル連動自動スキーマ変換
・GQL生成するので、GAEでもModel変更不要。
・ついでにCASも提供しておきます。
・Exceptionから自動Ticket発行
・Rails-likeのURL-RoutingにReverseがつき、Regex機能も併せ持つ完ぺき主義。
・request,responseなど、実用性だけを考えた大量のglobalオブジェクト
・ValidatorまでGlobalはマジでやめてくれ、IS_EXPR … 恐ろしい子

必要な機能はすべてそろっている。
後は勇気だけ。

変態だから人に勧めにくい。
GAEで使うフレームワークを探していたときに見つけた。
この豊富な機能は感動。

個人でいくつかGAEように作ったけど、会社では使いたくない。


------
ようやく書いた。
書こうと思ってメモ書きだけして、放置してあるのが多数。
ブログの使い方を間違えているな。

もういいやと思ってメモを消してしまったことも多いし、
メモでもいいからとりあえず公開して、その後追加、あるいはまとめを書くスタイルに変えなければ。


書きかけで放置してあるメモはあと5つ。
・django command拡張
・django-things
・Seasar2
・ipython
・本文抽出

2009年1月23日金曜日

download mass images 3

download mass images 2のつづき

前回で問題としてあがったこと。
1. タプル
2. 出力の乱れ

まず、q.put((download, urljoin(url, a[-1].get('href'))))を書き換えます。
今は引数ひとつしか受け入れられないので、
q.put(func, args, kwargs)

func, args, kwargs = q.get()
になればいいですね。


q = Queue()
def worker(func):
def inner(*args, **kwargs):
print func, args, kwargs
q.put((func, args, kwargs))
return inner

@worker
def download(url):
print 'down '+url
urllib.urlretrieve(url, url[url.rfind('/')+1:])

@worker
def parse(url):
print 'parse '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', href=re.compile(r'^/images/pub/\d+/\w+\.jpg$'))
download(urljoin(url, a[-1].get('href')))

@worker
def images(url):
print 'image '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', {'class':'image_a'}, href=re.compile(r'^/backgrounds/\d+$'))
map(lambda a:parse(urljoin(url, a.get('href'))), a[:4])

def pages(url):
print 'pages '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', href=re.compile(r'^/desktop/\w+\.php$'))
map(lambda a:images(urljoin(url, a.get('href'))), a[:4])

if __name__ == '__main__':
def loop():
while 1:
func, args, kwargs = q.get()
try:
func(*args, **kwargs)
except Exception, e:
print e
finally:
q.task_done()
for i in range(THREAD_MAX):
w = Thread(target=loop)
w.daemon = True
w.start()
pages(sys.argv[1])
q.join()

なんとなく思いついたので、デコレータにしてみました。
これなら、呼び出しがシングルスレッドと同じになります。
引数も可変です。
読みやすいですね。
欠点はシングルスレッドと同じと言うことでしょう。
似たようなものは似た書き方をすべきではないかもしれません。

表示の乱れに関しては、

from threading import Lock
lock = Lock()
def p(s):
lock.acquire()
try:
print s
finally:
lock.release()

ロックされた関数pを使って表示するようにします。
あとは、ご存知loggingモジュールはスレッドセーフなので、
loggingを使うのがもっとよい方法です。

ここまでを統合して、Workerクラスを書くとすれば、
このあたりでしょうか。

class Worker:
def __init__(self, num):
self.q = q = Queue()
def loop():
while 1:
func, args, kwargs = q.get()
try:
func(*args, **kwargs)
except Exception, e:
logging.exception(e)
finally:
q.task_done()
for i in range(num):
w = Thread(target=loop)
w.daemon = True
w.start()
def put(self, func, *args, **kwargs):
logging.debug(e)
self.q.put((func, args, kwargs))
def join(self):
self.q.join()

workers = Worker(THREAD_MAX)

workersになにかputして作業が始まったらjoinで終了を待ってください。

これも大きな欠点があります。
Ctrl+Cで終了させることができません。

さてと、最後にeventletバージョン

from eventlet import coros, httpc, util
util.wrap_socket_with_coroutine_socket()
pages = coros.CoroutinePool(max_size=THREAD_MAX)
def download(url):
a = httpc.get(url)
# aにデータ入ってます。
pages.execute(alljpg, n, depth - 1)
pages.wait_all()



ごめん、最後は面倒なんで手抜き。

2009年1月14日水曜日

django2php

PHPの仕事が来てしまったので、
Djangoと似た環境をPHPで探しました。

Djangoの基本要素は以下の4つかな?
・ORM
・Template
・Routing
・Form
DjangoのFormとRoutingは絶品だと思っています。
実際は両方とも書き換えてしまったので、絶品というのは変だけど、
基本設計は秀逸。今も感動しています。

あとの認証、セッション、Middleware(Filter)あたりは、
最初に書けば、あとはあまりいじらないから適当なライブラリから引用すればOK。

あとはディレクトリ構造。
appごとに分けられるDjangoは編集範囲が限定されていて見通しがよい。
rails風はコントローラとモデルが遠くて大変。

ORM


Propel
Doctrine
がいいらしい
Comparing Propel, Doctrine and sfPropelFinder
これはよい比較

YAMLでSchemaを書けて、HQLみたいなのもあるDoctrineがいい感じ。
でもやっぱりDjango-ORMがほしい。

途中、DoctrineでfindOneByTitleという、いかにもmethod_missingを使いました的な、メソッド名を発見。
調べてみたら、__callなんてあるんですね。
面白い。

Propelをメソッドチェーンで動くようにするなど拡張したsfPropelFinderもなかなか努力のあとがにじみ出ていていいですね。

php-django-like-db-abstraction/
「素晴らしい!」と思って、開いたら空っぽでした。
名前だけ取って手をつけない人は、それがどれぐらい迷惑な行為か早く学んでほしい。

template


生PHPが流行らしいです。
レイアウトとかどうするんだろう。
ヘッダとフッタを別々に読み込むの?

form


symfonyのformはDjangoと似ていていいですね。
まだ面倒に感じるのはMetaclassがないからかな?
単体で探したけど、似たものはないので、symfonyを使うか、単体用に取り出すか実装するか。
あるいは別の道を探すか。
inputタグなどを出力するためのHelper関数は多く準備されているようだけど、
ValidationやDBからの出力をこちらで考慮しなければならないのは面倒。
DjangoのFormは優秀。

Routing


Rails-likeが多いですね。
/controller/action/id
というやつね。
正規表現Routing、おまけに間接参照のやつがあれば素敵。
難しいものじゃないし、移植しようかな。

あと、ほしいのがpythonのimport
パスを考慮しながらのrequire_onceは難しい。
あと、まとめて数ファイルimportしたいときもある。

統合するとこんな感じか
urls.php

import('bloggy.views.*');
import('bloggy.form.EntryForm');

add_patterns(array(
'' => 'index',
));
add_patterns(array(
'new' => 'EntryForm.create',
'entry/(?P[0-9]+)' => 'EntryForm.edit',
), 'admin_required');

forms.php

class EntryForm extends Form {
var $conf = array(
'name' => Form::TextField(),
);
}

PHPの構文が分からない、これでコンパイルとおるかな。
EntryFormをimportしたときに継承して拡張したEntryFormを渡すことってできるのかな。
同名だから無理かな。
じゃあ、定義は_EntryFormか。

やだねー、ほかの言語仕様に縛られて無理やり持ち込む人。
もっと柔軟になったほうがいいと思います。
symfonyおぼえよっと。

あと、Kohanaも結構優秀でした。
程よいimport(loading)、routing

2009年1月13日火曜日

download mass images 2

download mass images 1のつづき

トップページから巡回して4ジャンルから3枚ずつのリストの取得。

def parse(url):
print 'parse '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', href=re.compile(r'^/images/pub/\d+/\w+\.jpg$'))
return urljoin(url, a[-1].get('href'))

def images(url):
print 'image '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', {'class':'image_a'}, href=re.compile(r'^/backgrounds/\d+$'))
return map(lambda a:parse(urljoin(url, a.get('href'))), a[:3])

def pages(url):
print 'pages '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', href=re.compile(r'^/desktop/\w+\.php$'))
return map(lambda a:images(urljoin(url, a.get('href'))), a[:4])

print pages(sys.argv[1])

前回の設定を引き継ぎ、上記のようなコードを書けば一覧が取得できます。
% python wally.py http://www.backgroundsarchive.com/desktop/|xargs -n1 -P6 wget
このコマンドがが動いて、取得してくるように変更することは難しいことではないでしょう。

しかし、このコマンドは遅いですね。
ダウンロードリストを生成する時間がかかりすぎです。
Python内でもスレッドを使いたい。


そして本題
これが書きたかっただけですが、前置き長い。

まずは、Queue。
Queue#getが呼ばれると待ちます。
中身が入るまで、死ぬまで待ち続けます。
中身が入ったら、嬉々として値を返します。
格納できる値はひとつずつです。
複数の値を入れたい場合は、タプルを使います。
これを利用して、Queueに呼び出してほしい関数と引数をタプルにして詰め込んでやります。
そして一定数のスレッドを、Queueから取り出しては実行する無限ループにします。
これでThreadPool完成です。
実装してみましょう。

import sys, re, urllib
from urlparse import urlparse, urljoin
from Queue import Queue
from threading import Thread, Lock
from BeautifulSoup import BeautifulSoup
THREAD_MAX = 6
class FFURLopener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.5) Gecko/2008120122 Firefox/3.0.5'
urllib._urlopener = FFURLopener()
q = Queue()

def download(url):
print 'down '+url
urllib.urlretrieve(url, url[url.rfind('/')+1:])

def parse(url):
print 'parse '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', href=re.compile(r'^/images/pub/\d+/\w+\.jpg$'))
q.put((download, urljoin(url, a[-1].get('href'))))

def images(url):
print 'image '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', {'class':'image_a'}, href=re.compile(r'^/backgrounds/\d+$'))
map(lambda a:q.put((parse, urljoin(url, a.get('href')))), a[:3])

def pages(url):
print 'pages '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', href=re.compile(r'^/desktop/\w+\.php$'))
map(lambda a:q.put((images, urljoin(url, a.get('href')))), a[:4])

if __name__ == '__main__':
def loop():
while 1:
func, args = q.get()
try:
func(args)
except Exception, e:
print e
finally:
q.task_done()
for i in range(THREAD_MAX):
w = Thread(target=loop)
w.daemon = True
w.start()
pages(sys.argv[1])
q.join()

これで4ジャンルから3枚ずつ最大サイズを取得します。

問題がいくつかあります。
1. タプル
2. 出力の乱れ

まずタプル。
読みづらいですね。
私はたいてい括弧を読み飛ばしてしまい、悩みます。
あと、引数の数の変更にも対応できません。

q.put((func, [a1], {}))

func, args, kwargs = q.get()
func(*args, **kwargs)
にすれば引数に対応できますが、煩雑です。
ここは、ラッパーを書きましょう。

次へ続く

rst2a

django-lockのトップページで使われていたのを見て知った。

rst2a

reStructuredTextをHTMLやPDFに変換してくれるサービス。

そこのAPIを使ってこんなブックマークがあると便利。
rst2html

2009年1月9日金曜日

download mass images 1

突然壁紙がたくさんほしくなったので、
壁紙がいっぱい集まっているところからちょいといただきます。

少し眺めていれば、以下のURLのように連番が発見できます。
http://www.backgroundsarchive.com/backgrounds/9124

まあ、ざっと見て20000以下なので、そこからbashを使います。
まずは10ほどで試してみましょう。
% echo http://www.backgroundsarchive.com/backgrounds/{1..10}
なんかたくさん表示されましたね。
OK、続けて
% echo http://www.backgroundsarchive.com/backgrounds/{1..10}|xargs -n1 echo
Bravo! これで分かりましたね。

あとはBeautifulSoupでいただいてしまいましょう。

import sys, re, urllib
from urlparse import urlparse, urljoin
from BeautifulSoup import BeautifulSoup

def download(url):
print 'down '+url
urllib.urlretrieve(url, url[url.rfind('/')+1:])

def parse(url):
print 'parse '+url
soup = BeautifulSoup(urllib.urlopen(url).read())
a = soup('a', href=re.compile(r'^/images/pub/\d+/\w+\.jpg$'))
map(lambda a:download(urljoin(url, a.get('href'))), a)

if __name__ == '__main__':
parse(sys.argv[1])

wally.pyとでも命名して即実行。
% time echo http://www.backgroundsarchive.com/backgrounds/{1..10}|xargs -n1 python wally.py
echo http://www.backgroundsarchive.com/backgrounds/{1..10} 0.00s user 0.00s system 42% cpu 0.001 total
xargs -n1 python wally.py 1.52s user 0.84s system 3% cpu 1:16.55 total
うーむ、信じられないほど遅い。
ブラウザだと少し早いからUAによる制限でしょうか。
まあ、しょうがない。

同時にダウンロードしちゃえば早いじゃんというのは自然な発想です。
コネクションが多すぎるとダメって聞いたことがあるので6つぐらいにしましょう。
% time echo http://www.backgroundsarchive.com/backgrounds/{1..10}|xargs -n1 -P6 python wally.py
echo http://www.backgroundsarchive.com/backgrounds/{1..10} 0.00s user 0.00s system 40% cpu 0.001 total
xargs -n1 -P6 python wally.py 1.48s user 1.45s system 11% cpu 26.645 total
これで六本同時に走ります。
うん、多少早くなりましたね。

念のため、User-Agentをかえてみます。
こんなのをimport urllibの下に書いておけばいいでしょう。

class FFURLopener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.0.5) Gecko/2008120122 Firefox/3.0.5'
urllib._urlopener = FFURLopener()

そして実行
% time echo http://www.backgroundsarchive.com/backgrounds/{1..10}|xargs -n1 -P6 python wally.py
echo http://www.backgroundsarchive.com/backgrounds/{1..10} 0.00s user 0.00s system 45% cpu 0.001 total
xargs -n1 -P6 python wally.py 1.52s user 1.32s system 82% cpu 3.428 total
げええ。
というわけで最適化に教科書なし。
遅いところに適切に対応しましょう。

さて、単純な連番ならこれでいいのですが、今回は全件取るつもりはありません。
序盤を集めたところマーブルばっかりで、動物とか風景がもっとほしい。
トップ画面からクロールしてほしい画像の一覧を作ったほうが好みの画像が集まりそうです。
トップページを見ると21ジャンルほどありますね。
巡回して21ジャンルから100枚ずつぐらいのリストを作るプログラムを書いて、
% python wally.py http://www.backgroundsarchive.com/desktop/|xargs -n1 -P6 wget
でうまくいきそうです。

予想外に長くなってしまってので次回へ続く。

2009年1月8日木曜日

Ajax file upload

byteflowのデコレータから引用していたけど、FileUploadに対応させました。

Ajaxでは
request.META.get('HTTP_X_REQUESTED_WITH') == 'XMLHttpRequest'
が成り立つのですが、FileUploadはiframeを使いますのでつきません。
iframeでsubmitした場合、application/jsonにすると、ダウンロードが始まってしまうため、逃げます。

def ajax_request(func):
def wrapper(request, *args, **kw):
if request.method == 'POST':
response = func(request, *args, **kw)
else:
response = {'error': {'type': 403,
'message':'Accepts only POST request'}}
if isinstance(response, dict):
if request.META.get('HTTP_X_REQUESTED_WITH') == 'XMLHttpRequest':
class JsonResponse(HttpResponse):
def __init__(self, data):
super(JsonResponse, self).__init__(
content=simplejson.dumps(data),
mimetype='application/json')
return JsonResponse(response)
else:
# for file upload
class IframeResponse(HttpResponse):
def __init__(self, data):
super(IframeResponse, self).__init__(
content=''%simplejson.dumps(data))
return IframeResponse(response)
else:
return response
return wraps(func)(wrapper)


jquery.form.jsを使うと、具合が大変よろしいです。

$('#image_form').ajaxForm({
dataType: 'json',
beforeSubmit: function() {if (!$('#icon').val()) return false},
success: function(data) { render(data) },
resetForm: true
})

dataTypeは'json'で。
beforeSubmitの第1引数のformDataはnameで引けないので不便。
第2引数のjqFormで、jqForm[0].icon.valueでもOK。
もっといい指定方法は知りたい。
clearFormがなぜか効かなかったのでresetForm。

jquery.blockUI.jsで画像選択やアップロード画面を出すときれい。

jquery.js必須

ブログ作成3個のヒント

10 Killer WordPress Hacks

1. 広告は検索エンジンからの訪問にのみ表示しろ
ブックマークから来る人は広告なんて見ない、押さない。
でもどうせRSSで読むから関係ないけど。

2. 連投を防げ
連投かっこ悪い。
でもどうせならタイトルをSlugFieldとかにして、同じタイトルのものがないほうがインデックスとかもろもろで気持ちいいな。

3. NextやPrevはやめて、Paginationにしよう。
1,2,3,...Lastみたいなやつね。
AutoPagerが効かなくなる可能性がありそうだけど、<link rel="next">とかに対応してくれたら幸せだね。

など。
ほかはどうでもよかった。