2009年3月31日火曜日

sax with HTMLParser

expatでShift_JISが扱えればベストなのですが、どうにもならない

<?xml encoding="Shift_JIS"?>

これが書いてあると引っかかるので、本文をutf-8にして回避することもできない。
んがー、どこもめ。
一行目削るしかないかなー。

2.6のxmlパッケージにはexpat以外のXMLパーサがないのが不思議。
xmllibはdeprecatedついてるけど、パーサはまだ生きている。
ココから引っ張るか、あるいはmarkupbaseからがんばるかな。
xml.sax.saxutils.XMLGeneratorを使いたいから、頭が痛い。

saxの構文は面倒くさいし、sax風のXMLFilterを書くのが一番早いかも。

つらい。
意外とPythonは不便。
Jythonに乗り換えたくなってきた。


あと、なんか知らんけどRailsの仕事が舞い降りてきそうだ。
すべて明示的に書いてきたPython文化から、暗黙文化に移るのはかなり抵抗がある。
でも1.9とcapとmerbには興味があるので、ひさしぶりにRuby触るのもいいのかもしれないな。

0 件のコメント: