Hatena::Grouppython

HM python

Pythonについて覺えたことや疑問に思ったこと、及び參考にしたリソースをメモして行く感じで。面倒なのでマーク附けは最小限に。

2009-03-15

Beautiful Soupをちょっとだけ試してみた

HTMLを處理する爲のライブラリを探してゐたら、Beautiful Soupといふものが評判良い感じだったので試してみた。

インストール(Debian lenny)

% sudo aptitude install python2.5-beautifulsoup

おためし

#!/usr/bin/python2.5

import urllib2
from BeautifulSoup import BeautifulSoup

url = 'http://www.geocities.co.jp/Playtown-Spade/6501/NoaAyanoLog.html'
doc = BeautifulSoup(urllib2.urlopen(url).read())
print doc

實行結果

<!DOCTYPE HTML PUBLIC "ISO/IEC 15445:2000//DTD HTML//EN">
<html lang="ja">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="Content-Style-Type" content="text/css" />
<meta name="author" content="Takehide Nozaki" />
<link rel="stylesheet" type="text/css" href="./tnstyle.css" />
<link rel="stylesheet" type="text/css" href="./tnclass.css" />
<title>のあとあやのの愛の交換日記</title>
</head>
<body>
<center><a href="http://chakumero.mobile.yahoo.co.jp/"><img src="http://www.geocities.jp/js_source/filler_nm.gif" border="0" /></a><br clear="all" /></center>
<div class="status">
<ul class="return">
<li class="return"><a href="./">古書と古本</a></li>
<li class="return"><a href="Ohkaindex.html">櫻花さん番外地</a></li>
<li class="return"><a href="NoaandAyano.html">のあ&amp;あやの</a></li>
</ul>
</div>
<h1>のあとあやのの愛の交換日記</h1>
<ul>
<li>((((;゚Д゚))) ロリロリ</li>
</ul>
<h2>平成十五年五月十八日</h2>
<dl>
<dt>のあ</dt>
<dd>「パワード・シーツ」つてどうかな?</dd>
<dt>あやの</dt>
<dd>……どうかな、つて言はれても。何の話よ?</dd>
<dt>のあ</dt>
<dd>變な譯語。</dd>
<dt>あやの</dt>
<dd>變な譯語つて……で、何の譯語?</dd>
<dt>のあ</dt>
<dd>一反もめん。</dd>
<dt>あやの</dt>
<dd>……一反もめん?</dd>
</dl>

(中略)

<h2>出典</h2>
<p>のあとあやのは「闇黒日記」で絶讃すごくたまに連載中です。</p>
<dl>
<dt><a href="http://isweb2.infoseek.co.jp/~noz/diary/">日記バックナンバー</a></dt>
<dd><a href="http://members.jcom.home.ne.jp/w3c/omake/diary.html">闇黒日記</a>(最新版)</dd>
</dl>
</body>
</html>

メモ

  1. オリジナルの文字エンコーディングを指定してゐないのに出力内容がUTF-8に變換されてゐる。
  2. meta要素によるcharset指定もutf-8に書き換へられてゐる。といふかオリジナルのcharset指定をちゃんと見て變換してゐるらしい。之は嬉しい。
  3. 空要素のタグを<br clear="all" />のやうにする。でもXHTML化する訣ではなし、XML宣言を附けるわけでも文書型宣言を取除くでもなし——といふ中途半端な「XML化」はちょっと頂けない。
  4. <CENTER><center>のやうにタグ名は小文字に直される。
  5. DOM-likeなAPIもあるやうだ。

參考

MORIYAMA Hiroshi <hiroshi@kvd.biglobe.ne.jp>