何でもRSS

未踏プロジェクトの成果物でもあるblogwatcherがリニューアルしてver2に。ver1の時点であった「メタブログ」とか、「バースト度」がよかったのだけれど、今回追加されてる「何でもRSS」が中毒性が高い。

「なんでもRSS」とは?

なんでもRSS」は, 東京工業大学 精密工学研究所 奥村研究室 で運営されている,RSS自動生成サービスです.HTML文書のURLを入力することで,RSS Feedを自動的に生成します. blogWatcher で使用しているblog判定プログラムと同じように、Webページ中に含まれる日付表現とタイトル表現を検出し、HTML文書を構造解析することで、時系列情報を記述するWebページ(日記、BBS、ニュースサイト、イベント告知ページなど)からRSS Feedを自動生成します。 RSS Feedを配信していないサイトでも、簡単にRSS Feedを配信することが出来ますし、これまでRSSリーダーで読めなかったWebページもRSSリーダーで読めるようになります。

どうやってやっているの?

なんでもRSS」では,HTML文書中の日付表現,タイトル表現に注目し,HTML文書中でこれらが同じパターンで繰り返し現れる部分を探索します.これは,blogWatcherで使用されている,Web日記の収集方法と同じような手法を利用しています.特定のWebページのデザインに特化した抽出ルールは一切存在しないため,多くのページに対応することが出来ます.

例えば,元々RSS Feedを配信していないWeb日記や掲示板,また,Webページ中のイベント案内など,同じパターンで記述される日付情報を少なくとも二つ以上含むWebページについては,自動的にRSS Feedを作成することが出来ます.

以前から、検索対象解析および収集方法が確立されていたのだけど、それをRSSFeed変換に活用する事で(僕にとって)中毒性が高くなっている。つまり、技術的にはあまり変化がないのだけど、使い方が旨い。片っ端から、はてなアンテナ(→更新メールでbloglines方式)で登録してた非blog系サイトや、類似の「MyRSS」経由でbloglinesに登録してた精度の低いサイトを「なんでもRSSブックマークレット」→bloglinesで登録しまくる。

論文[PDF]も公開されてて、なかなか面白い。

やっぱ大学っていいなぁ。あと賢い人。