タグ

ブックマーク / blog.zuzara.com (2)

  • ブログの記事本文を抽出するAPI: TSUBUAN

    KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせ

    edvakf
    edvakf 2009/02/12
  • windowsからUbuntuに乗り換えてみた

    追記: zuzara : Ubuntu 7.10をデスクトップクライアントとして使ってみた 2年以上、LinuxをクライアントOSとしては使ってこなかったのですが、Ubuntuに惚れてしまいました。入れたのはUbuntu-ja-6.10。マシンはVAIOのtypeF。 感動した点。 LiveCDからOSが起動して、インストールするので最初にデモ的なものが見れていい。入れるアプリの選択はできないがCD1枚で済むのは楽。1680×1050の解像度自動認識(FedoraCore5ではできなかった)デフォルトの日フォントがきれい。昔と比べると日本語入力もほとんど不便を感じなくなった。半角全角キーを押せばON。外付けHDDは問題なく認識、デュアルブートにしたがWindowsのパーティションも自動認識。ファイル名が文字化けない。僕の経験上初めてUSBマウスとタッチパッドを同時認識しつつタッチパッド

  • 1