タグ

ブックマーク / blog.zuzara.com (1)

  • ブログの記事本文を抽出するAPI: TSUBUAN

    KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせ

    rochefort
    rochefort 2010/06/12
    今は使えないが、今後の参考資料。
  • 1