タグ

apiとブログに関するknackのブックマーク (2)

  • ブログの記事本文を抽出するAPI: TSUBUAN

    KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせ

    knack
    knack 2007/01/05
    本文抽出
  • C2cube、文脈分析するブログ検索のAPIを公開へ - CNET Japan

    C2cubeはブログでの好感度を判別できる検索エンジンのAPIを公開し、12月22日から企業向けに提供する。企業はブログの書き込み内容に合致した広告を配信するサービスなどを、独自に開発できるようになる。 独自開発のブログ検索は検索結果の精度が高く、ビジネス展開できると判断したためで、ブログの内容に合わせた情報を提供することでビジネス展開したいと考える企業に対し、その中核機能として提案する。 これまで、ブログの内容に合わせた情報提供サービスが検討される一方、書き込みの文脈に合致しない情報が反映される問題があり、ビジネス展開が格化しないという側面があった。 ブログの書き込みなどの文章解析はこれまで、「形態素解析」と呼ばれる単語の意味をベースとする解析手法が主流だった。同社はこれとは別に、助詞を軸に単語の“係り受け”を重視して文脈を解析する「機能素解析」を開発。C2cubeの独自開発である「B

    C2cube、文脈分析するブログ検索のAPIを公開へ - CNET Japan
  • 1