タグ

ブックマーク / blog.zuzara.com (4)

  • ブログの記事本文を抽出するAPI: TSUBUAN

    KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせ

  • zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN

    エラー<error> <message>GET/POST param q is invalid.</message> </error>米Y!の同じ機能を持ったAPIを参考にしています。 Term Extraction Documentation for Yahoo! Search Web Services サンプルレスポンス http://zuzara.dyndns.org/api/koshian?q=Microsoft+マイクロソフト <ResultSet> <Result id="2454">MICROSOFT</Result> <Result id="2454">マイクロソフト</Result> </ResultSet>デモフォーム 適当な文章を入力してください。 注意点 サーバの回線が細いのが不安です。将来的にドメイン名が変わる可能性が高いです。蹴飛ばしてケーブルが抜ける等の生活に

  • zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

    ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の文を取得するケースが多いようです。 「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術Yahoo!検索 スタッフブログ Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。 ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発 ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)なんでもRSS! HTML文書からのRSS Feed 自動生成 南野朋之 奥村学:人工知能学会研究会資料 SIG-SW

  • zuzara.com » 日本で公開されているAPI一覧(下書き)

    追記:清書としてusing API;でAPIに関するブログをはじめました。 「ProgrammableWeb: Web 2.0 Mashup Matrix」には海外APIがずらりと並んでいますが、日語圏のAPIの最新のリストは見当たらなかったので集めてみました。 Nakamura-KU ADDICT <>invGeocoder のREST 緯度経度を引数に住所を返す写真共有「フォト蔵」Geocoding API – 住所から緯度経度を検索RSSナビ –開発者の方 (RSSナビ RSET API)Simple API – ウェブサイト・サムネイル化ツールlivedoor PICS WebService – livedoor PICS サービスのお知らせ – livedoor Wiki(ウィキ)ヨコナビ – livedoor ReaderのAPI一覧Weather Hacks – live

  • 1