ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。 「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術Yahoo!検索 スタッフブログ Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。 ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発 ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)なんでもRSS! HTML文書からのRSS Feed 自動生成 南野朋之 奥村学:人工知能学会研究会資料 SIG-SW
HANAABI!! wacaal APIで拾ってきたSAGOOLの検索クエリー1つ1つを火花にして打ち上げてみました。 春先のまだ肌寒いこの季節、散っていくクエリーたちに何か哀愁を感じずにはいられません。 音量はいつもより大きめでお願いします。 なお、調子に乗って花火を打ち上げ過ぎるとブラウザが低温火傷しかねないのでご注意ください。 えー、ネーミングはかなりいいんじゃないかと思っていますが、全体的には脳汁が切れた感じです。 コンテストの締め切りまではあと18時間ばかり。 サン・マイクロシステムズ – Mash up Award 2nd This entry was posted in つくる. Bookmark the permalink. Both comments and trackbacks are currently closed.
出力JSON/JSONP(Content-Type: application/json) 例) callback({"test":"<table><tr>\\n<td>\\n<table>\\n<tr><td> <\\/td> <td> <\\/td><td> <\\/td><td> <\\/td><td> <\\/td> <td> <\\/td><td> <\\/td><td> <\\/td><td> <\\/td> <\\/tr>\\n<tr><td> <\\/td> <td><a href='http:\\/\\/4travel.jp\\/traveler\\/kamosan\\/pict\\/10568417\\/'> <img border='0' src='http:\\/\\/
KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせ
lang=enを指定できるようにしました。対象が英文のときに指定してください。 documentもブログの記事からAPIと同じドメインに移動させつつ更新。怪しげですが英語で書いてみました。 Documentation for Term Extraction API “KOSHIAN” ところでKOSHIANのアルゴリズムについてですが、要素としては キーワードとなる辞書をごりごり作成キーワードと入力された文章のパターンマッチング前処理に形態素解析器(MeCabとかChaSen)は利用していません。はてブを見たら形態素解析のタグが一番大きくなっていてびっくりしました(笑) 辞書さえ作れればどんな言語にでもほぼ同じアルゴリズムでキーワードを抽出できるはずです。辞書は複数の情報源の組み合わせですが、Wikipediaを多く利用させていただいています。 現状で認識している問題点: 入力時の全角英数
エラー<error> <message>GET/POST param q is invalid.</message> </error>米Y!の同じ機能を持ったAPIを参考にしています。 Term Extraction Documentation for Yahoo! Search Web Services サンプルレスポンス http://zuzara.dyndns.org/api/koshian?q=Microsoft+マイクロソフト <ResultSet> <Result id="2454">MICROSOFT</Result> <Result id="2454">マイクロソフト</Result> </ResultSet>デモフォーム 適当な文章を入力してください。 注意点 サーバの回線が細いのが不安です。将来的にドメイン名が変わる可能性が高いです。蹴飛ばしてケーブルが抜ける等の生活に
追記:清書としてusing API;でAPIに関するブログをはじめました。 「ProgrammableWeb: Web 2.0 Mashup Matrix」には海外のAPIがずらりと並んでいますが、日本語圏のAPIの最新のリストは見当たらなかったので集めてみました。 Nakamura-KU ADDICT <>invGeocoder のREST 緯度経度を引数に住所を返す写真共有「フォト蔵」Geocoding API – 住所から緯度経度を検索RSSナビ –開発者の方 (RSSナビ RSET API)Simple API – ウェブサイト・サムネイル化ツールlivedoor PICS WebService – livedoor PICS サービスのお知らせ – livedoor Wiki(ウィキ)ヨコナビ – livedoor ReaderのAPI一覧Weather Hacks – live
Yahoo!カテゴリWebサービス(ディレクトリツリー)を使って、過去10年間にカテゴリに登録されたサイト数をビジュアライズしてみました。 1つ1つの円が1日に登録されたサイト数、下に行くほど新しくなります。一番上だと1995年。目立つところでは上の方に大きな円があり、それは1996年3月14日に一気に登録されたようです。最近の方が円が大きいので登録数はどんどん増えているようで、それは単にYahoo!サーファーが増えているのか優良サイトが増えているからなのか。 なお、上記の画像はPNGにしてしまっていますが、描画にはFirefox1.5系の新機能、canvas(とJavaScript)を使ってみました。手軽で便利。データの読み込みはAjax風に。 This entry was posted in つくる. Bookmark the permalink. Both comments and
zuzara.comの各サービスはロリポップのサーバで運営されています。日頃の感謝を込めて月額263円のサービスを「ホリデープログラミング」する上でいかに使い倒しているか紹介したいと思います。 安いムームードメインで独自ドメインの.comを買っても初年度約5000円の投資のみ。これは、ものすごいコストパフォーマンスだと思う。 サブドメインバーチャルホストと思われる設定をWeb上の管理画面から行え、サブドメインが無制限に作れる。(ドキュメントに明記されていない模様だが制限はあるかもしれない)各サービスごとに絶対パスが/になってくれるので管理がちょっと楽。 PHP+MySQL2009年6月現在はPHP5を選択できるようになった。今から使うのであれば自動的に5になる。バージョンは5.2.6。コンパイルオプションは以下。curlやopensslが使えるようになった。5から登場のPDOやjsonも使
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く