nilabのブックマーク - はてなブックマーク

JTPA のギークサロンで API について語ってきました

nilab 2009/07/22

JTPA のギークサロンで API について語ってきました « zuzara : 「船木信宏氏とWeb APIについて語る」 – JTPA : 動画とPDF資料「WEB API」

webapi

リンク

zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW

nilab 2007/09/18

zuzara.com ブログの記事本文を抽出するスクリプトをつくってみた:gooではRSSのdescriptionの内容がブログのHTMLのどこに入ってるかを探してるだけらしい

リンク

HANAABI!!：wacaal APIで情報の花火を打ち上げてみた

HANAABI!! wacaal APIで拾ってきたSAGOOLの検索クエリー1つ1つを火花にして打ち上げてみました。春先のまだ肌寒いこの季節、散っていくクエリーたちに何か哀愁を感じずにはいられません。音量はいつもより大きめでお願いします。なお、調子に乗って花火を打ち上げ過ぎるとブラウザが低温火傷しかねないのでご注意ください。えー、ネーミングはかなりいいんじゃないかと思っていますが、全体的には脳汁が切れた感じです。コンテストの締め切りまではあと18時間ばかり。サン・マイクロシステムズ – Mash up Award 2nd This entry was posted in つくる. Bookmark the permalink. Both comments and trackbacks are currently closed.

nilab 2007/03/30

zuzara : HANAABI!!：wacaal APIで情報の花火を打ち上げてみた

ajax

リンク

4travelの写真でフォント(?)をつくるAPI: “phont”

出力JSON/JSONP（Content-Type: application/json）例） callback({"test":"<table><tr>\\n<td>\\n<table>\\n<tr><td> <\\/td> <td> <\\/td><td> <\\/td><td> <\\/td><td> <\\/td> <td> <\\/td><td> <\\/td><td> <\\/td><td> <\\/td> <\\/tr>\\n<tr><td> <\\/td> <td><a href='http:\\/\\/4travel.jp\\/traveler\\/kamosan\\/pict\\/10568417\\/'> <img border='0' src='http:\\/\\/

nilab 2007/01/29

zuzara : 4travelの写真でフォント(?)をつくるAPI: "phont"

webapi

リンク

ブログの記事本文を抽出するAPI: TSUBUAN

KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス： http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。以前あった、ceekzさんのアイディアも使わせ

nilab 2007/01/08

zuzara : ブログの記事本文を抽出するAPI: TSUBUAN

blog_analysis

リンク

KOSHIANの特徴語抽出アルゴリズムについて

lang=enを指定できるようにしました。対象が英文のときに指定してください。 documentもブログの記事からAPIと同じドメインに移動させつつ更新。怪しげですが英語で書いてみました。 Documentation for Term Extraction API “KOSHIAN” ところでKOSHIANのアルゴリズムについてですが、要素としてはキーワードとなる辞書をごりごり作成キーワードと入力された文章のパターンマッチング前処理に形態素解析器（MeCabとかChaSen）は利用していません。はてブを見たら形態素解析のタグが一番大きくなっていてびっくりしました（笑）辞書さえ作れればどんな言語にでもほぼ同じアルゴリズムでキーワードを抽出できるはずです。辞書は複数の情報源の組み合わせですが、Wikipediaを多く利用させていただいています。現状で認識している問題点：入力時の全角英数

nilab 2007/01/08

zuzara : KOSHIANの特徴語抽出アルゴリズムについて:キーワードとなる辞書をごりごり作成:キーワードと入力された文章のパターンマッチング

特徴語抽出

リンク

zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN

エラー<error> <message>GET/POST param q is invalid.</message> </error>米Y!の同じ機能を持ったAPIを参考にしています。 Term Extraction Documentation for Yahoo! Search Web Services サンプルレスポンス http://zuzara.dyndns.org/api/koshian?q=Microsoft+マイクロソフト <ResultSet> <Result id="2454">MICROSOFT</Result> <Result id="2454">マイクロソフト</Result> </ResultSet>デモフォーム適当な文章を入力してください。注意点サーバの回線が細いのが不安です。将来的にドメイン名が変わる可能性が高いです。蹴飛ばしてケーブルが抜ける等の生活に

nilab 2006/12/15

zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN

リンク

zuzara.com » 日本で公開されているAPI一覧（下書き）

追記：清書としてusing API;でAPIに関するブログをはじめました。「ProgrammableWeb: Web 2.0 Mashup Matrix」には海外のAPIがずらりと並んでいますが、日本語圏のAPIの最新のリストは見当たらなかったので集めてみました。 Nakamura-KU ADDICT <>invGeocoder のREST 緯度経度を引数に住所を返す写真共有「フォト蔵」Geocoding API – 住所から緯度経度を検索RSSナビ –開発者の方 (RSSナビ RSET API)Simple API – ウェブサイト・サムネイル化ツールlivedoor PICS WebService – livedoor PICS サービスのお知らせ – livedoor Wiki（ウィキ）ヨコナビ – livedoor ReaderのAPI一覧Weather Hacks – live

nilab 2006/11/18

zuzara : 日本で公開されているAPI一覧（下書き）

リンク

Yahoo! JAPAN カテゴリ10年の歴史をビジュアライズ

Yahoo!カテゴリWebサービス（ディレクトリツリー）を使って、過去10年間にカテゴリに登録されたサイト数をビジュアライズしてみました。 1つ1つの円が1日に登録されたサイト数、下に行くほど新しくなります。一番上だと1995年。目立つところでは上の方に大きな円があり、それは1996年3月14日に一気に登録されたようです。最近の方が円が大きいので登録数はどんどん増えているようで、それは単にYahoo!サーファーが増えているのか優良サイトが増えているからなのか。なお、上記の画像はPNGにしてしまっていますが、描画にはFirefox1.5系の新機能、canvas（とJavaScript）を使ってみました。手軽で便利。データの読み込みはAjax風に。 This entry was posted in つくる. Bookmark the permalink. Both comments and

nilab 2006/08/11

zuzara.com � Yahoo! JAPAN カテゴリ10年の歴史をビジュアライズ

web
search

リンク

zuzara.com » 格安サーバ・ロリポップを使い倒す

zuzara.comの各サービスはロリポップのサーバで運営されています。日頃の感謝を込めて月額263円のサービスを「ホリデープログラミング」する上でいかに使い倒しているか紹介したいと思います。安いムームードメインで独自ドメインの.comを買っても初年度約5000円の投資のみ。これは、ものすごいコストパフォーマンスだと思う。サブドメインバーチャルホストと思われる設定をWeb上の管理画面から行え、サブドメインが無制限に作れる。（ドキュメントに明記されていない模様だが制限はあるかもしれない）各サービスごとに絶対パスが/になってくれるので管理がちょっと楽。 PHP+MySQL2009年6月現在はPHP5を選択できるようになった。今から使うのであれば自動的に5になる。バージョンは5.2.6。コンパイルオプションは以下。curlやopensslが使えるようになった。5から登場のPDOやjsonも使

nilab 2006/07/24

zuzara.com 格安サーバ・ロリポップを使い倒す

server

リンク

はてなブックマーク

タグ

ブックマーク / blog.zuzara.com (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス