rhosoiのブックマーク - はてなブックマーク

ペーパードライバーがカリフォルニア州の免許を取るまで

rhosoi 2010/06/01

フランク高田におまかせください！(笑)Santa ClaraのDMVはまだ混んでるのね

sfbay

リンク

ようやく身の振り方が決まりました。アメリカのカリフォルニア州はサンノゼにて会社を設立し、その会社で就労ビザの1つ、H1B をスポンサーすることが認可されました。H1B は専門職の従業員に与えられるビザなのでちょっと変な感じですが、今のところ起業家ビザという種類がないので、独力でビザを獲得する方法としてあるいは今後も使えるかもしれません。1年前にはこの方法で取れるとは全く思っていませんでした。アイディアならびに弁護士との仲介は Japan Relocation の平井氏によるものです。お世話になりました。今後の動向はこちらをメインに更新していきます。 zuzara.com/blogtwitter.com/zuzara追記：入国審査もすんなり通り、無事再渡米できました。 This entry was posted in 感動する. Bookmark the permalink. Both c

rhosoi 2010/04/27

おめでとうございまーす！

リンク

ブログの記事本文を抽出するAPI: TSUBUAN

KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる本文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス： http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。以前あった、ceekzさんのアイディアも使わせ

rhosoi 2006/12/30

ãµã¼ãã»ã»ã»ä¿ºãGetSenã®ç¶ãã§ãªãããããããªãã»ã»ã»

リンク

KOSHIANの特徴語抽出アルゴリズムについて

lang=enを指定できるようにしました。対象が英文のときに指定してください。 documentもブログの記事からAPIと同じドメインに移動させつつ更新。怪しげですが英語で書いてみました。 Documentation for Term Extraction API “KOSHIAN” ところでKOSHIANのアルゴリズムについてですが、要素としてはキーワードとなる辞書をごりごり作成キーワードと入力された文章のパターンマッチング前処理に形態素解析器（MeCabとかChaSen）は利用していません。はてブを見たら形態素解析のタグが一番大きくなっていてびっくりしました（笑）辞書さえ作れればどんな言語にでもほぼ同じアルゴリズムでキーワードを抽出できるはずです。辞書は複数の情報源の組み合わせですが、Wikipediaを多く利用させていただいています。現状で認識している問題点：入力時の全角英数

rhosoi 2006/12/13

リンク

zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN

エラー<error> <message>GET/POST param q is invalid.</message> </error>米Y!の同じ機能を持ったAPIを参考にしています。 Term Extraction Documentation for Yahoo! Search Web Services サンプルレスポンス http://zuzara.dyndns.org/api/koshian?q=Microsoft+マイクロソフト <ResultSet> <Result id="2454">MICROSOFT</Result> <Result id="2454">マイクロソフト</Result> </ResultSet>デモフォーム適当な文章を入力してください。注意点サーバの回線が細いのが不安です。将来的にドメイン名が変わる可能性が高いです。蹴飛ばしてケーブルが抜ける等の生活に

rhosoi 2006/12/12

リンク

zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW

rhosoi 2006/06/09

リンク

はてなブックマーク

タグ

ブックマーク / blog.zuzara.com (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス