タグ

ブックマーク / blog.zuzara.com (6)

  • ペーパードライバーがカリフォルニア州の免許を取るまで

    rhosoi
    rhosoi 2010/06/01
    フランク高田におまかせください!(笑)Santa ClaraのDMVはまだ混んでるのね
  • 新規設立した会社で H1B をスポンサーできた

    ようやく身の振り方が決まりました。アメリカのカリフォルニア州はサンノゼにて会社を設立し、その会社で就労ビザの1つ、H1B をスポンサーすることが認可されました。H1B は専門職の従業員に与えられるビザなのでちょっと変な感じですが、今のところ起業家ビザという種類がないので、独力でビザを獲得する方法としてあるいは今後も使えるかもしれません。1年前にはこの方法で取れるとは全く思っていませんでした。アイディアならびに弁護士との仲介は Japan Relocation の平井氏によるものです。お世話になりました。 今後の動向はこちらをメインに更新していきます。 zuzara.com/blogtwitter.com/zuzara追記:入国審査もすんなり通り、無事再渡米できました。 This entry was posted in 感動する. Bookmark the permalink. Both c

    rhosoi
    rhosoi 2010/04/27
    おめでとうございまーす!
  • ブログの記事本文を抽出するAPI: TSUBUAN

    KOSHIANに続いてTSUBUANをつくりました。 URLを与えるとそのページに含まれる文らしき文章をXMLで返すAPIです。 RESTで引数はurlしかありませんが、一応仕様はこちらに。 http://zuzara.dyndns.org/docs/contentextractionapi.html サンプルレスポンス: http://zuzara.dyndns.org/api/tsubuan?url=http://blog.zuzara.com/2006/12/12/173/ アルゴリズムは以前作ったスクリプトの改良、といった感じです。精度をちゃんと数字にしていませんが、汎用的にどんなブログでも取得できるようになったと思います。必ずしもブログのみが対象ではなく、言語による依存もありません。精度実験では中国語のブログも対象にしてみました。 以前あった、ceekzさんのアイディアも使わせ

    rhosoi
    rhosoi 2006/12/30
    ふーむ・・・俺もGetSenの続きでなんかやろうかなぁ・・・
  • KOSHIANの特徴語抽出アルゴリズムについて

    lang=enを指定できるようにしました。対象が英文のときに指定してください。 documentもブログの記事からAPIと同じドメインに移動させつつ更新。怪しげですが英語で書いてみました。 Documentation for Term Extraction API “KOSHIAN” ところでKOSHIANのアルゴリズムについてですが、要素としては キーワードとなる辞書をごりごり作成キーワードと入力された文章のパターンマッチング前処理に形態素解析器(MeCabとかChaSen)は利用していません。はてブを見たら形態素解析のタグが一番大きくなっていてびっくりしました(笑) 辞書さえ作れればどんな言語にでもほぼ同じアルゴリズムでキーワードを抽出できるはずです。辞書は複数の情報源の組み合わせですが、Wikipediaを多く利用させていただいています。 現状で認識している問題点: 入力時の全角英数

    rhosoi
    rhosoi 2006/12/13
    ごりごり辞書とのパターンマッチングしてるだけの模様。ごりごり辞書はシソーラス情報ももってるのね
  • zuzara : 文章からキーワードを抜き出すAPI: KOSHIAN

    エラー<error> <message>GET/POST param q is invalid.</message> </error>米Y!の同じ機能を持ったAPIを参考にしています。 Term Extraction Documentation for Yahoo! Search Web Services サンプルレスポンス http://zuzara.dyndns.org/api/koshian?q=Microsoft+マイクロソフト <ResultSet> <Result id="2454">MICROSOFT</Result> <Result id="2454">マイクロソフト</Result> </ResultSet>デモフォーム 適当な文章を入力してください。 注意点 サーバの回線が細いのが不安です。将来的にドメイン名が変わる可能性が高いです。蹴飛ばしてケーブルが抜ける等の生活に

    rhosoi
    rhosoi 2006/12/12
    しかし、どーやって抽出してるのか教えてくれないと、もひとつ信頼できないぞ
  • zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

    ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の文を取得するケースが多いようです。 「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術Yahoo!検索 スタッフブログ Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。 ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発 ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)なんでもRSS! HTML文書からのRSS Feed 自動生成 南野朋之 奥村学:人工知能学会研究会資料 SIG-SW

    rhosoi
    rhosoi 2006/06/09
    「tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だã
  • 1