タグ

2007年8月24日のブックマーク (7件)

  • キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)

    いわゆる「Web2.0」っぽい要素である「タグ」。 一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。 ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。 動作要件の敷居が低い 辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる 希望の結果に近づけるためのチューニングが可能 モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます(

  • Kazuho@Cybozu Labs: Lingua::JA::Summarize 0.03, 0.04

    « Perl Monger への道は遠い | メイン | はてな認証 API » 2006年05月02日 Lingua::JA::Summarize 0.03, 0.04 Lingua::JA::Summarize の 0.03 と 0.04 をリリースしました。CPAN のミラーにはまだ届いていないと思いますので、http://search.cpan.org/~kazuho/ からダウンロード願います。 0.03 では、TF-IDF の計算式が間違っていたという恐ろしいバグを修正しました (すいませんすいません)。正しく修正できていると思います。たぶん... なお、チューニングとして、複数の形態素を結合する場合のコスト計算は sum(log(probability))*(log(wordcount)*0.7+1)、TF は occurences-0.5 としています。 それだけではあんま

  • ライブドアブログ|無料で豊富な機能が充実

    以前派遣された会社で、同年代のA子と仲良くなった。 A子から「今度飲みに行きませんか」と誘われたんだけど… 車で帰宅中急激な腹痛でトイレにかけこむもなんと4人も待ってた、この時点で気が遠くなったけど我慢。 私の前が丁度共用にあたり動いた瞬間お腹が臨界点を迎え…ごめん

    ライブドアブログ|無料で豊富な機能が充実
  • POE - D-6 [相変わらず根無し]

  • perl - PoCo::Client::HTTP < LWP::UserAgent->new(keep_alive => 1) : 404 Blog Not Found

    2007年04月25日02:00 カテゴリLightweight Languages perl - PoCo::Client::HTTP < LWP::UserAgent->new(keep_alive => 1) POEが大流行しています。私自身POEはちょくちょく使っているのですが、サーバーはとにかくクライアントとなるとそれほど使っていません。 理由は、以下ではありません D-5 出張版 - [開発] PoCo::Client::HTTP decodes content (w/o Permission) Kazuho@Cybozu Labs: Re: PoCo::Client::HTTP が勝手に文字コードを変えてしまう件 理由は、もっと単純。非効率だからです。 以下をご覧下さい。ここでは10000bytesのコンテントを同じサーバーに100回取りに行っています。 % perl lwp

    perl - PoCo::Client::HTTP < LWP::UserAgent->new(keep_alive => 1) : 404 Blog Not Found
  • 秋元@サイボウズラボ・プログラマー・ブログ: Seam Carving - 自然な画像リサイズを動的に行なうソフトウェア

    via Digg Siggraph2007で発表されたというSeam Carving技術。そのSeam Carving for content-aware image resizingという動画で解説されているのは、画像 […] via Digg Siggraph2007で発表されたというSeam Carving技術。そのSeam Carving for content-aware image resizingという動画で解説されているのは、画像内のひとまとまりの図形・物などの形を維持したままで、不要な部分を削って縮めることができるという技術。(論文 pdf) 説明がわかりにくくて申し訳ない。見てもらったほうがぜったい早い。 オリジナルのQuickTime動画はこちら これを使うと、写真の中の鍵となる写真や人物を常に保存しつつも、見ているPCや携帯端末の画面サイズに合わせてイメージを縮める

    秋元@サイボウズラボ・プログラマー・ブログ: Seam Carving - 自然な画像リサイズを動的に行なうソフトウェア
  • アンカテ(Uncategorizable Blog) - 「世の中は厳しい」なんて大嘘

    個人にある種の才覚とネット上での行動力さえあれば、リアル社会に依存せずとも、ネット上に生まれた十分大きな経済圏を泳ぐことで生きていける。書が紹介する20人の先駆者たちが証明しているのは、そういうことだ。「ニート」だ「引きこもり」だと親が心配して騒いでいる間に、実は息子や娘たちがインターネット経済圏で両親の倍も三倍も稼いでいたなんて事例は、「次の十年」を待たずして続々と報告されることだろう。 これは、2年前の2005年8月に書かれた梅田さんの書評だけど、「次の十年を待たずして続々と報告されることだろう」という予測は、見事に当たった。 厳しい雇用環境下に置かれる「就職氷河期世代」の20代~30代 の若者たちの中から、会社に雇用されることを捨て、自営志向による不労所得 に時間をかけ、親や同世代以上の年収を稼ぐようになった「ネオニート」といわれる成功者が現れ始めている。 しかし、こういう報告は、

    アンカテ(Uncategorizable Blog) - 「世の中は厳しい」なんて大嘘