タグ

ブックマーク / shuyo.hatenablog.com (3)

  • WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足

    昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 文抽出」について話をさせていただきました。 CRF を使った Web 文抽出 for WebDB Forum 2011 View more presentations from Shuyo Nakatani この発表は、過去に2回(自然言語処理勉強会@東京(TokyoNLP) 第1回、確率の科学研究会 第1回)で話をさせてもらったことと、WebDB Forum という場であること、さらに発表時間が 20分*1ということを考えて、今回は非常にスリムな内容になっています。 CRF についてはズバッとはしょって、その代わりに系列ラベリングを文抽出に使うというのはどういうことか、という図を入れましたので、さらっと読むには一番わかりやすいのでは

    WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足
  • WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010 - 木曜不足

    11月11〜12日に早稲田大学 理工学院にて行われた Webとデータベースに関するフォーラム (WebDB Forum 2010) に参加してきました。 サイボウズがフォーラムのシルバースポンサーを務めており、そちらの関係から 12日の技術報告セッションにおいて「国際化時代の40カ国語言語判定」と題し、以前開発したオープンソースの言語判定ライブラリについて発表させていただきました。 発表に用いましたプレゼンテーション資料はこちらです。*1 発表時は口頭で加えていた注釈のいくつかを追加してあります。 国際化時代の40カ国語言語判定 from Shuyo Nakatani なお、ご紹介した言語判定ライブラリ for Java はこちらです。 Google Code Archive - Long-term storage for Google Code Project Hosting. lan

    WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010 - 木曜不足
  • PostgreSQL で簡易に MQ - 木曜不足

    「PostgreSQL で安くて早くてうまい MQ 作ってね」的ミッションがどこからともなく降ってきたので、色々調べて試してみたところ、案外よい方法が見つかったので、まとめてみた。 [4/24] 複数キューを扱う場合の方法を tableoid を利用するように更新。 [4/27] フィルタ条件を付ける場合の記法について追記(WHERE 句内の評価順の明示的指定) [4/30] 優先順位に ORDER BY は利用できない旨追記 鍵は advisory lock。PostgreSQL 8.2 以降の機能だ。 メッセージキューと言っても、安くて早いわけだからもちろんフルフルの高機能なわけなく、いろいろ制限がある。 receiver は複数可。メッセージは receiver の一つが受信する。ブロードキャスト/マルチキャストは対象外。 ack あり。ack せずに receiver が落ちた場合

    PostgreSQL で簡易に MQ - 木曜不足
  • 1