タグ

ブックマーク / www-tsujii.is.s.u-tokyo.ac.jp/~hillbig (4)

  • Minise: MIni Search Engine

    ウェブサイトは現在工事中です.ソースコード公開は10/24頃を予定しています. 概要 Miniseは最小限必要な機能をサポートした非常にコンパクトな検索エンジンです.検索対象の文章に対し索引を構築し,検索クエリに対する全文検索を行うことができます. 索引の種類として逐次検索,転置ファイル,N-gram,接尾辞配列をサポートしています.また検索結果の取得については定義済みのスコア以外にユーザー定義のスコアを用いたランキングを行うことができます. 主な利用用途として、小〜中規模の検索向けまた,教育用,研究用目的に使われることを想定されております. ダウンロード Miniseはフリーソフトウェアです.修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. 2009-10-24: Minise 0.01 リリース予定 2009-10-21: ホームページ公開 使い方

    pcod
    pcod 2009/11/15
  • Tx: Succinct Trie Data Structure

    English 概要 TxはコンパクトなTrieを構築するためのライブラリです.従来のTrieの実装(darts等)に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です.Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます.内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています. ダウンロード Txはフリーソフトウェアです.BSD ライセンスに従ってソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx

    pcod
    pcod 2009/02/20
  • Bep: 大規模コレクション向けの連想配列

    English 概要 Bepは大規模なコレクションからなる連想配列を扱うためのライブラリです.連想配列は文字列からなるキーを利用して任意のオブジェクトを登録・参照できるデータ構造です.C++ではSTL map, hash_mapなどが知られていますが,数千万から数億個のコレクションを処理する場合,使用メモリ量が非常に大きくなってしまう問題点がありました.Bepは内部に最小完全ハッシュ関数を利用し,従来の実装に比べ少ない作業領域量でコレクションを保持します.キー自体を除けば,1keyあたりの作業領域量は約3bitです(全体では,(keyを全てつなげた長さ) + (3/8*key種類数)バイト必要です) ダウンロード Bepはフリーソフトウェアです.BSD ライセンスに従ってソフトウェアを使用,再配布することができます. bep-0.01.tar.gz: HTTP 更新情報 2007-

  • 形態素周辺確率を用いた確率的単語分割コーパスの構築とその応用

    形態素周辺確率を用いた 確率的単語分割コーパスの構築とその応用 岡野原 大輔 † 工藤 拓 ‡ 森 信介 § † 東京大学情報理工学系研究科コンピュータ科学専攻 ‡Google Japan § 日 IBM 東京基礎研究所 hillbig@is.s.u-tokyo.ac.jp, taku@google.com, mori@fw.ipsj.or.jp 1 概要 稿では、入力テキストの基単位への分割情報を曖 昧性を保ったままコンパクトに保持し、オンライン時に 適切な処理単位を求める手法を提案する.情報検索や文 書分類などにおいては、与えられたテキストを単語など 適切な処理単位に分割した上で扱う場合が多い.この時、 どのような分割が最適かはタスク依存であり決定できな いため、曖昧性を保ったまま分割情報を保持することが 望まれる.稿では CRF を用いた形態素解析結果の周 辺確率を用いて各

  • 1