タグ

2009年12月24日のブックマーク (7件)

  • 大規模データを基にした 自然言語

    大規模データを基にした 自然言語叀 2009/3/13 SIGFPAI @学習院大 自然言語叀 岡野原大輔 東京大学情報 工学 研 科 コンピュータ科学専攻 辻井研 hillbig@is.s.u-tokyo.ac.jp 背景 • 匏用可能な言語資源の急 な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ( 1010 語) – 従来の言語資源 Penn treebank ( 106語)– 従来の言語資源 Penn treebank ( 10 語) • より多くのデータ⇒ も向上 – 統計的機械翻訳 [Brants+, EMNLP 07] • 言語資源の の対数で翻訳 は線形に上昇 – 博卝 有学習による ラベリング [Suzuki+, ACL 09] – 単語の類似 計算 [柴田+, NLP 09] 発表の概要 • 大

    alfaladio
    alfaladio 2009/12/24
    大規模データを基にした自然言語処理
  • Freeware - 機械学習の「朱鷺の杜Wiki」

    統計,機械学習,データマイニングのためのフリーウェアを登録しましょう. ID は ibis でパスワードは VC 次元の V のフルスペルです(頭だけ大文字) 大規模でいろいろな機能のある Freeware はこのページにまとめました. その他の単機能の Freeware は各ページにあります.「Freeware」で検索してください. 検索:Freeware 目次:(総合) (個別) 詳細情報を別ページにまとめました† 機械学習全般のソフトについて:機械学習#Freeware 関連フリーソフトを掲載している主な項目: 最適化, 行列, SVM, グラフィカルモデル, クラスタリング, 自然言語処理, ニューラルネット, 強化学習, 遺伝的アルゴリズム, 隠れMarkovモデル, 自己組織化マップ 検索:Freeware:特定の手法をに対する実装は,個別ページにまとめたので検索してください.

    alfaladio
    alfaladio 2009/12/24
  • Emacs22 + UTF-8 における文脈依存な文字幅の問題について

    UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を

  • 公開ツール - NAIST Computational Linguistics

    研究室で開発した自然言語処理ツールの一覧です. 公開中のツール 日形態素解析システム ChaSen 「茶筌」 品詞タグ付きコーパス作成支援 GUI ツール VisualMorphs 日語係り受け解析システム CaboCha「南瓜」 汎用 テキストチャンカー/タガー YamCha SVM 学習ツール TinySVM Large margin confidence-weighted オンライン学習ツール AROW++ Latent Dirichlet Allocation 学習ツール lda 高速形態素解析器システム MeCab 高速文字列検索システム SUFARY コーパス管理・検索ツール 「茶器」 日語述語項構造解析器 SynCha「新茶」 統計的日語校正 Chantokun「ちゃんとくん」 英語誤り検出 NAIST Error Detection System at EDC

    alfaladio
    alfaladio 2009/12/24
  • 松本研究室 - NAIST Computational Linguistics

    自然言語処理学研究室 (松裕治研究室) では† 計算機による自然言語の自動解析・理解にむけて,言語構造の解明と定式化の研究を行っています.あわせて自然言語処理技術の応用についても研究しています. 主な研究内容

  • The Ubuntu NLP Repository

    This repository contains packages to facilitate natural language processing under Ubuntu Linux and other Debian-based platforms. The goal of Ubuntu NLP is to provide up-to-date packages for commonly used tools that can be easily installed and smoothly integrated into existing systems. This repository was created by Eric Nichols . Please contact me if any problems are encountered using these packag

  • TinySVM - 長岡技科大 自然言語処理研究室

    たいにーえすぶいえむ TinySVM 奈良先端大の松研究室が公開しているSVM学習ツール。様々なカーネルが用意されている。また自作カーネルを使うことも可能である。 とりあえずSVMにつっこんでみようという時に良く使う。 http://chasen.org/~taku/software/TinySVM/ [編集] 使い方 Tiny SVMの簡単な使い方。 ■素性の書き方 1 1:5 2:4 3:2 (正例) -1 4:1 5:3 6:3 (負例) まず、一番左の数字が"1"の場合、正例の素性である。これが"-1"の場合は負例の素性である。 ":"(コロン)の左側の数字が『素性番号』、右側の数字が『素性の重み』である。 素性番号には、単語や品詞を対応させ、重みには出現回数や確率を対応させる。 ■学習データを作成 まずは、学習データとして、テキストファイルを作成する。 例えば、以下