alfaladioのブックマーク / 2009年12月24日

alfaladio id:alfaladio

2009年12月24日のブックマーク (7件)

大規模データを基にした自然言語
大規模データを基にした自然言語叀 2009/3/13 SIGFPAI @学習院大自然言語叀岡野原大輔東京大学情報工学研科コンピュータ科学専攻辻井研 hillbig@is.s.u-tokyo.ac.jp 背景 • 匏用可能な言語資源の急な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ( 1010 語) – 従来の言語資源 Penn treebank ( 106語)– 従来の言語資源 Penn treebank ( 10 語) • より多くのデータ⇒ も向上 – 統計的機械翻訳 [Brants+, EM NLP 07] • 言語資源のの対数で翻訳は線形に上昇 – 博卝有学習によるラベリング [Suzuki+, ACL 09] – 単語の類似計算 [柴田+, NLP 09] 発表の概要 • 大
alfaladio 2009/12/24
大規模データを基にした自然言語処理

文書

学習

perceptron
リンク
Freeware - 機械学習の「朱鷺の杜Wiki」
統計，機械学習，データマイニングのためのフリーウェアを登録しましょう． ID は ibis でパスワードは VC 次元の V のフルスペルです（頭だけ大文字）大規模でいろいろな機能のある Freeware はこのページにまとめました．その他の単機能の Freeware は各ページにあります．「Freeware」で検索してください．検索:Freeware 目次：(総合) (個別) 詳細情報を別ページにまとめました† 機械学習全般のソフトについて：機械学習#Freeware 関連フリーソフトを掲載している主な項目：最適化, 行列, SVM, グラフィカルモデル, クラスタリング, 自然言語処理, ニューラルネット, 強化学習, 遺伝的アルゴリズム, 隠れMarkovモデル, 自己組織化マップ検索:Freeware：特定の手法をに対する実装は，個別ページにまとめたので検索してください．
alfaladio 2009/12/24
リンク
Emacs22 + UTF-8 における文脈依存な文字幅の問題について
- 6 users
- pqrs.org
- 学び
UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。文字によって幅を変えるプロポーショナルフォントを前提としたテキストであればあまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは表示がガタガタになってしまい問題になります。これらの文字を wide character として判別させるには以下の設定を
alfaladio 2009/12/24
emacs
リンク
公開ツール - NAIST Computational Linguistics
松本研究室で開発した自然言語処理ツールの一覧です．公開中のツール日本語形態素解析システム ChaSen 「茶筌」品詞タグ付きコーパス作成支援 GUI ツール VisualMorphs 日本語係り受け解析システム CaboCha「南瓜」汎用テキストチャンカー/タガー YamCha SVM 学習ツール TinySVM Large margin confidence-weighted オンライン学習ツール AROW++ Latent Dirichlet Allocation 学習ツール lda 高速形態素解析器システム MeCab 高速文字列検索システム SUFARY コーパス管理・検索ツール「茶器」日本語述語項構造解析器 SynCha「新茶」統計的日本語校正 Chantokun「ちゃんとくん」英語誤り検出 NAIST Error Detection System at EDC
alfaladio 2009/12/24
リンク
松本研究室 - NAIST Computational Linguistics
自然言語処理学研究室 (松本裕治研究室) では† 計算機による自然言語の自動解析・理解にむけて，言語構造の解明と定式化の研究を行っています．あわせて自然言語処理技術の応用についても研究しています．主な研究内容
alfaladio 2009/12/24
NAIST

研究

programming

自然言語処理

nlp
リンク
The Ubuntu NLP Repository
This repository contains packages to facilitate natural language processing under Ubuntu Linux and other Debian-based platforms. The goal of Ubuntu NLP is to provide up-to-date packages for commonly used tools that can be easily installed and smoothly integrated into existing systems. This repository was created by Eric Nichols . Please contact me if any probl ems are encountered using these packag
alfaladio 2009/12/24
ubuntu

software

NLP

Linux

repository

NaturalLanguageProc

NAIST
リンク
TinySVM - 長岡技科大自然言語処理研究室
たいにーえすぶいえむ TinySVM 奈良先端大の松本研究室が公開しているSVM学習ツール。様々なカーネルが用意されている。また自作カーネルを使うことも可能である。とりあえずSVMにつっこんでみようという時に良く使う。 http://chasen.org/~taku/software/TinySVM/ [編集] 使い方 Tiny SVMの簡単な使い方。 ■素性の書き方 1 1:5 2:4 3:2 (正例) -1 4:1 5:3 6:3 (負例) まず、一番左の数字が"1"の場合、正例の素性である。これが"-1"の場合は負例の素性である。 ":"(ｺﾛﾝ)の左側の数字が『素性番号』、右側の数字が『素性の重み』である。素性番号には、単語や品詞を対応させ、重みには出現回数や確率を対応させる。 ■学習データを作成まずは、学習データとして、テキストファイルを作成する。例えば、以下
alfaladio 2009/12/24
SVM

学習

研究

algorithm

プログラミング

プログラム

programming
リンク
- 2009年12月26日
- 2009年12月24日
- 2009年12月23日