言語処理100本ノックについて † 言語処理100本ノックは,言語処理を志す人を対象とした,プログラミングのトレーニング問題集です. 乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています. このトレーニングは,以下の点に配慮してデザインされています. 自然言語処理の研究を進める上で,一度は書いておいた方がよいプログラム 統計,機械学習,データベースなどの便利な概念・ツールを体験する 実用的で,かつワクワクするようなデータを題材とする 研究を進めるうえで重要なプログラミングのルール・作法を身につける モジュール性や組み合わせを考慮しつつ,短くてシンプルなプログラムを書く プログラムの動作を確認(デバッグ)しながらコーディングする 労力を節約する(既存のツール/プログラム/モジュールが使えるときは流用する) 計算資源(メモリ・実行時間)を無駄にしない方
⾃ࠞ然⾔ࢠ語処理ྞ分野における ディープラーニングの現状 渡邉 ̀陽太郎ྒ 東北ྖ⼤֒学⼤֒学院情報科学研究科 IBIS2013 企画セッション2:ディープラーニング 2013/11/12 NLPにおけるディープラーニング 2 ⾔ࢠ語モデル の構築 ⾔ࢠ語の構成性 のモデル化 構成的意味論ྔ ⾔ࢠ語解析 (構造予測) Recursive Neural Networks Autoencoders (Socher et al., 2011, 2012, 2013) RBM (Minh and Hinton 2007) Feed-forward Deep NN (Bengio et al., 2003, Arisoy et al., 2012) Recurrent NN (Mikolov et al., 2010) (Wang and Manning 2013) (Mansur et al.,
Abstract: Matching Algorithm with Recursively Implemented StorAge (MARISA) は Trie をコンパクトに表現する程度の能力を持つデータ構造です.libmarisa は MARISA を C++ で実装したライブラリであり,MARISA による辞書を構築したり,辞書からの検索をおこなったりできます.libmarisa の基本的な機能に対応するコマンドラインツールを用意しているので,辞書のサイズがどのくらいになるのか,検索にどのくらい時間がかかるのか,などを手軽に試すことができます. 概要 Matching Algorithm with Recursively Implemented StorAge (MARISA) は Trie に対するコンパクトなデータ構造であり,動的な更新には対応していないものの,高い空間効率と
LOUDSは木構造を非常に小さなデータサイズで表現することができる簡潔データ構造の一種。とくに自然言語処理ではトライ木という木構造が重要で形態素解析や日本語入力(IME)など多くの場面で利用されている。 トライ木としてはdouble arrayが有名。LOUDSはdouble arrayより速度で劣る反面、データサイズを非常に小さく抑えることが可能である。このため近年、大規模データを扱うためのデータ構造として注目されている。 LOUDSを用いたトライ木には優れた実装がいくつかある。なかでも有名なものとして@s5yata氏によるmarisa-trieと@hillbig氏によるux-trieがある(ux-trieのクローンであるrx-trieはGoogleIMEで利用されている)。 今回はこれらのライブラリと、参考までに私の作ったerika-trieを使ってみて簡単に性能比較をしてみた。 評価
eoblogは 2017年3月31日(金)15:00 をもってサービスを終了いたしました。 長年にわたりご愛顧いただき誠にありがとうございました。
Tricks for Statistical Semantic Knowledge Discovery: A Selectionally Restricted Sample Marti Hearst (UC Berkeley) Talk slides
今日からメインの会議が始まった。備忘録的に聞いた内容をまとめておこうかと思う。メモ取っていないトークとポスターは割愛。ちなみに論文はすでにACL Anthology に入っているので、タイトルで検索すれば PDF が落とせる(面倒くさいので下のメモからリンクは張っていない)。 Shane Bergsma, Dekang Lin and Randy Goebel. Discriminative Learning of Selectional Preference from Unlabeled Text. Selectional preference というと自己相互情報量(pointwise mutual information)とかχ^2スコアとか使って共起の強さを計るのがよくある常套手段だったが、この論文では教師あり学習(線形分類問題に帰着)を用いて selectional prefer
The Lemur Project develops search engines, browser toolbars, text analysis tools, and data resources that support research and development of information retrieval and text mining software. The project is best known for its Indri search engine, Lemur Toolbar, and ClueWeb09 dataset. Our software and datasets are used widely in scientific and research applications, as well as in some commercial appl
更新履歴 2004/01/07 O(N) 構築アルゴリズム三種追加(Ko &Alulu, Kim & al., Karkkainen & Sanders) Suffix Arrayは、最近注目を集めているデータ構造です。その理由として、 (1)大規模なデータに対して、高速に検索、情報抽出を行うことができる (2)BWTとしてデータ圧縮に用いることができる。 ことが挙げられます。(1)に関しては自然言語処理において、膨大な量のコーパスから情報(例えば、単語の出現回数など)を調べるときににSuffix Arrayを用いると非常に高速に求めることができます。 膨大な量のコーパスに基づいた自然言語処理が盛んになってきている今、Suffix Arrayが注目を集めています。 また、ゲノム情報を調べるバイオインフォマティクスにおいても、ここの配列と似ている部分(例えばCCAG)を調べるといった場合
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く