タグ

ブックマーク / www.cl.ecei.tohoku.ac.jp (3)

  • 場所参照表現タグ付きコーパス Ver 0.1 (2015/05/25)

    概要 コーパスは,Twitterからランダムにサンプリングしたテキストに現れる,「特定の場所を著者が想定している」と判断できる表現に対して,実際にどのエンティティを指しているかを人手で判断しエンティティ情報を付与したコーパスです.GeoNLPなどのジオパーズシステム,エンティティリンキングシステム等の開発や評価に利用することを想定して構築されました. コーパスには以下のような特徴があります. 施設名へのアノテーション付与 : いわゆる「地名」(市区町村名など)だけではなく,「施設名」(駅名等)に対してもエンティティを付与しています. 一般名詞からなる表現にも付与 : 「特定の場所を著者が想定している」表現というと,すぐに思い浮かぶのは都道府県名・駅名などの固有名詞ですが,上図における「バス停」のように,一般名詞であっても,特定の場所を指し示す表現が存在するため,それらへもアノテーション

  • NLP 100 Drill Exercises - 東北大学 乾研究室 / Inui Lab, Tohoku University

    言語処理100ノックについて † 言語処理100ノックは,言語処理を志す人を対象とした,プログラミングのトレーニング問題集です. 乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています. このトレーニングは,以下の点に配慮してデザインされています. 自然言語処理の研究を進める上で,一度は書いておいた方がよいプログラム 統計,機械学習,データベースなどの便利な概念・ツールを体験する 実用的で,かつワクワクするようなデータを題材とする 研究を進めるうえで重要なプログラミングのルール・作法を身につける モジュール性や組み合わせを考慮しつつ,短くてシンプルなプログラムを書く プログラムの動作を確認(デバッグ)しながらコーディングする 労力を節約する(既存のツール/プログラム/モジュールが使えるときは流用する) 計算資源(メモリ・実行時間)を無駄にしない方

  • 自然言語処理分野における ディープラーニングの現状

    ⾃ࠞ然⾔ࢠ語処理ྞ分野における ディープラーニングの現状 渡邉 ̀陽太郎ྒ 東北ྖ⼤֒学⼤֒学院情報科学研究科 IBIS2013 企画セッション2:ディープラーニング 2013/11/12 NLPにおけるディープラーニング 2 ⾔ࢠ語モデル の構築 ⾔ࢠ語の構成性 のモデル化 構成的意味論ྔ ⾔ࢠ語解析 (構造予測) Recursive Neural Networks Autoencoders (Socher et al., 2011, 2012, 2013) RBM (Minh and Hinton 2007) Feed-forward Deep NN (Bengio et al., 2003, Arisoy et al., 2012) Recurrent NN (Mikolov et al., 2010) (Wang and Manning 2013) (Mansur et al.,

  • 1