タグ

ブックマーク / www.cl.ecei.tohoku.ac.jp (7)

  • 日本語 Temporal Awareness コーパス ver 0.1 (2016/06/06)

    コーパスは、日語ツイート内に現れる地名語に対して、ツイートの著者(以下、著者)が「その場に現在いるのか」「いたのか」「行く予定なのか」「言及しているだけなのか」(Liらが文献[3]で Temporal Awarenessと呼んでいる概念と対応)を、ツイートを読んだ第三者がクラウドソーシングを用いて付与したコーパスです。 コーパスを用いて訓練したモデルは、以下のような応用が考えられます: 観光地等のスポットの混雑予測 スポットの現在実況のみの収集/要約 スポットを実際に訪れた人の感想や意見のみをフィルタリング アノテーションガイドライン 以下の10種類のターゲット(地名語)を含むツイート各1200ツイートを元データとし、 Yahoo! クラウドソーシング を用いて以下のようなガイドラインのもとでアノテーションを収集しました。 固有名詞 秋葉原 仙台 渋谷駅 清水寺 スカイツリー 一般名

  • 日本語Wikificationコーパス ver 0.1 (2016/03/10)

    コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。 日語に対するEntity Linking, Wikificationエンジンの開発や評価に利用されることを想定して構築されました。 コーパスの構築にあたってベースとした拡張固有表現タグ付きコーパスは、BCCWJのコアデータに対して、関根の拡張固有表現(Version 7.1)の境界情報を人手で付与したコーパスです。コーパスでは、拡張固有表現タグ付きコーパスに付与されているENEのうち、以下のENEを除いたENEに、Wikipediaエントリを付与しています。 時間表現 / 数値表現 / アドレス / 称号名_その他(「くん」「さん」「様」等) / 施設部分名(「二階」「南口」「202号室」等) BCCWJ

  • 場所参照表現タグ付きコーパス Ver 0.1 (2015/05/25)

    概要 コーパスは,Twitterからランダムにサンプリングしたテキストに現れる,「特定の場所を著者が想定している」と判断できる表現に対して,実際にどのエンティティを指しているかを人手で判断しエンティティ情報を付与したコーパスです.GeoNLPなどのジオパーズシステム,エンティティリンキングシステム等の開発や評価に利用することを想定して構築されました. コーパスには以下のような特徴があります. 施設名へのアノテーション付与 : いわゆる「地名」(市区町村名など)だけではなく,「施設名」(駅名等)に対してもエンティティを付与しています. 一般名詞からなる表現にも付与 : 「特定の場所を著者が想定している」表現というと,すぐに思い浮かぶのは都道府県名・駅名などの固有名詞ですが,上図における「バス停」のように,一般名詞であっても,特定の場所を指し示す表現が存在するため,それらへもアノテーション

  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

    skozawa
    skozawa 2015/03/12
  • 第6回最先端NLP勉強会

    概要 自然言語処理分野においてトップカンファレンスと言われるACL 2014、および関連ジャーナルTACLで 2014に発表された論文の中から、参加者の投票によって厳選した論文を、各参加者が紹介するという形式で行われます。 勉強会の参加者は、各自1~2の論文を担当し、今回は全体で26の論文発表が行われます。 第1回目は1研究室のメンバーを中心とした会でしたが、第2回目より、研究室の枠を超え、東京近郊の様々な研究室の学生・研究者有志一同による勉強会として開催しております。 このイベントを通じて、研究者・学生間の活発な情報交換・意見交換・交流が行われ、今後の研究に活かされることを研究会の狙いとしています。 過去の勉強会の様子 スケジュール 9月4日(木) セッション1:(発表4件) Representation Learning for Text-level Discourse Pars

    第6回最先端NLP勉強会
  • 自然言語処理分野における ディープラーニングの現状

    ⾃ࠞ然⾔ࢠ語処理ྞ分野における ディープラーニングの現状 渡邉 ̀陽太郎ྒ 東北ྖ⼤֒学⼤֒学院情報科学研究科 IBIS2013 企画セッション2:ディープラーニング 2013/11/12 NLPにおけるディープラーニング 2 ⾔ࢠ語モデル の構築 ⾔ࢠ語の構成性 のモデル化 構成的意味論ྔ ⾔ࢠ語解析 (構造予測) Recursive Neural Networks Autoencoders (Socher et al., 2011, 2012, 2013) RBM (Minh and Hinton 2007) Feed-forward Deep NN (Bengio et al., 2003, Arisoy et al., 2012) Recurrent NN (Mikolov et al., 2010) (Wang and Manning 2013) (Mansur et al.,

  • 言語処理100本ノック - 東北大学 乾研究室 / Inui Lab, Tohoku University

    FrontPage / 言語処理100ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

    skozawa
    skozawa 2012/04/13
  • 1