サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
www.cl.ecei.tohoku.ac.jp/~yokoi
Sho Yokoi Natural Language Processing Group (Tohoku NLP Group), Graduate School of Information Sciences, Tohoku University Center for Advanced Intelligence Project, RIKEN Mail: yokoi [at] tohoku.ac.jp Twitter: @sho_yokoi_ Research Interest Geometry of word embedding space Publications [Google Scholar] [dblp] [Semantic Scholar] [ACL Anthology] [OpenReview] [Scopus] [researchmap] 2024 Yoichi Ishibas
www.cl.ecei.tohoku.ac.jp
日本語評価極性辞書(名詞編) † 評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ.名詞の評価極性は概ね以下の基準に従う(東山, 2008). 〜である・になる(評価・感情)主観: 「○○が〜である・〜になる」ことは,○○をP/Nと評価しているか? ポジティブ:誠実,安寧,親切,中立,名手,英雄,第一人者,幸せ ネガティブ:弱気,鬱 〜である・になる(状態)客観: 「〜(という状態)になる」ことは良いことか悪いことか? ポジティブ:合格者,快晴 ネガティブ:ガン 〜い(評価・感情)主観: 「〜い」は良いか悪いか? ポジティブ:美しさ ネガティブ:弱さ 〜する(感情)主観: 「〜する」は良い感情か,悪い感情か? ポジティブ:感嘆 ネガティブ:失望 〜する(出来事): 「〜する」ことは嬉しいことか嫌なことか? ポジティブ:善戦,成就,合格
Message to Students【配属を検討しているみなさんへ】 『Tohoku NLP Group の研究室(坂口・乾研, 鈴木研, 松林研)への配属を検討しているみなさんへ』 東北大学の学部3年生、および修士課程・博士課程からの進学を検討している全国のみなさんに向けた文章です。 私たちの研究室では、計算機と数理の力を用いて言語の情報処理に取り組む元気な仲間を募集しています! これを読んで私たちの研究室に少しでも興味を持ってもらえたなら、ぜひ直接研究室を訪ねてきてください。見学は常時受け入れています。実際に研究室を目で見て、メンバーと話をして、みなさんが充実した時間を過ごせそうか(空気や方針が合っているか)をじっくり確認してください。一同、みなさんとお会いできることを心から楽しみにしています。 学部3年生向け研究室紹介 のページにも関連情報をまとめてあります。 初稿:2018年11
解答可能性付き読解データセット 概要 「解答可能性付き読解データセット」は、56651件の質問・解答・文書の組に対して、「文書の読解によって質問に答えることができるかどうか」の人手による判断が付与されたデータセットです。 およそ12000件の早押しクイズの問題と正解に対して、関連する Wikipedia 記事段落(最大5件)の文章を機械的に付与し、それぞれの問題・正解・文章の組に対して、読解による解答可能性のスコアをクラウドソーシングによって付与しました。 クイズの問題には、クイズ大会「abc」および「EQIDEN」で2003年から2010年の間に使用された問題を使用しています。Wikipedia の文章としては、2017年10月1日時点の日本語版の内容を使用しています。 データセット作成方法の詳細等については、以下の文献をご参照ください。 鈴木正敏, 松田耕史, 岡崎直観, 乾健太郎.
本コーパスは,Wikipedia記事1,494件に対して,促進・抑制関係を付与したコーパスです. 記事のタイトルが促進するもの(PRO),タイトルが抑制するもの(SUP),タイトルを促進するもの(PRO_BY),タイトルを抑制するもの(SUP_BY) を,記事の概要文中の表現に対してアノテーションしました. 付与対象の記事は,社会問題,災害,病気,技術革新,政策,金融,エネルギー技術,生体物質,栄養素 の5 つのカテゴリと,そのサブカテゴリ,サブサブカテゴリに収録されている記事の中から,ランダムに1,494 件を選びました. また本コーパスは,クラウドソーシングを用いて1つの記事につき10人にアノテーションしていただきました.クラウドソーシングの利用にあたって,コーパスに関係知識を付与する作業をクラウドソーシングで完結させるため,アノテーションツールであるbratを改変し,Yahoo!クラ
www.cl.ecei.tohoku.ac.jp/~kento.w
1.はじめに LDAやHMMをはじめとする言語モデル(生成モデル)に関する文献でよく下のような図を見る. これを初めて見た人は「なんぞ?」となる人が多いと思う.かくいう私もその一人だった.(私の場合はもっと複雑な図だった.)しかしながら,業界一般的な表現方法のためか論文にはこの図の見方には一切書かれていないことがある.なので研究し始めた人はこの図を見た時点で挫折してしまう.ありがたい事に今はわかりやすい参考書があるのでこれらを読めば,なんとなくこの表記の意味がわかると思う.しかし日本語でこの手の事を詳しく説明したwebページはなかったので,自分なりにまとめてみることにした. 2.グラフィカルモデルとプレートノーテーションについて まず,多くの文献にて上のような図のことをグラフィカルモデル(表現)と述べている.ところが,実際に「グラフィカルモデル」に関してこの本やWikiページ等で調べてみて
www.cl.ecei.tohoku.ac.jp/~matsuda
本コーパスは、日本語ツイート内に現れる地名語に対して、ツイートの著者(以下、著者)が「その場に現在いるのか」「いたのか」「行く予定なのか」「言及しているだけなのか」(Liらが文献[3]で Temporal Awarenessと呼んでいる概念と対応)を、ツイートを読んだ第三者がクラウドソーシングを用いて付与したコーパスです。 本コーパスを用いて訓練したモデルは、以下のような応用が考えられます: 観光地等のスポットの混雑予測 スポットの現在実況のみの収集/要約 スポットを実際に訪れた人の感想や意見のみをフィルタリング アノテーションガイドライン 以下の10種類のターゲット(地名語)を含むツイート各1200ツイートを元データとし、 Yahoo! クラウドソーシング を用いて以下のようなガイドラインのもとでアノテーションを収集しました。 固有名詞 秋葉原 仙台 渋谷駅 清水寺 スカイツリー 一般名
www.cl.ecei.tohoku.ac.jp/~m-suzuki
お知らせ (2018/09/24) 最新版の訓練済みベクトルと訓練用のスクリプトは GitHub で公開しています。 概要 「日本語 Wikipedia エンティティベクトル」は、日本語版 Wikipedia の本文全文から学習した、単語、および Wikipedia で記事となっているエンティティの分散表現ベクトルです。Wikipedia の記事本文の抽出には WikiExtractor を、単語分割には MeCab を、単語ベクトルの学習には word2vec をそれぞれ用いています。 ダウンロード 20170201.tar.bz2 (2017年2月1日版, 1.3GB, 解凍後 2.6GB) 20161101.tar.bz2 (2016年11月1日版, 1.3GB, 解凍後 2.6GB) バイナリファイル (entity_vector.model.bin) とテキストファイル (ent
本コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。 日本語に対するEntity Linking, Wikificationエンジンの開発や評価に利用されることを想定して構築されました。 本コーパスの構築にあたってベースとした拡張固有表現タグ付きコーパスは、BCCWJのコアデータに対して、関根の拡張固有表現(Version 7.1)の境界情報を人手で付与したコーパスです。本コーパスでは、拡張固有表現タグ付きコーパスに付与されているENEのうち、以下のENEを除いたENEに、Wikipediaエントリを付与しています。 時間表現 / 数値表現 / アドレス / 称号名_その他(「くん」「さん」「様」等) / 施設部分名(「二階」「南口」「202号室」等) BCCWJ
言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています
FrontPage / Learning Scala Scala 勉強会 † ↑内容 † 自然言語処理のためにScalaの基礎を学ぶ。スライドにそって進める。 ↑2017年 † 日時 不定期 昼休み? 参加者 松林,佐々木,高橋、渡邉 ↑資料 † 第1回 🔒内部資料 第2回 🔒内部資料 第3回 🔒内部資料 第4回 🔒内部資料 第5回 🔒内部資料 第6回 🔒内部資料 第7回 🔒内部資料 第8回 🔒内部資料 © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会
概要 本コーパスは,Twitterからランダムにサンプリングしたテキストに現れる,「特定の場所を著者が想定している」と判断できる表現に対して,実際にどのエンティティを指しているかを人手で判断しエンティティ情報を付与したコーパスです.GeoNLPなどのジオパーズシステム,エンティティリンキングシステム等の開発や評価に利用することを想定して構築されました. 本コーパスには以下のような特徴があります. 施設名へのアノテーション付与 : いわゆる「地名」(市区町村名など)だけではなく,「施設名」(駅名等)に対してもエンティティを付与しています. 一般名詞からなる表現にも付与 : 「特定の場所を著者が想定している」表現というと,すぐに思い浮かぶのは都道府県名・駅名などの固有名詞ですが,上図における「バス停」のように,一般名詞であっても,特定の場所を指し示す表現が存在するため,それらへもアノテーション
www.cl.ecei.tohoku.ac.jp/~inui
乾 健太郎(Kentaro Inui)† 東北大学 大学院情報科学研究科 システム情報科学専攻 教授 工学部電気情報物理工学科 兼担 タフ・サイバーフィジカルAI研究センター 副センター長・AI研究部門長 理化学研究所 革新知能統合研究センター 自然言語理解チームリーダー 兼任 国立情報学研究所 客員教授 兼任 乾・鈴木研究室(知能情報科学講座 自然言語処理学分野) 〒980-8579 仙台市青葉区荒巻字青葉6-6-05 青葉山キャンパス 電子情報システム・応物系1号館 6階660号室 電話: 022-795-7091 ファックス: 022-795-4285 メール: kentaro.inui.e2 (at) tohoku.ac.jp twitter: @inuikentaro 研究† 研究分野(研究室の研究内容のページ) 自然言語処理 (natural language processi
www.cl.ecei.tohoku.ac.jp/~y-matsu
概要 自然言語処理分野においてトップカンファレンスと言われるACL 2014、および関連ジャーナルTACLで 2014に発表された論文の中から、参加者の投票によって厳選した論文を、各参加者が紹介するという形式で行われます。 勉強会の参加者は、各自1~2本の論文を担当し、今回は全体で26本の論文発表が行われます。 第1回目は1研究室のメンバーを中心とした会でしたが、第2回目より、研究室の枠を超え、東京近郊の様々な研究室の学生・研究者有志一同による勉強会として開催しております。 このイベントを通じて、研究者・学生間の活発な情報交換・意見交換・交流が行われ、今後の研究に活かされることを本研究会の狙いとしています。 過去の勉強会の様子 スケジュール 9月4日(木) セッション1:(発表4件) Representation Learning for Text-level Discourse Pars
言語処理100本ノックについて † 言語処理100本ノックは,言語処理を志す人を対象とした,プログラミングのトレーニング問題集です. 乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています. このトレーニングは,以下の点に配慮してデザインされています. 自然言語処理の研究を進める上で,一度は書いておいた方がよいプログラム 統計,機械学習,データベースなどの便利な概念・ツールを体験する 実用的で,かつワクワクするようなデータを題材とする 研究を進めるうえで重要なプログラミングのルール・作法を身につける モジュール性や組み合わせを考慮しつつ,短くてシンプルなプログラムを書く プログラムの動作を確認(デバッグ)しながらコーディングする 労力を節約する(既存のツール/プログラム/モジュールが使えるときは流用する) 計算資源(メモリ・実行時間)を無駄にしない方
依存構造で意味的に構成可能な分散表現 VecDCS † 係り受けの構文解析したコーパスから、意味的に構成可能な単語ベクトルと統語ラベルの変換行列を学習するツールです。詳細は下記の文献にご参照ください。 Learning Semantically and Additively Compositional Distributional Representations Ran Tian, Naoaki Okazaki, Kentaro Inui ACL2016, pp.1277-1287 PDF ↑ 知識ベース埋め込みによる知識ベース補完モデル glimvec † Ryo Takahashi, Ran Tian and Kentaro Inui. Interpretable and Compositional Relation Learning by Joint Training with an
www.cl.ecei.tohoku.ac.jp/~yotaro-w
⾃ࠞ然⾔ࢠ語処理ྞ分野における ディープラーニングの現状 渡邉 ̀陽太郎ྒ 東北ྖ⼤֒学⼤֒学院情報科学研究科 IBIS2013 企画セッション2:ディープラーニング 2013/11/12 NLPにおけるディープラーニング 2 ⾔ࢠ語モデル の構築 ⾔ࢠ語の構成性 のモデル化 構成的意味論ྔ ⾔ࢠ語解析 (構造予測) Recursive Neural Networks Autoencoders (Socher et al., 2011, 2012, 2013) RBM (Minh and Hinton 2007) Feed-forward Deep NN (Bengio et al., 2003, Arisoy et al., 2012) Recurrent NN (Mikolov et al., 2010) (Wang and Manning 2013) (Mansur et al.,
概要 † 東北大学 大学院情報科学研究科 乾・岡崎研究室の,東日本大震災ビッグデータワークショップに関連した取り組みを紹介するページです. 10/28に開催の報告会でのスライド資料です. ↑ Twitterデータのトレンド分析 † ツイート上の統計情報(ツイート数やバーストなど)が,東日本大震災に関連する事象・事態をどのように反映しているのか,実験・調査しています.バースト性を持つ名詞句の一覧や名詞句の統計量を時系列で可視化したシステムを公開しています. デモの公開は終了いたしました ↑ Twitterデータからの命題抽出 † 賛成や反対など意見の分かれる議論(例えば「プロ野球セリーグの3/25の開幕に賛成/反対」)や,真偽の判断そのものが争われる主張(例えば「被爆予防にイソジンを飲むと良い」)を命題と呼び,東日本大震災ビッグデータワークショップで公開されているツイートデータから命題を抽出
FrontPage / Project 311 / トレンド分析 3 秒後に Project 311/Trend Analysis に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artifici
日程 † [10月04日]Introduction スライド [10月11日]Classification スライド [10月18日]Part-of-speech tagging スライド [10月25日]Syntactic parsing (1) スライド [11月08日]Syntactic parsing (2) スライド [11月15日](Programming Project1) スライド [11月22日](Programming Project2) [11月29日](Programming Project3) スライド [12月06日](Programming Project4) [12月13日](Programming Project5) スライド [12月20日]Computational semantics: Representation of meaning スライド [
RITE-2 is an evaluation-based workshop aiming to recognize entailment, paraphrase, and contradiction between sentences, which is a common problem shared widely among researchers of natural language processing and information access. By evaluating participating systems using large scale test collections of Japanese and Chinese (simplified and traditional), we expect to obtain new knowledge, promote
概要 自然言語処理分野においてトップカンファレンスと言われるACL 2012、NAACL-HLT 2012, EMNLP-COLING 2012で発表された論文の中から、参加者の投票によって厳選した論文を、各参加者が紹介するという形式で行われます。 勉強会の参加者は、各自1~2本の論文を担当し、全体で30本程度の論文発表が行われます。 第1回目は1研究室のメンバーを中心とした会でしたが、第2回目より、研究室の枠を超え、東京近郊の様々な研究室の学生・研究者有志一同による勉強会として開催しております。 このイベントを通じて、研究者間の活発な情報交換・意見交換・交流が行われ、今後の研究に活かされることを本研究会の狙いとしています. 昨年の勉強会の様子 スケジュール 8月31日(金)
www.cl.ecei.tohoku.ac.jp/~katsuma
githubで公開しています 自動的に転送します
言論マップ生成課題:着目言論を論理空間に位置づける ウェブ上には大量のテキスト情報が存在し、そこでは様々なトピックに関して多角的な意見が述べられている。 情報検索技術の発展により、あるトピックに関連する文書集合を容易に入手できるようになった。 しかしながら、これらの文書に記述されている情報は、そのすべてが真実というわけではなく、不正確な記述、 偏りのある意見、陳腐化した情報などが混在している可能性が非常に高い。 そのため、あるトピックに対する言論の集合を俯瞰するためには、ユーザは、個々の言論の信憑性や有効性を 適切に判断する作業を繰り返すことを強いられる。 しかし、限られた時間で各言論の信憑性を判断し、言論間の構造を把握することは容易ではない。 これらの作業の実行に関してユーザを支援するシステムが必要である。 このような背景により我々は、ユーザが着目したある言明に関するトピックの文書集合か
FrontPage / 公開資源 / 日本語評価極性辞書 3 秒後に Open Resources/Japanese Sentiment Polarity Dictionary に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowl
次のページ
このページを最初にブックマークしてみませんか?
『FrontPage - 東北大学 乾研究室 / Inui Lab, Tohoku University』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く