[B! NLP] notaeのブックマーク

notae id:notae

NLPに関するnotaeのブックマーク (18)

事前学習言語モデルの動向 / Survey of Pretrained Language Models
PAKDD2023 Tutorial 2: A Gentle Introduction to Techno logies Behind Language Models and Recent Achievement in ChatGPT (Parts 3 and 4)
notae 2019/11/03
NLP

MachineLearning
リンク
Universal Dependencies 2.4がリリース | スラド
Universal Dependencies 2.4が無事にリリースされた、との連絡をいただいた。Universal Dependencies 2.4は、ドイツ語・チェコ語・日本語・ロシア語・フランス語・アラビア語・スペイン語・ノルウェー語・英語など83の言語にまたがるツリーバンクで、UDPipe・StanfordNLP・NLP-Cubeなどの解析エンジンと組み合わせて、係り受け解析に用いることができる。半年前のUniversal Dependencies 2.3に比べて、古典ロシア語・古典中国語(漢文)・ウォロフ語・グアラニー語(ムブヤ)・ウェールズ語・カレリア語・現代アラム語(アッシリア)の7つの言語が増えており、古典中国語のツリーバンクは、私(安岡孝一)の共同研究班「東アジア古典文献コーパスの実証研究」が制作した「四書」(孟子・論語・大學・中庸)の全文係り受けデータである。係り受け解
notae 2019/05/20
NLP
リンク
Kyoto University Research Information Repository: センター研究年報 2018 別冊
梁惠王上 ……p.3 梁惠王下 ……p.33 公孫丑上 ……p.69 公孫丑下 ……p.102 滕文公上 ……p.132 滕文公下 ……p.161 離婁上 ……p.191 離婁下 ……p.221 萬章上 ……p.251 萬章下 ……p.284 告子上 ……p.313 告子下 ……p.347 盡心上 ……p.378 盡心下 ……p.410 古典中国語Universal Dependenciesについて ……p.440 索引 ……p.449
notae 2019/05/20
NLP
リンク
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
「A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task」を中心に、Machine Comprehensionに関する研究を概観する
notae 2018/01/30
MachineLearning

NLP
リンク
概要国語研日本語ウェブコーパス（NWJC）
データの構築手法についてウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。得られたウェブページはnwc-toolkitを用いて、日本語文抽出と正規化を行いました。コピーサイトの問題を緩和するために、文単位の単一化（文の異なりをとること）を行いました。形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。参考文献について『国語研日本語ウェブコーパス』国際論文誌： Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20
notae 2017/05/25
NLP

言語学
リンク
コーパス開発センター -Center for corpus development-
国立国語研究所コーパス開発センターでは、日本語の全貌を把握するための言語コーパス (language corpus)を構築しています。 English 国立国語研究所
notae 2017/05/25
NLP

言語学
リンク
https://www.anlp.jp/proceedings/annual_meeting/2016/pdf_dir/P17-7.pdf
notae 2017/05/25
Copyright

NLP

言語学
リンク
独立行政法人国立国語研究所提出資料 | 文化庁
notae 2017/05/25
Copyright

NLP

言語学
リンク
言語コーパスガイダンスコーパス開発センター -Center for corpus development-
コーパスのつくり方構築するコーパスの目的や用途により、つくり方はいろいろありますが、ここでは『現代日本語書き言葉均衡コーパス』を例につくり方を紹介します。 1. サンプリングの方法コーパスに採録するサンプルは無作為に選ばれます。例えば書籍の場合、1986年から2005年の間に出版された書籍を対象として、そこから無作為に約30,000サンプルを選び出しました。実際にサンプリング作業を行うと、ある本のあるページのある文字が選ばれます。これをサンプリング点と言います。コーパスには、サンプリング点を含む２種類のサンプルを格納します。 2. サンプルの作成１）コーパスに採録する部分を確定しますサンプリング点が決まったら、実際に採録するサンプルの範囲を確定します２）著作権処理を行います各サンプルについて、著作権処理を行います。使用許諾が得られなかったものは、採録されません。３. サ
notae 2017/05/25
Copyright

NLP

言語学
リンク
https://www.nii.ac.jp/dsc/idr/docs/blog_guideline_v1_0.pdf
notae 2017/05/25
NLP

Copyright

言語学
リンク
http://pj.ninjal.ac.jp/corpus_center/bccwj/doc/Maekawa2010.pdf
1 特集「研究開発における情報利用と著作権」コーパス構築と著作権保護 Copyright protection and corpus development 前川喜久雄国立国語研究所言語資源研究系 Kikuo Maekawa Dept. Corpus Studies. National Institute for JapaneseLanguageand Linguistics kikuo@ninjal.ac.jp Keywords: language corpus, balanced corpus, speech and language analysis, copyright 1. はじめに筆者の専門は音声学であるが、 10 年ほど前に音声自動認識のための大規模な話し言葉コーパスである『日本語話し言葉コーパス』の構築に携わる機会があり[前川 04]、それを契機と
notae 2017/05/25
Copyright

NLP

言語学
リンク
http://researchmap.jp/jo3nb8ki1-78/
notae 2017/04/10
AI

NLP
リンク
「ロボットは東大に入れるか」プロジェクト：代ゼミセンター模試タスクにおけるエラーの分析
「ロボットは東大に入れるか」は，大学入試試験問題を計算機で解くという挑戦を通じ，言語処理を含む AI 諸技術の再統合と，知的情報処理の新たな課題の発見を目指すプロジェクトである．知的能力の測定を第一目的として設計された入試問題は，AI 技術の恰好のベンチマークであるとともに，人間の受験者と機械のエラー傾向を直接比較することが可能である．本稿では，大手予備校主催のセンター試験形式模試を主たる評価データとして，各科目の解答システムのエラーを分析し，高得点へ向けた今後の課題を明らかにするとともに，分野としての言語処理全体における現在の課題を探る．
notae 2017/04/10
AI

NLP
リンク
新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。導入方法前提 OS X Yosem ite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr
notae 2016/10/14
NLP
リンク
自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷
最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。以下
notae 2016/03/11
MachineLearning

CNN

NLP
リンク
FRILの商品検索をnGramから形態素解析にした話 - mosowave
この記事はElasticsearch Advent Calendar 2015の7日目のエントリです。こんにちは、ファッションフリマアプリFRILを運営しているFablicでエンジニアをしている@sinamon129です。 FRILの商品検索はElasticsearchを使っていて、最近nGramベースだったものを形態素解析ベースに変更しました。その経緯やどういう手順で行ったかを書こうと思います。主にユーザー辞書とsynonym辞書の構築の話がメインです。どうしてnGramベースから形態素解析ベースに変更することになったか関係ないものがなるべくひっかからないようにしたい nGramだとファーで検索したときに、ローファーやローリーズファームが引っかかり、本当に検索したかったものが出てこないという問題がありました。（実際は出ているのだけども、埋もれてしまっている状態）同じ意味の単
notae 2015/12/08
NLP
リンク
経済学、数学、統計学などの資料纏め - あんちべ！
※適宜追加します経済学計量経済学京大　末石直也 http://www.econ.kyoto-u.ac.jp/~sueishi/econometrics/econometrics.html 経済数学系資料 http://www.f.waseda.jp/ksuga/ 経済学のための位相数学の基礎とブラウワーの不動点定理 http://www2.chuo-u.ac.jp/keizaiken/discussno39.pdf 経済学のための最適化理論：講義ノート http://www.meijigakuin.ac.jp/~mashiyam/pdfdocs/optimization.pdf 経済学に必要な最適化理論 http://mediaislandr.org/pdf/static_optimization.pdf 経済学のための確率論入門 http://www.meijigakuin.ac.
notae 2014/10/09
MachineLearning

Stat

Math

NLP

#Tutorial
リンク
Statistical Semantic入門 ~分布仮説からword2vecまで~
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
notae 2014/06/26
MachineLearning

NLP
リンク
1