言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは,実用的でワクワクするような課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です. 詳細 ツイート
![言語処理100本ノック 2020 (Rev 2)](https://cdn-ak-scissors.b.st-hatena.com/image/square/4575170ed42d119a02efa1ec4ee1e9336e655ba1/height=288;version=1;width=512/https%3A%2F%2Fnlp100.github.io%2Fassets%2Fimages%2Fnlp100.jpg)
目次 本記事はPyTorchを使って自然言語処理 $\times$ DeepLearningをとりあえず実装してみたい、という方向けの入門講座になっております。本記事をご覧になった後、以下の順番で読み進めていただくとPyTorchを使った自然言語処理の実装方法がなんとなくわかった気になれるかもしれません。 PyTorchを使ってLSTMで文章分類を実装してみた ←イマココ PyTorchを使ってLSTMで文章分類を実装してみた(バッチ化対応ver) PyTorchでSeq2Seqを実装してみた PyTorchでAttention Seq2Seqを実装してみた PyTorchのBidirectional LSTMのoutputの仕様を確認してみた PyTorchでSelf Attentionによる文章分類を実装してみた PyTorchで日本語BERTによる文章分類&Attentionの可視化
CamphrはspaCyのプラグインです.日本だとGinzaがspaCyを利用しており有名ですね. spaCyはNLPフレームワークで,以下のような特長があります(主観). 様々な機能を簡単に合成できる (深層学習からパターンマッチまで何でもOK) パイプラインを1コマンドで保存&復元できる 1つ目の機能は実用上とても重要です.NLPはここ数年で大幅に進歩しましたが,実際のタスクはend-to-endにデータを食わせればOK,みたいに美味しいものばかりではありません.かといって新しい手法を全く使わないのも,あまり筋が良くなさそうです. spaCyを使うと,最新の手法からルールベースの手法まで,様々な手法を組み合わせることができます.そしてCamphrを使うと,例えばBERTをfine-tuneした後にKNPと正規表現を組み合わせる,ということが簡単にできます. また2つめの機能のおかげで,
形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un
21世紀でもっともセクシーと言われるデータサイエンスは、18世紀を彷彿とさせる奴隷的な作業によって支えられています(要出典)。その作業とは、データを作る作業(=アノテーション)です。多くの場合、アノテーションは孤独な単調作業の繰り返しです。延々と続けていると、全ての単語にunkとつけるようになる事例も報告されています。つまりつらい!のです。 本記事では、「孤独で辛い」アノテーションを「みんなで楽しく」行える環境を作る方法を紹介します。そのポイントは以下3点です。 Easy: アノテーションを楽に Feedback: アノテーションした結果がすぐにわかるように Gamification: アノテーション結果をみんなで競い合う Overview アノテーションを行う流れは以下のようになります。 Annotation Tool for Easy: アノテーションを楽にするためのツールを用意 In
おはようございます。かわみです。 天海春香会話bot開発チャレンジの記事は早くも3つ目となりましたが、そろそろ誰か参戦してみても良い頃なのではないでしょうか。 さて、今回は若干伏線の張ってあった新たな手法で取り組んだ結果をご紹介します。 前回の天海春香会話bot! 前回。 kawami.hatenablog.jp 天海春香らしさを出そうとした あまり前と比較して大きな変化が感じられなかった 発話生成部のソースコードを公開 先行事例・研究 突然ですが、実はアイマス系対話システムに関するこのような取り組みがされていたのはご存知でしょうか。 muscle-keisuke.hatenablog.com 私はCDHAC1の記事を書いている際に発見してしまいました。 この取り組みでは、2017年の言語処理学会年次大会で発表された「転移学習を用いた対話応答のスタイル制御」で提案されている手法を再現してい
この記事はシンデレラガールズAdvent Calendar 13日目の記事です. 目次 目次 はじめに みりあちゃん大好き どうやってみりあちゃんとお話するか みりあちゃんモデルの作成 Seq2Seqで対話ボットの学習 Seq2Seqとは モデルの作成 転移学習でみりあちゃんの口調を学習 転移学習とは 口調の学習を行う方法 データの収集 Twitterから対話データの収集 ツイートとリプライを取得 データの整形 デレマスのSSなどからみりあちゃんの対話データを収集 取得したデータの整形 取得したデータ数 実際に学習を行う 環境 Twitterデータでクソリプボットに データでかすぎ問題 モデルの会話例 転移学習でみりあちゃんボットに モデルの会話例 LINEでみりあちゃんとお話しできるようにする LINE APIの使用 VPSにサーバを建てる 学習済みボットを物理サーバーに載せる VPSの
BERT日本語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。 多言語pretrainedモデルには日本語も含まれていますので日本語のタスクに多言語pretrainedモデルを利用することも可能ですが、基本単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基本単位とし、日本語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日本語
前々回の投稿でGloVeで単語ベクトルを計算しましたが、今回の投稿ではその提案論文を整理したいと思います。 nlp.stanford.edu ohke.hateblo.jp GloVe: Global Vectors for Word Representation @inproceedings{pennington2014glove, author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning}, booktitle = {Empirical Methods in Natural Language Processing (EMNLP)}, title = {GloVe: Global Vectors for Word Representation}, year = {2014}, pages = {1
https://blog.tensorflow.org/2019/05/transformer-chatbot-tutorial-with-tensorflow-2.html https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjubJSdXkMwulhxB3g5tOEJ8Iihc7BMxsdEtJicdRWon1GZi8mhkpN-gN8heS8ZyJT4R7JZ_mLm_gqorKAvETrAKq1P3Msn7x9M7gU2iPkl0BBKevmuiyjMJRu3u186jem5yXEdIJ5mC1I/s1600/transformer.png May 23, 2019 — A guest article by Bryan M. Li, FOR.ai The use of artificial neural networ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く