[B! 自然言語処理] showyouのブックマーク

言語処理100本ノック 2020 (Rev 2)

言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは，実用的でワクワクするような課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です．詳細ツイート

showyou 2020/06/10

自然言語処理

リンク

On the Effect of Dropping Layers of Pre-trained Transformer Models

showyou 2020/05/23

貧者のBERT

リンク

PyTorchを使ってLSTMで文章分類を実装してみた - Qiita

目次本記事はPyTorchを使って自然言語処理 $\times$ DeepLearningをとりあえず実装してみたい、という方向けの入門講座になっております。本記事をご覧になった後、以下の順番で読み進めていただくとPyTorchを使った自然言語処理の実装方法がなんとなくわかった気になれるかもしれません。 PyTorchを使ってLSTMで文章分類を実装してみた ←イマココ PyTorchを使ってLSTMで文章分類を実装してみた（バッチ化対応ver） PyTorchでSeq2Seqを実装してみた PyTorchでAttention Seq2Seqを実装してみた PyTorchのBidirectional LSTMのoutputの仕様を確認してみた PyTorchでSelf Attentionによる文章分類を実装してみた PyTorchで日本語BERTによる文章分類＆Attentionの可視化

showyou 2020/02/27

自然言語処理

リンク

Camphr: spaCy plugin for Transformers, Udify, KNP - Qiita

CamphrはspaCyのプラグインです．日本だとGinzaがspaCyを利用しており有名ですね． spaCyはNLPフレームワークで，以下のような特長があります(主観). 様々な機能を簡単に合成できる (深層学習からパターンマッチまで何でもOK) パイプラインを1コマンドで保存&復元できる 1つ目の機能は実用上とても重要です．NLPはここ数年で大幅に進歩しましたが，実際のタスクはend-to-endにデータを食わせればOK，みたいに美味しいものばかりではありません．かといって新しい手法を全く使わないのも，あまり筋が良くなさそうです． spaCyを使うと，最新の手法からルールベースの手法まで，様々な手法を組み合わせることができます．そしてCamphrを使うと，例えばBERTをfine-tuneした後にKNPと正規表現を組み合わせる，ということが簡単にできます．また2つめの機能のおかげで，

showyou 2020/02/26

自然言語処理

リンク

2019年末版形態素解析器の比較 - Qiita

形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。（SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では？と申し上げておきたいです） MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました（Janomeというものがありましたがmecab-python3の方が高速です）。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。辞書はIPA辞書が推奨されていますが、Un

showyou 2019/12/18

自然言語処理

リンク

孤独でつらい機械学習データの作成を、ワイワイ楽しくする環境を3日で作る - Qiita

21世紀でもっともセクシーと言われるデータサイエンスは、18世紀を彷彿とさせる奴隷的な作業によって支えられています(要出典)。その作業とは、データを作る作業(=アノテーション)です。多くの場合、アノテーションは孤独な単調作業の繰り返しです。延々と続けていると、全ての単語にunkとつけるようになる事例も報告されています。つまりつらい！のです。本記事では、「孤独で辛い」アノテーションを「みんなで楽しく」行える環境を作る方法を紹介します。そのポイントは以下3点です。 Easy: アノテーションを楽に Feedback: アノテーションした結果がすぐにわかるように Gamification: アノテーション結果をみんなで競い合う Overview アノテーションを行う流れは以下のようになります。 Annotation Tool for Easy: アノテーションを楽にするためのツールを用意 In

showyou 2019/09/27

自然言語処理

リンク

GiNZAで始める日本語依存構造解析〜CaboCha, UDPipe, Stanford NLPとの比較〜

showyou 2019/09/27

自然言語処理

リンク

YouTokenToMe: a tool for quick text tokenization from the VK Team

showyou 2019/07/26

工藤さん喧嘩売られてますね（違

自然言語処理

リンク

Transfer Learning in Natural Language Processing

Transfer Learning in Natural Language Processing June 2, 2019 NAACL-HLT 2019 1 Sebastian Ruder Matthew Peters Swabha Swayamdipta Thomas Wolf

showyou 2019/07/18

NAACL2019での、自然言語処理における転移学習の資料。Colabを使用したチュートリアルも提供されており、コードの解説もある。

自然言語処理

リンク

Redirect

showyou 2019/07/18

fast.aiのコース。時間があったら受講したい。

自然言語処理

リンク

天海春香会話bot開発チャレンジ3 - かわみのメモ帳

おはようございます。かわみです。天海春香会話bot開発チャレンジの記事は早くも3つ目となりましたが、そろそろ誰か参戦してみても良い頃なのではないでしょうか。さて、今回は若干伏線の張ってあった新たな手法で取り組んだ結果をご紹介します。前回の天海春香会話bot！前回。 kawami.hatena blog.jp 天海春香らしさを出そうとしたあまり前と比較して大きな変化が感じられなかった発話生成部のソースコードを公開先行事例・研究突然ですが、実はアイマス系対話システムに関するこのような取り組みがされていたのはご存知でしょうか。 muscle-keisuke.hatena blog.com 私はCDHAC1の記事を書いている際に発見してしまいました。この取り組みでは、2017年の言語処理学会年次大会で発表された「転移学習を用いた対話応答のスタイル制御」で提案されている手法を再現してい

showyou 2019/07/17

自然言語処理

リンク

LINEでみりあちゃんと会話できるようにした(Seq2Seqとキャラ対話データを用いた転移学習によるキャラクター性対話ボットの作成) - muscle_keisukeの日記

この記事はシンデレラガールズAdvent Calendar 13日目の記事です．目次目次はじめにみりあちゃん大好きどうやってみりあちゃんとお話するかみりあちゃんモデルの作成 Seq2Seqで対話ボットの学習 Seq2Seqとはモデルの作成転移学習でみりあちゃんの口調を学習転移学習とは口調の学習を行う方法データの収集 Twitterから対話データの収集ツイートとリプライを取得データの整形デレマスのSSなどからみりあちゃんの対話データを収集取得したデータの整形取得したデータ数実際に学習を行う環境 Twitterデータでクソリプボットにデータでかすぎ問題モデルの会話例転移学習でみりあちゃんボットにモデルの会話例 LINEでみりあちゃんとお話しできるようにする LINE APIの使用 VPSにサーバを建てる学習済みボットを物理サーバーに載せる VPSの

showyou 2019/07/17

自然言語処理

リンク

https://db-event.jpn.org/deim2019/post/papers/132.pdf

showyou 2019/07/17

問い返し可能な質問応答：読解と質問生成の同時学習モデル

リンク

Unified Language Model Pre-training for Natural Language Understanding and Generation

showyou 2019/07/17

BERT上回ってるらしい

自然言語処理

リンク

ku_bert_japanese - LANGUAGE MEDIA PROCESSING LAB

BERT日本語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。多言語pretrainedモデルには日本語も含まれていますので日本語のタスクに多言語pretrainedモデルを利用することも可能ですが、基本単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基本単位とし、日本語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日本語

showyou 2019/07/17

自然言語処理

リンク

論文メモ: GloVe: Global Vectors for Word Representation - け日記

前々回の投稿でGloVeで単語ベクトルを計算しましたが、今回の投稿ではその提案論文を整理したいと思います。 nlp.stanford.edu ohke.hateblo.jp GloVe: Global Vectors for Word Representation @inproceedings{pennington2014glove, author = {Jeffrey Pennington and Richard Socher and Christopher D. Manning}, booktitle = {Empirical Methods in Natural Language Processing (EM NLP)}, title = {GloVe: Global Vectors for Word Representation}, year = {2014}, pages = {1

showyou 2019/07/17

Gloveについて

自然言語処理

リンク

http://arxiv.org/pdf/1905.12848

showyou 2019/07/17

リンク

https://dbsj.org/wp-content/uploads/2019/02/DBSJ_17_06_otsuka.pdf

showyou 2019/07/17

質問の意図を特定するニューラル質問生成モデル

リンク

https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B3-3.pdf

showyou 2019/07/17

chatbotのseq2seq使ったスタイル変換応答について

自然言語処理

リンク

A Transformer Chatbot Tutorial with TensorFlow 2.0

https://blog.tensorflow.org/2019/05/transf ormer-chatbot-tutorial-with-tensorflow-2.html https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjubJSdXkMwulhxB3g5tOEJ8Iihc7BMxsdEtJicdRWon1GZi8mhkpN-gN8heS8ZyJT4R7JZ_mLm_gqorKAvETrAKq1P3Msn7x9M7gU2iPkl0BBKevmuiyjMJRu3u186jem5yXEdIJ5mC1I/s1600/transf ormer.png May 23, 2019 — A guest article by Bryan M. Li, FOR.ai The use of artificial neural networ

showyou 2019/07/11

Transformerによる対話bot。日本語でもできるかな？

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

自然言語処理に関するshowyouのブックマーク (137)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス