[B! 機械学習][言語処理] nixenekoのブックマーク

nixeneko id:nixeneko

機械学習と言語処理に関するnixenekoのブックマーク (12)

https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B3-3.pdf
nixeneko 2022/03/12
“転移学習を用いた対話応答のスタイル制御”

言語処理

論文

機械学習
リンク
データ＆アナリティクス | アクセンチュア
データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
nixeneko 2022/03/12
機械学習

言語処理
リンク
pytorchでBERTの日本語学習済みモデルを利用する - 文章埋め込み編
概要 BERT (Bidirectional Encoder Representations from Transf ormers) は、NAACL2019で論文が発表される前から大きな注目を浴びていた強力な言語モデルです。これまで提案されてきたELMoやOpenAI-GPTと比較して、双方向コンテキストを同時に学習するモデルを提案し、大規模コーパスを用いた事前学習とタスク固有のfine-tuningを組み合わせることで、各種タスクでSOTAを達成しました。そのように事前学習によって強力な言語モデルを獲得しているBERTですが、今回は日本語の学習済みBERTモデルを利用して、文章埋め込み (Sentence Embedding) を計算してみようと思います。環境今回は京都大学の黒橋・河原研究室が公開している「BERT日本語Pretrainedモデル」を利用します。 BERT日本語Pre
nixeneko 2022/03/12
機械学習

言語処理
リンク
ku_bert_japanese - LANGUAGE MEDIA PROCESSING LAB
BERT日本語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。多言語pretrainedモデルには日本語も含まれていますので日本語のタスクに多言語pretrainedモデルを利用することも可能ですが、基本単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基本単位とし、日本語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日本語
nixeneko 2022/03/12
機械学習

言語処理
リンク
日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園
概要こんにちは@kajyuuenです。日本語自然言語処理のData Augmentationライブラリdaajaを作成しました。この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。日本語ではデータ拡張という名前で知られています。ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。対応している手法現在daajaは
nixeneko 2022/02/14
言語処理

機械学習
リンク
GitHub - google-research/deduplicate-text-datasets
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
nixeneko 2021/07/20
言語処理

機械学習
リンク
Deduplicating Training Data Makes Language Models Better
nixeneko 2021/07/20
機械学習

言語処理

論文
リンク
画像化したテキストから直接翻訳する全く新しいニューラル機械翻訳モデルが登場【論文速報】
nixeneko 2021/04/29
機械学習

画像処理

言語処理
リンク
TechCrunch
The eyes aren’t just a window into the soul; tracking saccades can help doctors pick up a range of brain health issues. That’s why French-Belgian medtech startup neuroClues is building acc
nixeneko 2021/04/09
機械学習

言語処理
リンク
日本語話し言葉BERTを作成、公開します！ - Retrieva TECH BLOG
こんにちは。カスタマーサクセス部リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、国立国語研究所様との共同研究で作成した日本語話し言葉BERTとその利用方法について紹介します。概要 BERTの簡単な説明話し言葉BERT作成方法書き言葉BERTの文法を表現する部分のみをCSJで追加学習書き言葉BERTに対して、話し言葉データを用いた分野適応実験文法を表現する部分のみを追加学習することの有効性の確認話し言葉データを用いた分野適応を行うことの有効性の確認日本語話し言葉BERTの公開ご利用方法まとめ概要近年、自然言語処理の分野ではBERT（Bidirectional Encoder Representations from Transf ormers）と呼ばれるモ
nixeneko 2021/04/03
機械学習

言語処理
リンク
GitHub - argosopentech/argos-translate: Open-source offline translation library written in Python
Demo | Website | Docs | Forum | GitHub | PyPI Open-source offline translation library written in Python Argos Translate uses OpenNMT for translations and can be used as either a Python library, command-line, or GUI application. Argos Translate supports installing language model packages which are zip archives with a ".argosmodel" extension containing the data needed for translation. LibreTranslate
nixeneko 2021/02/22
言語

機械学習

言語処理
リンク
LINEでみりあちゃんと会話できるようにした(Seq2Seqとキャラ対話データを用いた転移学習によるキャラクター性対話ボットの作成) - muscle_keisukeの日記
この記事はシンデレラガールズAdvent Calendar 13日目の記事です．目次目次はじめにみりあちゃん大好きどうやってみりあちゃんとお話するかみりあちゃんモデルの作成 Seq2Seqで対話ボットの学習 Seq2Seqとはモデルの作成転移学習でみりあちゃんの口調を学習転移学習とは口調の学習を行う方法データの収集 Twitterから対話データの収集ツイートとリプライを取得データの整形デレマスのSSなどからみりあちゃんの対話データを収集取得したデータの整形取得したデータ数実際に学習を行う環境 Twitterデータでクソリプボットにデータでかすぎ問題モデルの会話例転移学習でみりあちゃんボットにモデルの会話例 LINEでみりあちゃんとお話しできるようにする LINE APIの使用 VPSにサーバを建てる学習済みボットを物理サーバーに載せる VPSの
nixeneko 2017/12/16
機械学習
リンク
1