[B! nlp] [4ページ] skypenguinsのブックマーク

skypenguins id:skypenguins

nlpに関するskypenguinsのブックマーク (132)

最初の数行を入力すると小説の続きを書いてくれるAI登場　設定次第で俳句やニュースも
ユーザーが冒頭の文章を数行書くと、続きをAIが作文するWebサービス「AIのべりすと」が登場し、一部で話題になっている。例えば、「吾輩は猫である。名前はまだない。そんな吾輩は今」のように書き出しを入力すると「とある場所にいる。そこはどこかというと、我が家のリビングだ。ソファに腰掛けてテレビを見ているのは、俺の妹である美夏だ」のように続きを出力する。
skypenguins 2021/10/22
GPT-2よりは大きいけどGPT-3には及ばないパラメータ数だから個人で出来る限界に調整したんかな？

AI

人工知能

deeplearning

NLP
リンク
Pythonで始めるドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
ビジネス文書をデータ化し構造や内容を理解するアプリケーションはドキュメント・インテリジェンスと呼ばれ、画像処理や自然言語処理といった複数の要素技術を組み合わせて開発する必要があります。何が必要でどう実現すれば良いのかといった第一歩を、Pythonでの具体的な構築事例とともに紹介します。 https://2021.pycon.jp/time-table/?id=273795
skypenguins 2021/10/18
API

NLP

画像認識
リンク
速度の高みを目指す：高速な単語分割器 Vaporetto の技術解説 - LegalOn Technologies Engineering Blog
こんにちは。LegalForce Research でエンジニアをしている赤部 (@vbkaisetsu) です。今回は、弊チームが開発した新しい高速な単語分割器 Vaporetto（ヴァポレット）の技術解説を行います。Vaporetto はプログラミング言語 Rust で開発されています。想定する読者は、自然言語処理のアルゴリズムに興味がある人 Rust によるプログラミングに興味がある人です。単語分割器 Vaporetto はオープンソースソフトウェアであり、ソースコードは以下のリポジトリで公開しています。 https://github.com/legalforce-research/vaporetto Vaporetto という名前は、イタリアのヴェネツィアで運行されている水上バスから取りました。ヴェネツィアの様子。写真右端の黄色いラインの入った建物がヴァポレットの乗り場。
skypenguins 2021/10/02
自然言語処理

nlp
リンク
せりふの“あのキャラ度”をAI診断、ゲームシナリオ作りに活用「ライター多数の現場も楽に」
せりふの“あのキャラ度”をAI診断、ゲームシナリオ作りに活用「ライター多数の現場も楽に」（1/2 ページ）「Fate/Grand Order」などのヒットを契機に増えた、ストーリーをメインに据えたスマートフォンゲーム。さまざまな企業が開発を進める一方、プロジェクトが巨大化すると複数のライターが必要になり、キャラクターの言動に細かいぶれが出るといった問題もある。バンダイナムコグループの研究開発機関、バンダイナムコ研究所（東京都江東区）は、この課題に自然言語処理AIを活用して立ち向かっている。「現場からは『せりふを把握し続ける負担が減って楽になった』『この人に聞かないとキャラ特有の言い回しが分からない、ということがなくなった』などの声もある」──バンダイナムコ研究所の中野渡（なかのわたり）昌平さん（イノベーション戦略本部プロデュース部事業プロデューサー）は、自社開発したツール「AIセリフ
skypenguins 2021/10/02
機械学習

AI

ゲーム

NLP

自然言語処理
リンク
BERTの推論速度を最大10倍にしてデプロイした話とそのTips - JX通信社エンジニアブログ
背景はじめまして、JX通信社でインターンをしている原田です。近年深層学習ではモデルが肥大化する傾向にあります。2020年にopen aiが示したScaling Laws（[2001.08361] Scaling Laws for Neural Language Models）の衝撃は記憶に新しく、MLP-Mixerが示したように、モデルを大きくすればAttention構造やCNNでさえも不必要という説もあります。（[2105.01601] MLP-Mixer: An all-MLP Architecture for Vision）しかし大きな深層学習モデルを利用しようとすると、しばしば以下のような問題に悩まされます。推論速度が問題でプロダクトに実装不可能 GPU/TPUはコスト上厳しいプロダクトの性質上バッチ処理が不可能（効率的にGPU/TPUが利用できない）例えばJX通信社
skypenguins 2021/09/01
機械学習

自然言語処理

nlp

deeplearning
リンク
自然言語処理モデル「GPT-3」の紹介 | NTTデータ先端技術株式会社
1. 概要近年、ディープラーニングの自然言語処理分野の研究が盛んに行われており、その技術を利用したサービスは多様なものがあります。当社も昨年2020年にINTELLILINK バックオフィスNLPという自然言語処理技術を利用したソリューションを発表しました。INTELLILINK バックオフィスNLPは、最新の自然言語処理技術「BERT」を用いて、少ない学習データでも高精度の文書理解が可能です。また、文書の知識を半自動化する「知識グラフ」を活用することで人と同じように文章の関係性や意図を理解することができます。INTELLILINK バックオフィスNLPを利用することで、バックオフィス業務に必要となる「文書分類」「知識抽出」「機械読解」「文書生成」「自動要約」などさまざまな言語理解が可能な各種AI機能を備えており、幅広いバックオフィス業務の効率化を実現することが可能です※1。図：IN
skypenguins 2021/09/01
参考文献にGigazine載せるのかよ…（呆れ）

NLP

自然言語処理

deeplearning

機械学習

llm
リンク
WebAssemblyを用いてBERTモデルをフロントエンドで動かす - OPTiM TECH BLOG
はじめまして。R&Dチーム所属、20.5卒の伊藤です。普段の業務では自然言語処理と格闘していることが多いです。今回は自然言語処理モデルとして有名なBERTをWebAssemblyを使用してフロントエンドで動かしてみた話になります。最近、自然言語処理ライブラリとして普段お世話になっているHugging Face社のTransf ormersのTokenizerがRustで実装されていることを知り、それならばWebAssemblyにコンパイルして動かせるのではないかと試したみたのがきっかけです。 Tokenizerのみ動かしても実用性に乏しいため、Tokenizerから得られた結果からBERTを用いた推論をブラウザで動作させるまでを行い、備忘録がでら手順をまとめました。どなたかの参考になれば幸いです。 8/26追記本記事内のコードを含むリポジトリを公開しました！Dockerを使用してブ
skypenguins 2021/08/15
nlp

自然言語処理

wasm

機械学習

BERT
リンク
テキストデータのかさましを実装する - 一休.com Developers Blog
はじめにデータサイエンス部の平田です。ディープラーニングのモデルを作る際、学習データが少ないことが原因で精度が上がらない場合、データのかさまし（augmentation）を行うことがあります。画像の場合は、オリジナルに対して回転させたりノイズを少し加えることで同じラベル付けがされている別の画像を作り出すことができ、それを学習データに加えることで頑健なモデルになります。ただし、テキストの場合は回転させると意味不明になるのでどういう操作をしてかさましするかというのを考える必要があります。そこで、EDA(Easy Data Augmentation)というものが考案されました。参考 Synonym Replacement：文中の単語の内n個、同義語に置き換える Random Insertion：文中の単語をランダムに選んで同義語にしてランダムな場所にinsert、n回繰り返す Rand
skypenguins 2021/07/30
かさまし、要はデータの背後にある確率分布をいかに頭の中で予想できるかがキモだな

自然言語処理

nlp
リンク
Tracking Progress in Natural Language Processing
Tracking Progress in Natural Language Processing Table of contents English Automatic speech recognition CCG Common sense Constituency parsing Coreference resolution Data-to-Text Generation Dependency parsing Dialogue Domain adaptation Entity linking Grammatical error correction Information extraction Intent Detection and Slot Filling Language modeling Lexical normalization Machine translation Miss
skypenguins 2021/07/01
nlp

自然言語処理
リンク
rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン“クリフ”チェン、以下rinna社）は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI＆リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています
skypenguins 2021/04/08
自然言語処理

機械学習

NLP

GPT-2
リンク
GPT-2におけるテキスト生成
はじめにMachine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。昨今、OpenAIからGPT-3が発表され、生成系モデルが大きな注目を集めています。そこで、本記事では、弊社で作成している生成系モデルの紹介をいたします。自然言語処理におけるテキスト生成自然言語処理（NLP）は、人間の言語（自然言語）とコンピュータの相互理解、特に大量の自然言語データをコンピュータに処理および分析させるための研究分野です。今回紹介するテキスト生成は、この自然言語処理の研究分野の一つです。テキスト生成の応用例の一つは、スマートフォンのキーボードでの次の単語の予測です。このタスクはまさに言語モデルが行うことと同様です。言語モデルは、単語のリストを受け取り、次の単語を予測します。図1の例では、言語モデルが「今日は」という単語を受け取り、次の単語で
skypenguins 2021/02/03
自然言語処理

nlp

機械学習

llm
リンク
Wikipediaを用いた日本語の固有表現抽出データセットの公開
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
skypenguins 2020/12/15
nlp

自然言語処理
リンク
文章の埋め込みモデル: Sparse Composite Document Vectors を読んで実装してみた - nykergoto’s blog
自然言語処理である単語の意味情報を数値化したいという場合に単語を特定のベクトルに埋め込む(分散表現)手法として word 2 vec があります。この word2vec と同じような発想で文章自体をベクトル化するという発想があり Doc2Vec やそのたもろもろも方法が存在しています。今回はその中の一つである SCDV (Sparse Composite Document Vector) を実装したのでその記録です。著者のページ: https://dheeraj7596.github.io/SDV/ そもそも何者か文章を表現するベクトルを取得する手法です。どうやってやるか SCDV はいくつかのフェーズに分かれています。以下では5つのフェーズに分けて説明します。若干論文の notation と違う所があるのでそこだけ注意していただければと思います。 1. 単語の分散表現を取得す
skypenguins 2020/10/26
自然言語処理

nlp

SCDV
リンク
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート（本社：東京都千代田区、代表取締役社長：北村吉弘、以下リクルート）は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル（本社：東京都千代田区、代表取締役社長：淺野健、以下リクルートライフスタイル）が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。日本語の自然言語処理における課題自然言語処理とは、私たちが日常的に使っている言語（自然言語）をコンピューターに解析させる一連の処理を指し
skypenguins 2020/10/20
自然言語処理

nlp

研究
リンク
はじめての自然言語処理 T5 によるテキスト生成の検証 | オブジェクトの広場
前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transf ormer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに本記事では Google の T5(Text-to-Text Transfer Transf ormer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います
skypenguins 2020/10/09
nlp

自然言語処理

T5

機械学習

deeplearning
リンク
Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは？ Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。ページのフィルタリングペー
skypenguins 2020/09/26
良さそう

自然言語処理

nlp

機械学習
リンク
Googleが開発した多言語の埋め込みモデル「LaBSE」を使って多言語のテキスト分類 - Ahogrammer
自然言語処理において、テキストをその意味を考慮しつつ固定長のベクトルに変換する埋め込みモデルは重要です。文の意味をよく表現したベクトルを作ることができれば、テキスト分類や情報検索、文類似度など、さまざまなタスクで役立ちます。本記事では、Googleが開発した多言語の埋め込みモデル「LaBSE」を使って、テキスト分類をする方法を紹介します。単なるテキスト分類では面白くないため、学習には英語のデータセットを使い、評価には日本語とフランス語のデータセットを使います。記事では要点だけを紹介するので、コードについては以下のノートブックを参照してください。 Text Classification with LaBSE LaBSE LaBSEは、Googleが「Language-agnostic BERT Sentence Embedding」という論文で提案したモデルです。109の言語に対応しており
skypenguins 2020/09/18
自然言語処理

機械学習

nlp

deeplearning
リンク
深層学習を用いた文生成モデルの歴史と研究動向
2020/07/02に開催されたDLLab主催のイベント、「自然言語処理ナイト」の第2セッション「生成系NLPの研究動向」で使用したスライド資料です。Read less
skypenguins 2020/09/16
機械学習

nlp

deeplearning

深層学習
リンク
Attention is all you need!!! を入門する前に
2020/07/02 Deepl Learning Lab 自然言語処理ナイト Slideshareでは音声つきがアップロードできなかったため、音声付きは https://1drv.ms/p/s!ApEwOwPQFthR4cQmVPpvvfKBtl4kOg こちらからダウンロードできます。Read less
skypenguins 2020/09/16
nlp

深層学習

機械学習

deeplearning
リンク
Deep Learning Digital Conferenceにて、自然言語処理に関する最新の研究開発成果を発表 | プロジェクト・レポート | 事例 | 電通国際情報サービス（ISID）
skypenguins 2020/09/16
nlp

機械学習

深層学習
リンク
前のページ 1 2 3 4 5 6 7 次のページ