[B! NLP] go5025のブックマーク

Engadget | Technology News & Reviews

Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

go5025 2019/02/18

AI
NLP

リンク

オープンAIの文章生成言語モデル「GPT-2」、悪用恐れ完全版は非公開

米ネバダ州ラスベガスで開催された世界最大級の家電見本市「CES」で公開された、人が密集した場所で人工知能（AI）と顔認証システムを用いた時空間的技術（2019年1月10日撮影、本文とは関係ありません）。(c)DAVID MCNEW / AFP 【2月16日 AFP】人工知能（AI）研究非営利団体「オープンAI（OpenAI）」は今週、AIを用いて文章を生成する非常に優れた言語モデル「GPT-2」を開発したと発表した。悪用されることへの懸念から、完全版は非公開となっている。 GPT-2はニュース記事や製品レビューなどの文章作成に利用できるとみられ、これまでのコンピューターよりもリアルな文章を生成できる可能性があるという。米電気自動車（EV）大手テスラ（Tesla）最高経営責任者（CEO）のイーロン・マスク（Elon Musk）氏、アマゾン・ドットコム（Amazon.com）、マイクロソフト

go5025 2019/02/18

リンク

fastTextで未知語の類似語を探してみる | CCT-recruit

エンジニアのtetsuです。単語のベクトル表現を得る手法といえば、ニューラルネットワークを用いたWord2vecが一番有名かもしれません。ただし単純にWord2vecを用いた場合には未知語のベクトル化ができません。これに対して、fastTextを用いると未知語に対してもベクトル化が可能になります。今回はfastTextで未知語をベクトル化し、学習データに含まれる単語の中から類似しているものを探すということを試してみます。 fastTextとは？ fastTextはFacebookによって開発されているライブラリでGitHub上でソースが公開されています。 https://github.com/facebookresearch/fastText このfastTextは高速に単語の分散表現を得ること（単語のベクトル化）と文の分類問題を解くことが可能です。今回に関しては前者の単語の分散表現を

go5025 2019/02/18

リンク

Pythonでword2vecを自在に操って高次元ベクトルを可視化 | みんなのメモ帳

word2vecで色々な言葉をベクトルに出来たのは良いものの、それを一切活用できない宝の持ち腐れ状態だったのでpythonで色々といじくれるように頑張ってみました。 word2vecをpythonでいじれる環境を作る依存するパッケージをpipでインストールします。 sudo -H pip install -I numpy scipy gensim matplotlib sklearn python仕様に辞書を作り直す以前作ったモデルファイルはバイナリになっていてpythonで使うことが出来ないので(多分)、それも含めてもう一度学習をしないといけなくなりました。ので、今回はpythonでコーパスから学習するpythonのコードを。 # -*- coding:utf-8 -*- from gensim.models import word2vec files = word2vec.Text

go5025 2018/12/18

リンク

Cos類似度とDoc2Vecってどっちが良いの？ - Qiita

ベーシック Advent Calendar 2016 10日目は、 17卒内定者の@enta0701です。今年の9、10月ごろ、Cos類似度という単語を知りました。４日目の記事にもありますが、レコメンドシステムなんかにも使えるそうです。なにやら面白そうな匂いがしたので、実際に文書同士の類似度計算を Cos類似度と、ググっていたときに頻繁にでてきたDoc2Vecで試してみようと思います。 Cos類似度とは２つのデータにおいて、特にn次元のベクトル同士を比較する際に扱われるそうです。数式で書くとこんな感じ。 $$ similarity = cos\theta = \frac{A \cdot B}{||A|| ||B||} $$ 内積ですね。この値が1に近いほど類似度が高く、0に近いほど類似度が低いことを表します。 Cos類似度を使って文書を比較する際には、文章中の単語に重み（特徴）

go5025 2018/12/15

リンク

BERT with SentencePiece で日本語専用の pre-trained モデルを学習し、それを基にタスクを解く - クックパッド開発者ブログ

研究開発部の菊田（@yohei_kikuta）です。機械学習を活用した新規サービスの研究開発（主として画像分析系）に取り組んでいます。最近は、社内の業務サポートを目的として、レシピを機械学習モデルで分類して Redshift に書き込む日次バッチを開発・デプロイしたりしてました。ここ数ヶ月で読んだ論文で面白かったものを３つ挙げろと言われたら以下を挙げます。 BERT: Pre-training of Deep Bidirectional Transf ormers for Language Understanding Focal Loss for Dense Object Detection Exponential expressivity in deep neural networks through transient chaos 本記事では、BERT というモデルをクックパッドのレ

go5025 2018/12/15

リンク

BERTの学習済みモデルを使ってみる | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ

こんにちは。データサイエンスチームのtmtkです。この記事では、最近公開されたBERTの学習済みモデルを試してみます。はじめに今年10月末に、BERTという自然言語処理のモデルが発表されました。事前に学習したモデルをファインチューニングする仕組みで、自然言語処理の各種タスクで最高のスコアを更新したため、話題になりました。このBERTのソースコードと事前学習済みのモデルが、先月末にGitHubで公開されました。この記事では、このBERTの事前学習済みモデルをつかって、英語の文が「Alice’s Adventures in Wonderland（不思議の国のアリス）」と「Pride and Prejudice（高慢と偏見）」の二つのうちどちらの作品の文かを判定する機械学習モデルを作ってみます。実験いつものように、AWSのEC2で実験をします。AMIとしてDeep Learning

go5025 2018/12/15

リンク

WEEKLY人工無脳【第18号】（2018.11.5~11.11）｜Yuta Yoshida｜note

※しれっと、はてなからnoteに乗り換えてみました。これまで書いたWEEKLY人工無脳の記事はこちら ① Googleが圧倒的な自然言語処理手法を発表。東ロボくんの仇はGoogleが討つのか？機械学習クラスター周りで今週最も話題になってたのはこれでしょうか。 Googleが公開した自然言語処理手法（新たな汎用言語表現モデル）が、これまでの自然言語解釈タスクでぶっちぎりの精度を出したという話。すごくざっくりいうと、機械による文章読解精度が劇的に上がったということ。人工知能が昨今こんなに注目されている理由の根っこには、『「画像処理タスク」において人間のような高い精度を出せるようになったから』というところが始まりだったりします。2012年の画像解析コンペにおいて初めて深層学習手法であるCNNが使われ、二位にダントツの差をつけて優勝したあたりから社会的にも「AI（≒深層学習）がなんか凄いことにな

go5025 2018/11/13

リンク

Seq2Seq+Attentionのその先へ - Qiita

自然言語処理においてSequence-to-Sequenceモデル、そしてAttentionは大きな影響を与えてきました。いまやSequence-to-Sequence + Attentionモデルは自然言語処理とディープラーニングを語る上では欠かせない存在となりつつあります。近年の自然言語処理ではこのSequence-to-SequenceとAttentionをベースにしたモデルが多く提案されています。この記事ではSequence-to-Sequenceをベースとしたモデルがどういった進化を遂げているかを歴史を追いながらまとめていこうと思います。 Sequence-to-Sequenceモデル (2014) Sequence-to-SequenceモデルはSequence to Sequence Learning with Neural Networksの論文で提案され、「Seq2

go5025 2018/08/10

リンク

自動文章生成AI（LSTM）に架空の歴史を作成させた方法とアルゴリズム

※サンプル・コード掲載１．AIに文章を作らせる方法概要架空の名前から架空の人物の歴史概要を作成させてみました。やり方としては、wikipediaの人物の概要の部分を抜き出してRNNにトレーニングさせます。そのトレーニングさせたモデルに対して名前を入力すると、その人物の概要を出力してくれるようにします。 RNNとは、Recurrent Neural Networksの略で、時系列の情報を学習させるためのニューラルネットワークのモデルのことです。文章を生成させるようなモデルの場合、多層パーセプトロンのようなモデルだと出力の長さが一定になってしまい、うまく作ることができません。そこでRNNを使い、入力が単語（文字）、出力が次の単語（文字）として学習させると、そのモデルに次々と出力された単語を入力させることによって文章が生成出来るようになります。そして、RNNは内部の重みを入力によっ

go5025 2017/10/21

nlp
lstm

リンク

ML-Askでテキストの感情分析 - Qiita

ちゃお……† 今回は感情分析ライブラリML-Askについて紹介します。 ML-Askができること感情の推定 2,100語の辞書によるパターンマッチングで{喜, 怒, 哀, 怖, 恥, 好, 厭, 昂, 安, 驚}の10種類の感情を推定します。この2,100語は、感情表現辞典に基づいているそうです。感情の強さ間投詞、擬態語、がさつな言葉、顔文字、「！」や「？」の数で感情の強さを推定します。ネガポジ分類推定された感情から文を{ネガティブ、ポジティブ、ニュートラル}の３種類に分類します。文脈の考慮 Contextual Valence Shifters (CVS) という概念に基づいて, 文脈を考慮した感情推定を行います. たとえば, 「好きとは言えない」という文の場合、「好き」が否定されているので、「好き」の逆の感情である「厭」だと推定します。活性的かどうか推定された感情を元に

go5025 2017/02/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

NLPに関するgo5025のブックマーク (11)

お知らせ

月間はてなブックマーク数ランキング（2025年3月）

今週のはてなブックマーク数ランキング（2025年3月第5週）

今週のはてなブックマーク数ランキング（2025年3月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス