タグ

NLPに関するgo5025のブックマーク (11)

  • Engadget | Technology News & Reviews

    Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

    Engadget | Technology News & Reviews
    go5025
    go5025 2019/02/18
  • オープンAIの文章生成言語モデル「GPT-2」、悪用恐れ完全版は非公開

    米ネバダ州ラスベガスで開催された世界最大級の家電見市「CES」で公開された、人が密集した場所で人工知能AI)と顔認証システムを用いた時空間的技術(2019年1月10日撮影、文とは関係ありません)。(c)DAVID MCNEW / AFP 【2月16日 AFP】人工知能AI)研究非営利団体「オープンAIOpenAI)」は今週、AIを用いて文章を生成する非常に優れた言語モデル「GPT-2」を開発したと発表した。悪用されることへの懸念から、完全版は非公開となっている。 GPT-2はニュース記事や製品レビューなどの文章作成に利用できるとみられ、これまでのコンピューターよりもリアルな文章を生成できる可能性があるという。 米電気自動車(EV)大手テスラ(Tesla)最高経営責任者(CEO)のイーロン・マスク(Elon Musk)氏、アマゾン・ドットコム(Amazon.com)、マイクロソフト

    オープンAIの文章生成言語モデル「GPT-2」、悪用恐れ完全版は非公開
  • fastTextで未知語の類似語を探してみる | CCT-recruit

    エンジニアのtetsuです。 単語のベクトル表現を得る手法といえば、ニューラルネットワークを用いたWord2vecが一番有名かもしれません。ただし単純にWord2vecを用いた場合には未知語のベクトル化ができません。これに対して、fastTextを用いると未知語に対してもベクトル化が可能になります。 今回はfastTextで未知語をベクトル化し、学習データに含まれる単語の中から類似しているものを探すということを試してみます。 fastTextとは? fastTextはFacebookによって開発されているライブラリでGitHub上でソースが公開されています。 https://github.com/facebookresearch/fastText このfastTextは高速に単語の分散表現を得ること(単語のベクトル化)と文の分類問題を解くことが可能です。今回に関しては前者の単語の分散表現を

  • Pythonでword2vecを自在に操って高次元ベクトルを可視化 | みんなのメモ帳

    word2vecで色々な言葉をベクトルに出来たのは良いものの、それを一切活用できない宝の持ち腐れ状態だったのでpythonで色々といじくれるように頑張ってみました。 word2vecpythonでいじれる環境を作る 依存するパッケージをpipでインストールします。 sudo -H pip install -I numpy scipy gensim matplotlib sklearn python仕様に辞書を作り直す 以前作ったモデルファイルはバイナリになっていてpythonで使うことが出来ないので(多分)、それも含めてもう一度学習をしないといけなくなりました。ので、今回はpythonでコーパスから学習するpythonのコードを。 # -*- coding:utf-8 -*- from gensim.models import word2vec files = word2vec.Text

  • Cos類似度とDoc2Vecってどっちが良いの? - Qiita

    ベーシック Advent Calendar 2016 10日目は、 17卒内定者の@enta0701です。 今年の9、10月ごろ、Cos類似度という単語を知りました。 4日目の記事にもありますが、レコメンドシステムなんかにも使えるそうです。 なにやら面白そうな匂いがしたので、実際に文書同士の類似度計算を Cos類似度と、ググっていたときに頻繁にでてきたDoc2Vecで試してみようと思います。 Cos類似度とは 2つのデータにおいて、特にn次元のベクトル同士を比較する際に扱われるそうです。 数式で書くとこんな感じ。 $$ similarity = cos\theta = \frac{A \cdot B}{||A|| ||B||} $$ 内積ですね。 この値が1に近いほど類似度が高く、0に近いほど類似度が低いことを表します。 Cos類似度を使って文書を比較する際には、文章中の単語に重み(特徴)

    Cos類似度とDoc2Vecってどっちが良いの? - Qiita
  • BERT with SentencePiece で日本語専用の pre-trained モデルを学習し、それを基にタスクを解く - クックパッド開発者ブログ

    研究開発部の菊田(@yohei_kikuta)です。機械学習を活用した新規サービスの研究開発(主として画像分析系)に取り組んでいます。 最近は、社内の業務サポートを目的として、レシピ機械学習モデルで分類して Redshift に書き込む日次バッチを開発・デプロイしたりしてました。 ここ数ヶ月で読んだ論文で面白かったものを3つ挙げろと言われたら以下を挙げます。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Focal Loss for Dense Object Detection Exponential expressivity in deep neural networks through transient chaos 記事では、BERT というモデルをクックパッドのレ

    BERT with SentencePiece で日本語専用の pre-trained モデルを学習し、それを基にタスクを解く - クックパッド開発者ブログ
  • BERTの学習済みモデルを使ってみる | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ

    こんにちは。データサイエンスチームのtmtkです。 この記事では、最近公開されたBERTの学習済みモデルを試してみます。 はじめに 今年10月末に、BERTという自然言語処理のモデルが発表されました。事前に学習したモデルをファインチューニングする仕組みで、自然言語処理の各種タスクで最高のスコアを更新したため、話題になりました。 このBERTのソースコードと事前学習済みのモデルが、先月末にGitHubで公開されました。 この記事では、このBERTの事前学習済みモデルをつかって、英語の文が「Alice’s Adventures in Wonderland(不思議の国のアリス)」と「Pride and Prejudice(高慢と偏見)」の二つのうちどちらの作品の文かを判定する機械学習モデルを作ってみます。 実験 いつものように、AWSのEC2で実験をします。AMIとしてDeep Learning

    BERTの学習済みモデルを使ってみる | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ
  • WEEKLY人工無脳【第18号】(2018.11.5~11.11)|Yuta Yoshida|note

    ※しれっと、はてなからnoteに乗り換えてみました。これまで書いたWEEKLY人工無脳の記事はこちら ① Googleが圧倒的な自然言語処理手法を発表。東ロボくんの仇はGoogleが討つのか?機械学習クラスター周りで今週最も話題になってたのはこれでしょうか。 Googleが公開した自然言語処理手法(新たな汎用言語表現モデル)が、これまでの自然言語解釈タスクでぶっちぎりの精度を出したという話。すごくざっくりいうと、機械による文章読解精度が劇的に上がったということ。 人工知能が昨今こんなに注目されている理由の根っこには、『「画像処理タスク」において人間のような高い精度を出せるようになったから』というところが始まりだったりします。2012年の画像解析コンペにおいて初めて深層学習手法であるCNNが使われ、二位にダントツの差をつけて優勝したあたりから社会的にも「AI(≒深層学習)がなんか凄いことにな

    WEEKLY人工無脳【第18号】(2018.11.5~11.11)|Yuta Yoshida|note
  • Seq2Seq+Attentionのその先へ - Qiita

    自然言語処理においてSequence-to-Sequenceモデル、そしてAttentionは大きな影響を与えてきました。 いまやSequence-to-Sequence + Attentionモデルは自然言語処理とディープラーニングを語る上では欠かせない存在となりつつあります。 近年の自然言語処理ではこのSequence-to-SequenceとAttentionをベースにしたモデルが多く提案されています。 この記事ではSequence-to-Sequenceをベースとしたモデルがどういった進化を遂げているかを歴史を追いながらまとめていこうと思います。 Sequence-to-Sequenceモデル (2014) Sequence-to-SequenceモデルはSequence to Sequence Learning with Neural Networksの論文で提案され、「Seq2

    Seq2Seq+Attentionのその先へ - Qiita
  • 自動文章生成AI(LSTM)に架空の歴史を作成させた方法とアルゴリズム

    ※サンプル・コード掲載 1.AIに文章を作らせる方法概要 架空の名前から架空の人物の歴史概要を作成させてみました。 やり方としては、wikipediaの人物の概要の部分を抜き出してRNNにトレーニングさせます。 そのトレーニングさせたモデルに対して名前を入力すると、その人物の概要を出力してくれるようにします。 RNNとは、Recurrent Neural Networksの略で、時系列の情報を学習させるためのニューラルネットワークのモデルのことです。 文章を生成させるようなモデルの場合、多層パーセプトロンのようなモデルだと出力の長さが一定になってしまい、うまく作ることができません。 そこでRNNを使い、入力が単語(文字)、出力が次の単語(文字)として学習させると、そのモデルに次々と出力された単語を入力させることによって文章が生成出来るようになります。 そして、RNNは内部の重みを入力によっ

    自動文章生成AI(LSTM)に架空の歴史を作成させた方法とアルゴリズム
  • ML-Askでテキストの感情分析 - Qiita

    ちゃお……† 今回は感情分析ライブラリML-Askについて紹介します。 ML-Askができること 感情の推定 2,100語の辞書によるパターンマッチングで{喜, 怒, 哀, 怖, 恥, 好, 厭, 昂, 安, 驚}の10種類の感情を推定します。この2,100語は、感情表現辞典に基づいているそうです。 感情の強さ 間投詞、擬態語、がさつな言葉、顔文字、「!」や「?」の数で感情の強さを推定します。 ネガポジ分類 推定された感情から文を{ネガティブ、ポジティブ、ニュートラル}の3種類に分類します。 文脈の考慮 Contextual Valence Shifters (CVS) という概念に基づいて, 文脈を考慮した感情推定を行います. たとえば, 「好きとは言えない」という文の場合、「好き」が否定されているので、「好き」の逆の感情である「厭」だと推定します。 活性的かどうか 推定された感情を元に

    ML-Askでテキストの感情分析 - Qiita
  • 1