タグ

ブックマーク / qiita.com/gacky01 (4)

  • Twitterデータを用いたチャットボットの訓練 - Qiita

    稿では、KerasベースのAttention付きSeq2seqモデルによって構築したチャットボットを、Twitterから取得した大量の会話データを用いて訓練し、応答文生成の精度向上を図ります。 1. はじめに 前回の投稿で、Twitterからの会話データ収集ツールを準備しましたので、収集したデータからエンコーダ/デコーダ入力、およびラベルデータを生成して、以前チャットボット用に作成したKerasベースのAttention付きSeq2seqモデルを訓練し、応答文生成の精度が向上するかどうか、見てみます。 前回は名大会話コーパスなどを訓練データに使用しましたが、応答文の精度は今一つでした。その原因は訓練データのボリューム不足にあると考え、今回はTwitterから会話データを大量に入手することでボリューム面の課題解決を図ります。 2. 稿のゴール 以下の通りです。 Twitterから取得した

    Twitterデータを用いたチャットボットの訓練 - Qiita
    yuiseki
    yuiseki 2022/12/04
  • Twitterデータを用いたチャットボットの訓練 -その2 処理性能とメモリ使用量改善 - Qiita

    稿では、TwitterAPIによって収集した大量の訓練データを使って、KerasベースのSeq2Seqニューラルネットワークを訓練する際の、処理性能とメモリ使用量改善について考察します。 1. はじめに 稿は筆者の投稿「Twitterデータを用いたチャットボットの訓練」の続編です。 TwitterAPIを用いて会話データを収集できるようになったことで、ニューラルネットワーク訓練用のデータは事実上、無尽蔵に準備できるようになりました。 大量データを準備することによって、応答文生成の精度はいくらでも上げられると期待したのですが、ここで以下の新たな制約が現れました。 メモリ使用量増加対策としてバッチサイズを小さくしたため、訓練により時間がかかる 学習精度が上がらない 稿では、これらへの対処方法について、記述します。 講じた対策によって訓練したニューラルネットワークは、Twitter上で利用

    Twitterデータを用いたチャットボットの訓練 -その2 処理性能とメモリ使用量改善 - Qiita
    yuiseki
    yuiseki 2022/12/04
  • TwitterAPIを用いた会話データ収集 - Qiita

    4-4. 応答ツイート取得 各ツイートはツイートされた時点では、まだ応答されていないので、仮にその後応答があったとしても、ツイート情報から応答ツイートを取得することはできません。しかし、そのツイートが別のツイートの応答かどうかは、調べる方法があります。 その手順ですが、まずツイートを取得し、その中から他のツイートに対する応答であるものを抽出し、発話ツイートを特定して取得するという流れで、発話と応答の対を収集します。 ツイートの取得には、セッションオブジェクトのgetメソッドを使用します。1回のメソッドで取得できるツイート数の上限は100なので、パラメータにその値を設定してメソッドを発行します。 なお、ループを回す関係上、おなじツイートを2度受信、処理してしまう可能性があります。これを防ぐため、処理対象のツイートをツイート時刻を使って絞り込みます。時刻処理については、こちらの記事を参考にしま

    TwitterAPIを用いた会話データ収集 - Qiita
    yuiseki
    yuiseki 2022/12/04
  • Kerasで実装するSeq2Seq -その1 日本語訓練データの準備 - Qiita

    稿では、Seq2Seq(Sequence to Sequence)モデルによるチャットボットをKerasベースで作成するにあたり、学習用の日語会話データ収集、整形、品詞分解手順を記述します。実行環境は、Google Colaboratoryを想定します。 1. はじめに Kerasは少ないコードでニューラルネットワークを構築することができ、大変重宝しています。あまりに便利なので、KerasベースでSeq2Seqを実装しようと思ったときにも、「Seq2Seqレイヤー」のようなものがすでにあって、1行で実装完了!などと言ったことを期待していましたが、残念ながらそうではありませんでした。 そこで、Keras : Ex-Tutorials : Seq2Seq 学習へのイントロを参考に、Kerasベースの日語チャットボット作成に挑戦してみます。 2. 稿のゴール 以下の段取りを踏んで、Seq

    Kerasで実装するSeq2Seq -その1 日本語訓練データの準備 - Qiita
  • 1