タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

seq2seqに関するyukimori_726のブックマーク (2)

  • seq2seq用日本語対話データセット生成スクリプト – @knok blog

    以前、Instagramの画像からべ物の画像のデータセットを作成という記事を書きましたが、その中で「次はseq2seq用の対話データセットをどうにかしたい」とこぼしていました。なんとかそれを形にできました。 knok/make-meidai-dialogue: Get Japanese dialogue corpus (github) seq2seqで利用可能な日語対話データセットをダウンロードするツール (Qiita解説記事) 元データはDFSG準拠のライセンスでない点に注意してください。このツールによって生成したデータも同様の制限を受けます。 画像データセットに関しては複数種類があって、以前作った画像データセットの方にあまり需要はなかったようですが、今回はそれなりに参考にされていそうです。 できればDFSG互換なライセンスで公開できる形のデータセットが作りたいのですが、さすがに対話

  • seq2seqで利用可能な日本語対話データセットをダウンロードするツール - Qiita

    knok/make-meidai-dialogue: Get Japanese dialogue corpus というものを作りました。 背景 seq2seq実装をいくつか触ってみて、何かしらの知見を共有したいと思っているのですが、あまり具体例に踏み込んだ話題をなかなか見かけません。 その要因の一つに「日語」で「対話」の「自由に利用できる」データセットがないことがあるのではないかと考えています。 個人的にTwitterから適度に対話を取得してくるスクリプトを一度作ったことがあったのですが、ノイズが多くかなり手作業でデータをクレンジングする必要がありました。 LSTMで自然な受け答えができるボットをつくったという記事を書かれた人は、ask.fmからデータをクローリングしていますが、やはり苦労はされているようです。 今回作ったもの githubのREADMEにも書きましたが、このツールは日

    seq2seqで利用可能な日本語対話データセットをダウンロードするツール - Qiita
  • 1