タグ

ブックマーク / blog.daionet.gr.jp (3)

  • seq2seq用日本語対話データセット生成スクリプト – @knok blog

    以前、Instagramの画像からべ物の画像のデータセットを作成という記事を書きましたが、その中で「次はseq2seq用の対話データセットをどうにかしたい」とこぼしていました。なんとかそれを形にできました。 knok/make-meidai-dialogue: Get Japanese dialogue corpus (github) seq2seqで利用可能な日語対話データセットをダウンロードするツール (Qiita解説記事) 元データはDFSG準拠のライセンスでない点に注意してください。このツールによって生成したデータも同様の制限を受けます。 画像データセットに関しては複数種類があって、以前作った画像データセットの方にあまり需要はなかったようですが、今回はそれなりに参考にされていそうです。 できればDFSG互換なライセンスで公開できる形のデータセットが作りたいのですが、さすがに対話

  • Instagramの画像から食べ物の画像のデータセットを作成 – @knok blog

    過去の記事で予告した、「画像分類タスクのテストのために作ったデータセット」を公開しました。 https://github.com/knok/instagram-food-images 画像そのものではなく、InstagramのURLへのリンク集という形で公開しています。各自でダウンロードしてご利用ください。再配布可能な画像のみをチョイスするのがより良い方法だったのですが、今回はそこまで手が回りませんでした。 Qiitaにも「画像判別タスク向けの自前データセットを作ってみた」という記事を書いています。そちらにも書きましたが、実際に自分で用意したデータセットをChainerで処理する手順の詳細な記事「PFN発のディープラーニングフレームワークchainerで画像分類をするよ(chainerでニューラルネット1) 」があるので、実際の手順はそちらを参考にするとよいでしょう。 最近はseq2seq

  • Linuxで扱う乱数に関する話 – @knok blog

    これはLinux Advent Calendar4日目の記事です。 Unix系OSには、カーネルに乱数生成器を持つ実装が多くあります。乱数は暗号分野でも利用され、非常に重要な位置を占めています。Linuxにおける乱数に関する話題を取りあげてみます。 エントロピープール 一般的に、特別なハードウェアを持たない限り、真の乱数を計算機が生成することは困難です。Linuxでは、質の良い乱数を生成するためにエントロピープールと呼ばれる領域を持っています。エントロピープールには、キーボードの入力タイミングやストレージ、ネットワークなどで発生するハードウェア割り込みなどをもとにした推測の困難な情報(環境ノイズ)が蓄積されます。乱数の生成時には、このエントロピープールの内容を消費、加工します。 エントロピープールにどの程度情報がたまっているかを調べるには、/proc/sys/kernel/random/e

  • 1