タグ

2017年2月9日のブックマーク (20件)

  • TensorFlowのSeq2Seqモデルでチャットボットっぽいものを作ってみた - Qiita

    のような感じです。これをtest_data_in.txtとtest_data_out.txtも同様に準備をします。 訓練用306文とテスト用306文(IN,OUTが153ずつ)の計712文で、語彙数は訓練用とテスト用それぞれ約500ずつです。 データは非常に少ないです(泣) 学習のコード 学習を行うコードです。 チュートリアルのデフォルトではバッチ(batch_size)が64、層の数(num_layers)が3、層のユニット(size)が1024、語彙数が(vocab_size)が40000の大きさでした。 #!/usr/bin/env python # -*- coding: utf-8 -*- # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file ex

    TensorFlowのSeq2Seqモデルでチャットボットっぽいものを作ってみた - Qiita
  • 【エヴァンゲリオン】アスカっぽいセリフをDeepLearningで自動生成してみる - Qiita

    はじめに エヴァンゲリオン20周年おめでとうございます 加えて、アスカの誕生日もおめでとうございます。(4日遅れ) Twitter Bot等でも使われている、文章の自動生成を流行りのDeepLearningの1種であるリカレントニューラルネットワーク(以下:RNN)を使ってやってみました。 データ集め 何はなくともまずはデータが無いと始まりませんね。 書き起こしも覚悟してましたが、アニメ全セリフをまとめてあるありがたいサイトが有りました。感謝。 こちらから全セリフを抽出しました。 セリフのフォーマットはこんな感じで、キャラ名 「セリフ」になってます。 放送「日、12:30分、東海地方を中心とした関東中部全域に特別非常事態宣言が発令されました。住民の方々は速やかに指定のシェルターに避難してください」 放送「繰り返しお伝えいたします…」 ミサト「よりによってこんな時に見失うだなんて、まいった

    【エヴァンゲリオン】アスカっぽいセリフをDeepLearningで自動生成してみる - Qiita
  • わかるLSTM ~ 最近の動向と共に - Qiita

    Machine Learning Advent Calendar 2015 第14日です。去年のAdvent Calendarで味をしめたので今年も書きました。質問、指摘等歓迎です。 この記事の目的 ここ2~3年のDeep Learningブームに合わせて、リカレントニューラルネットワークの一種であるLong short-term memory(LSTM)の存在感が増してきています。LSTMは現在Google Voiceの基盤技術をはじめとした最先端の分野でも利用されていますが、その登場は1995年とそのイメージとは裏腹に歴史のあるモデルでもあります。ところがLSTMについて使ってみた記事はあれど、詳しく解説された日語文献はあまり見当たらない。はて、どういうことでしょうか。 記事ではLSTMの基礎をさらいつつ、一体全体LSTMとは何者なのか、LSTMはどこに向かうのか、その中身をまとめ

    わかるLSTM ~ 最近の動向と共に - Qiita
  • nico-opendata

    nico-opendata niconicoでは、学術分野における技術発展への寄与を目的として、 研究者の方を対象に各種サービスのデータを公開しています。 ニコニコ動画コメント等データセット (株)ドワンゴ及び(有)未来検索ブラジルと国立情報学研究所が協力して研究者に提供しているデータセットです。 ニコニコ動画コメント等のデータが利用可能です。 利用申請フォーム※国立情報学研究所へリンクします ニコニコ大百科データ (株)ドワンゴ及び(有)未来検索ブラジルと国立情報学研究所が協力して研究者に提供しているデータセットです。 ニコニコ大百科のデータが利用可能です。 利用申請フォーム※国立情報学研究所へリンクします Nico-Illustデータセット Comicolorization: Semi-Automatic Manga Colorization Chie Furusawa*、Kazuyu

    nico-opendata
  • 情報学研究データリポジトリ ニコニコデータセット

    ニコニコ大百科データ ニコニコ大百科に2014年2月上旬までに投稿された記事全ての記事ヘッダ,記事文データと,それに付随する掲示板全データです。ただし,ユーザーページ,ユーザーIDは削除されています。 記事ヘッダデータ 記事ID,記事タイトル,記事ヨミ,記事種類(a:単語,v:動画,i:商品,l:生放送),記事作成日時などのデータです。CSV形式のファイルで,1年当たり1ファイル,圧縮ファイルで約4.9MB,展開後は約14.9MBです。 記事文データ 記事ID,記事文,記事更新日時などのデータです。CSV形式のファイルで,1月あたり1ファイル(例外あり),圧縮ファイルで約4.52GB,展開後は約22.7GBとなりますので,ダウンロードされる際はご注意ください。 掲示板データ 記事ID,レス番号,レス投稿日時,レス文などのデータです。CSV形式のファイルで,1年あたり1ファイル,圧縮

    rin51
    rin51 2017/02/09
    こんなのがあったのか
  • JUMAN++ - LANGUAGE MEDIA PROCESSING LAB

    形態素解析システム Juman++ † Juman++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました. ↑ 使用方法 † たとえば,次のようなテキストを入力すると, % cat sample.txt 外国人参政権 私もあさって日曜最終日 以下の解析結果が得られます. % cat sample.txt | jumanpp 外国 がいこく 外国

  • 新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

    JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。 これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。 速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。 導入方法 前提 OS X Yosemite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。 推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。 また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr

    新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
  • 勾配降下法の最適化アルゴリズムを概観する | POSTD

    (編注:2020/10/01、2016/07/29、いただいたフィードバックをもとに記事を修正いたしました。) 目次: さまざまな勾配降下法 バッチ勾配降下法 確率的勾配降下法 ミニバッチ勾配降下法 課題 勾配降下法を最適化するアルゴリズム Momentum(慣性) Nesterovの加速勾配降下法 Adagrad Adadelta RMSprop Adam アルゴリズムの可視化 どのオプティマイザを選ぶべき? SGDの並列化と分散化 Hogwild! Downpour SGD SGDのための遅延耐性アルゴリズム TensorFlow Elastic Averaging SGD 最適化されたSGDに対する更なる戦略 シャッフル学習とカリキュラム学習 バッチ正規化 早期終了 勾配ノイズ 結論 参考文献 勾配降下法は、最適化のための最も知られたアルゴリズムの1つです。これまではニューラルネット

    勾配降下法の最適化アルゴリズムを概観する | POSTD
  • ディープラーニング(seq2seq)でtwitter chatbotを作ってみた - Qiita

    こんにちは。今年は冬休みをとても長くとったのですが、肉や蟹やや酒を連日消費しているうちに人体が終わっていき、気持ちになったので(様々な方向に感極まった状態のことを「気持ちになる」と表します)、世間で流行っているらしいディープラーニングの関連情報をつまみいしてチャットボットを作ってみることにしました。 入力文に対しニューラルネット(RNN)で応答文を生成して返事します。 @neural_chatbot というtwitterアカウントで動かしています。 ご興味があればぜひ@neural_chatbotに話しかけてみてください。 あらすじ ニューラルネットというものがあり、関数を近似することができ、知られています。 Recurrent Neural Network (RNN)というものがあり、内部状態を持つことができ、自然言語を含む可変長の系列を取り扱うのに便利で、知られています。 Sequ

    ディープラーニング(seq2seq)でtwitter chatbotを作ってみた - Qiita
  • seq2seq で長い文の学習をうまくやるための Attention Mechanism について - Qiita

    概要 シーケンス(例えば文章)のペアを関連付けて学習させる DeepLearning の手法 sequence-to-sequence learning において、長いシーケンスでの学習の精度を上げると言われている Attention Mechanism の論文を読んだので備忘録を兼ねて概要を書いておきます。 元論文: Neural Machine Translation By Jointly Learning To Align And Translate そもそも seq2seq とは シーケンスのペアを大量に学習させることで、片方のシーケンスからもう一方を生成するモデルです。 元論文: Sequence to Sequence Learning with Neural Networks tensorflow 上にも実装があります。 実用例としては以下のようなものがあります。 翻訳: 英

    seq2seq で長い文の学習をうまくやるための Attention Mechanism について - Qiita
  • Recurrent Convolutional NNでテキスト分類 - Qiita

    機械学習でテキスト分類をできないかと調べたところ、2種類の手法が提案されていました。 CNNによるテキスト分類 RNNで文書分類(Text Classification) 前者の手法は既にTensorFlowによる実装があったのと、直接Chainerで記述できなかった(covolution_2dではx軸固定の畳み込みができない)ので、後者を実装してみました。 追記 この記事を書いた当時はフィルタの幅と入力行列の幅を同じにしたとき、0除算例外が出てしまっていたのですが、今は問題なくできるようになっていました。自分が試した頃は確かversion 1.6あたりだったと思います。 ChainerによるCNN実装例がQiitaにもあります。 【Chainer】畳み込みニューラルネットワークによる文書分類 こちらの実装では、単語埋め込み表現をword2vecで既に学習させたものを利用していますが、li

    Recurrent Convolutional NNでテキスト分類 - Qiita
  • 「男子児童ポルノ」愛好家6人摘発、被害170人 | 日テレNEWS24 | 東洋経済オンライン | 経済ニュースの新基準

    自然体験ツアーに参加した男子児童にわいせつな行為をし、動画を撮影したなどとして、添乗員やボランティアの男ら6人が逮捕・起訴されていたことがわかった。6人は男子児童ポルノの愛好家で、被害児童は170人近いとみられている。 児童ポルノ禁止法違反などの罪で逮捕された元ツアー添乗員の開發哲也被告(35)は、2015年3月、都内のNPOが企画した群馬県の自然体験ツアーで、参加した当時8歳の男子児童の下半身を触った上、動画を撮影した罪などに問われている。開發被告は、熊県のキャンプ場や千葉県のレジャー施設のツアーでも同様の犯行を繰り返していたという。 ツアーを企画していたNPO理事長「(開發被告は)とても子供たちにも人気があって。信頼したスタッフの一人で当に裏切られた気持ちでいっぱいです。被害者の方に当に深くおわび申し上げたい」 さらにツアーのボランティアだった無職の鈴木龍哉被告(23)や横浜市立

    「男子児童ポルノ」愛好家6人摘発、被害170人 | 日テレNEWS24 | 東洋経済オンライン | 経済ニュースの新基準
    rin51
    rin51 2017/02/09
  • http://md.pia.jp/pia/event/event.do?eventBundleCd=b1751461

    rin51
    rin51 2017/02/09
  • ネット上の『けものフレンズ』ブームにえらいひとから一言!? | アニメイトタイムズ

    ネット上の「フレンズ」ブームに取締役から一言!? TVアニメ『けものフレンズ』の大流行についてアニメを作るのが得意なフレンズからコメントをもらったよ! 2017年冬現在、サーバルやフェネックなどを擬人化したTVアニメ『けものフレンズ』が、今週ネットで大人気になったのを知っていますか? Twitter(ツィッター)のトレンドにワードが出現したり、考察記事が話題になったりと、『けものフレンズ』が大フィーバー中なんです! 作は、様々な動物の特徴を持った「フレンズ」たちが集まる「ジャパリパーク」を舞台に、ほのぼのとした日常系(!?)物語が展開されます! また、キャラクターのコンセプトデザインを担当する「フレンズ」は、『ケロロ軍曹』などでお馴染みの吉崎観音さんです! そんな、『けものフレンズ』の今週の動きを、まとめてみました! 作品のニュアンスをしっかりと伝えたるために、ここからは、フレンズ風の原

    ネット上の『けものフレンズ』ブームにえらいひとから一言!? | アニメイトタイムズ
    rin51
    rin51 2017/02/09
    > 福原慶匡さん:正直なにが起きているのか困惑していますが
  • インテル 米西部の工場に巨額投資 約3000人雇用と発表 | NHKニュース

    アメリカトランプ大統領が国内への投資を呼びかける中、大手半導体メーカーのインテルは、いったん計画を見合わせていた西部アリゾナ州の工場に7800億円以上を投資し、およそ3000人を雇用すると発表しました。 インテルはこれに伴い、地元でおよそ3000人を直接雇用するほか、工場の操業などを通して長期的には1万人以上の雇用が生まれるとしています。 インテルが今回投資する工場は、2011年に計画を発表し建設を進めていましたが、パソコン市場の縮小を受けて計画を凍結していました。 投資の再開を決めた理由について、クルザニッチCEOは記者団に対して、「新政権は税制と規制改革で企業を支援し、アメリカの製造業を優位にしてくれる」と述べ、トランプ大統領の政策に後押しされたことを明らかにしました。 アメリカのIT企業は、トランプ大統領が中東など7か国の人の入国を一時的に禁止することなどを命じた大統領令に対し、イ

    rin51
    rin51 2017/02/09
  • IPAの脆弱性学習ツールに脆弱性があると判明

    IPAの脆弱性学習ツールに脆弱性があると判明
    rin51
    rin51 2017/02/09
  • 線画着色webサービスPaintsChainerを公開した - Qiita

    http://paintschainer.preferred.tech こちらに先月記事にした線画の着色のデモを公開しました!! 反響の大きかった皆さんに試していただけます!!(ちょっと期待値が上がり過ぎてないといいですがw) http://qiita.com/taizan/items/cf77fd37ec3a0bef5d9d 以前の記事『初心者がchainerで線画着色してみた。わりとできた。』はこちら。 ⇓そしてこちらがもじゃくっきーさんの使用例になっております。 GPUを使っている関係上アクセスが集中したりすると遅くなったりサーバーが落ちたりする可能性もありますが、生暖かく見守っていただければと思います。←たくさんの方に広まったこともあって、めっちゃ重くなっています。ぐぬぬぬ 画面はこんな感じっす。 線画ファイルを選択するととりあえず自動で塗ってくれます。 ※ただし、現状ではgifや

    線画着色webサービスPaintsChainerを公開した - Qiita
    rin51
    rin51 2017/02/09
  • パナソニック「波動砲扇風機」はこうして生まれた

    「宇宙戦艦ヤマト 2202 愛の戦士たち」第1章「嚆矢篇」の完成披露上映会の会場に、パナソニックのボール型扇風機「創風機Q」のコラボモデルが展示してあった 2月6日に、宇宙戦艦ヤマトの新シリーズで全7章で描かされる劇場版「宇宙戦艦ヤマト 2202 愛の戦士たち」の第1章「嚆矢篇」の完成披露上映会が開催された(関連記事)。完成披露上映会の会場には、様々なコラボグッズが展示してあった。中でも気になったのが、パナソニックのボール型扇風機「創風機Q」と宇宙戦艦ヤマト 2202 愛の戦士たちがコラボレーションしたモデル「F-BP25TA-S」だ。333台限定販売で、2月6日より予約受付を開始している。価格は7万5000円。

    パナソニック「波動砲扇風機」はこうして生まれた
    rin51
    rin51 2017/02/09
  • ついに出たWHOISの“後継者”、ドメイン情報の検索性向上

    JPドメイン(.jp)の登録管理を担う日レジストリサービス(JPRS)は、WHOISの次世代プロトコルである「RDAP(Registration Data Access Protocol)」の技術仕様(RFC 7480~7484)を日語化、同社のWebサイトで2016年12月15日に公開した。 WHOISは、IPアドレスやドメイン情報などのインターネット資源を検索するためのサービス。やり取りを規定したWHOISプロトコルは1982年に作られた。現在は主にドメイン名を取得するときの事前調査や、ドメインの管理者を調べるときなどに使われている。 一方で、プロトコルに起因する問題も抱えている。最大の問題は、RFCで定められている内容が極めてシンプルなため、運用組織によって実装がバラバラになっている点だ。ドメイン名を管理するレジストリや、IPアドレスを管理する地域インターネットレジストリごとにも

    ついに出たWHOISの“後継者”、ドメイン情報の検索性向上
    rin51
    rin51 2017/02/09
  • LINE急落、上場来安値に 市場が失望した3つの理由 – MONEY PLUS

    1月25日、「LINE」の決算発表が行われました。昨年7月に上場してから、はじめての決算ということで注目を集めましたが、ふたを開けると、売上高は前年比16.9%増の1407億円、営業利益は同10.2倍の198億円。 一見、好決算に見えますが、市場の反応はかなり強めの「NO」。LINEの株価は一時、16%安の3,530円まで急落し、上場以来の最安値を付けました。これは上場後のLINE株を持っている人は全員含み損という、株主おかんむりの展開です。 なぜ市場はこのような反応をしたのか。市場が失望した理由を3つまとめてみました。 失望の理由1「4Qの営業利益が急減している」 左側のグラフを見ていただくと、直近4Qの営業利益が目に見えて急減していることがわかります。まずかったのは、これが市場のコンセンサスを大きく下回ったことです。 ※LINE株式会社 平成28年12月期 第4四半期通期決算説明会

    LINE急落、上場来安値に 市場が失望した3つの理由 – MONEY PLUS
    rin51
    rin51 2017/02/09