タグ

Deep Learningに関するyoshiwebのブックマーク (116)

  • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

    「誰でも」「高品質に」ゆかりさんの声になれる声変換技術を作りました。また一歩、結月ゆかりになるという夢に近づけた気がします。~Q&A~Q. 生放送で使える?A. 現状だと声変換に数十秒かかるので難しいです。生放送用途だとリアルタイムYukarinがおすすめです。sm35735482Q. ゆかりねっととの違いは?A. テキスト以外の情報も利用するので、笑ったり怒ったりできます。Q. 公開予定は?A. 声変換システムの配布予定はありませんが、技術解説はブログにて公開しています。また、声変換にご興味ありましたら、ツイッターなどでご連絡いただけるととても嬉しいです。-----------------------------------・ツイッターhttps://twitter.com/hiho_karuta・技術解説ブログhttps://blog.hiroshiba.jp/everybod

    ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
  • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

    2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること

    ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
  • MediaPipe  |  Google for Developers

    Delight your customers with innovative machine learning features. MediaPipe contains everything that you need to customize and deploy to mobile (Android, iOS), web, desktop, edge devices, and IoT, effortlessly. See demos Learn more

  • 物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌

    はじめに 先月、YOLOv4が公開されました。位置づけとしては、物体認識のポピュラーなモデルの1つであるYOLO系統の最新版となります。結果がすごいのはぱっと見分かりましたし、内容も既存の手法をサーベイ・実験頑張って、精度上げていったんだなあくらいのさら読みはしていましたが、もう少しちゃんと読んでおこうと思い、読んでみたので紹介します。 私自身は物体認識の研究者というわけではないですが、なんだかんだ物体認識周りの記事をいくつか書いているので興味のある方は以下もご参照下さい。 note.com note.com [DL輪読会]Objects as Points from Deep Learning JP www.slideshare.net さて、このYOLOv4ですが、元々のYOLOの作者であるJoseph Redmon氏は著者ではありません。Jeseph Redmon氏は研究の軍事利用や

    物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介 - ほろ酔い開発日誌
  • 【終了しました】 『ゼロから作る Deep Learning ❸』公開レビューのお知らせ|斎藤 康毅(さいとう こうき)

    こんにちは、斎藤 康毅(さいとう こうき)といいます。ここ1年間はずっとを書いていました。『ゼロから作る Deep Learning ❸ — フレームワーク編』というです。最近ようやく、原稿を書き終わろうとしています。 このは「ディープラーニングのフレームワークを作ろう」というです(野心的にも、オリジナルの「フレームワーク」をゼロから作ります)。世界中を見回しても、ほとんど類書がないようなになっていると思います。これから先、できるかぎり良いになるよう、最後の最後までブラッシュアップしていく予定です。 さて、今回も前作同様に「公開レビュー」を行います。興味のある方は、オンラインで原稿を読めるページを用意していますので、チェックしてみてください(無料です!)。問題に感じた箇所や改善すべきと思った点など、コメントいただけますと幸いです。どんなに小さな指摘や疑問でも構いませんので、気軽

    【終了しました】 『ゼロから作る Deep Learning ❸』公開レビューのお知らせ|斎藤 康毅(さいとう こうき)
  • Metric Learning 入門 - copypasteの日記

    はじめに metric learningとは マハラノビス距離学習 deep metric learningとは siamese network triplet network サンプルの選び方と直感的理解 L2 softmax network MNISTで実験 実験条件 実験1-1: 表現力の確認 実験1-2: 未知クラスの表現力を確認 実験1-3: 奇数/偶数を学習 天気データで実験 データの準備 実験条件 実験2-1: 表現力の確認(その1) 実験2-2: 表現力の確認(その2) 実験2-3: 未知クラスの表現力を確認 まとめ おわりに 参考 はじめに metric learningについて学ぶ機会があったので忘れないうちに得た知識を書き留めておきます。学んだ期間は10日程度と短く、deep learningも含めて初心者ですので疑いながら読んでいただければと思います。間違いを見つけ

    Metric Learning 入門 - copypasteの日記
  • ディープラーニングの数学「スカラー・ベクトル・行列・テンソル」とは?

    ディープラーニングの解説では「スカラー・ベクトル・行列・テンソル」という言葉がよく出てきます。これらは、数値をまとめてあつかうための数学の便利な仕組みなのですが、私をふくめ数学が苦手な方にとっては「〜をベクトルにして」とか「行列とスカラーを計算するには〜」と言われると、おそろしく難解なことに思えるのではないでしょうか? そこで今回は、「スカラー・ベクトル・行列・テンソル」についてまとめてみました。

    ディープラーニングの数学「スカラー・ベクトル・行列・テンソル」とは?
  • 効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog

    どうも緒方@conta_です。 みなさんAI頑張ってますか? きっと昼はGPUサーバーを回して、夜は結果待ちでビールサーバーを回してる人が多いことでしょう。 機械学習を実際のプロダクトに活用する場合、自分が解きたいタスクがそのままオープンなデータセットで解決できることは少ないので、まず最初に課題となるのはデータセット作成です。 実際にカメラやセンサーを取り付けて収集したり、Webからクローリングしてきたり、事業会社であれば自社のデータセットに教師ラベルをつけることで新しいタスクに取り組むことが可能になるでしょう。 よく疑問になるポイントとして、データセットの量と質は、多ければ多いほど良く、高品質であれば高品質であるほど良いのですが教師データを作成するのは一苦労です。 *下記アノテーションの量や質について実験した結果がまとまってます tech-blog.abeja.asia もちろん少数デー

    効率的な教師データ作成(アノテーション)のための研究サーベイ - ABEJA Tech Blog
  • ニューラルネットワークの量子化についての最近の研究の進展と、その重要性 - SmartNews Engineering Blog

    こんにちは、スマートニュースの徳永です。深層学習業界はGANだとか深層強化学習だとかで盛り上がっていますが、今日は淡々と、ニューラルネットワークの量子化の話をします。 TL;DR パラメータだけを量子化するのであれば、ほぼ精度を落とさずに、パラメータのデータ容量は1/16程度にまで削減できる パラメータ、アクティベーション、勾配のすべてを量子化し、推論だけでなく学習までもビット演算だけで実現する研究が進んできている 現在は深層学習 = GPU必須というぐらいの勢いがあるけど、量子化の研究が進むと、今後はどうなるかわからないよ はじめに 情報理論における量子化とは、アナログな量を離散的な値で近似的に表現することを指しますが、稿における量子化は厳密に言うとちょっと意味が違い、十分な(=32bitもしくは16bit)精度で表現されていた量を、ずっと少ないビット数で表現することを言います。 ニュ

    ニューラルネットワークの量子化についての最近の研究の進展と、その重要性 - SmartNews Engineering Blog
  • Audio Classification : A Convolutional Neural Network Approach

    Audio Classification can be used for audio scene understanding which in turn is important so that an artificial agent is able to understand and better interact with its environment. This is the motivation for this blog post, I will present two different ways that you can go about doing audio classification based on convolutions. We will base our experiments on the dataset available at (https://www

    Audio Classification : A Convolutional Neural Network Approach
  • ディープラーニングで音声分類 - Qiita

    勉強がてらディープラーニングで環境音・自然音の分類をやってみました。 データセットはESC-50を使用します。 コード全文。 やったこと 環境音・自然音をConvolutional neural networkで分類します。 対象は動物の鳴き声や雨の音、人間の咳、時計のアラーム、エンジン音のような声(言葉)のない音です。 これらの音を使って、以下の手順で分類器をつくりました。 音声データの前処理 データの入手 Augmentation メルスペクトログラム データの用意 CNNで分類 CNNの定義 最適化関数にAmsgradを採用 学習データにmixupを採用 音声データの前処理 ESC-50は環境音を50クラス、2,000ファイル集めたデータセットです。 クラスには以下があります。 50クラスで各クラスのデータが40ファイルずつ用意されており、合計2,000ファイルです。 1ファイルの長

    ディープラーニングで音声分類 - Qiita
  • Deep Learningの学習の様子を可視化する、fastprogressがすごく良さげ - Qiita

    TL;DR fastprogressを使うと、Deep Learningのモデルを学習させるとき自動で色々なものを出力してくれてすごく便利 特にjupyter上で学習を回すときにはとても良さそう 実際にfastprogressを使って学習を回すと以下のような感じになる (fastai/fastprogress: Simple and flexible progress bar for Jupyter Notebook and console より) fastprogressでできること 1エポックごとに、損失関数とかmetricsの値を標準出力に出力させたい 学習の進み具合を示すプログレスバーを、上記の標準出力と喧嘩しない形で表示させたい できればリアルタイムで学習曲線の表示もしてほしい... fastprogressを用いると全部実現可能。 これを使えば、少なくともDeep Learni

    Deep Learningの学習の様子を可視化する、fastprogressがすごく良さげ - Qiita
  • Googleの事前学習済みモデルを手軽に利用出来るTensorFlow Hub - Technical Hedgehog

    自然言語処理におけるword2vecや画像処理におけるInceptionなど、一般的に広く用いられているモデルを上流で用いる事は多くあります。汎用的な知識を扱えるメリットがある一方、学習には大量のデータセットの準備と膨大な学習時間がかかってしまいます。 この問題に対して、あらかじめ学習させた状態のモデル(事前学習済みモデル)を用意しておき上流に転移させる方法があります。記事ではその事前学習済みモデルについて、Googleが提供するのライブラリであるTensorFlow Hubを紹介します。 TensorFlow HubはGoogleの大量リソースを用いて学習したモデルを手軽に実装できるほか、自作したモデルを別環境で利用しやすいように自作することも可能です。記事では概要と特徴、利用方法を紹介します。 今回説明するTensorFlow Hubの利用方法、作成方法について実験したコードはGi

    Googleの事前学習済みモデルを手軽に利用出来るTensorFlow Hub - Technical Hedgehog
  • 【保存版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita

    追記 【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 【保存版・初心者向け】独学でAIエンジニアになりたい人向けのオススメのAI勉強方法 また、Python機械学習がオンライン上で学べるAI Academyをnoteでも書きましたが、3/17日からほとんどのコンテンツを永続的に無料で利用できるよう致しましたので、是非使って頂けますと幸いです。 AI Academy Bootcamp 我々が提供している個人向けオンラインAIブートキャンプのご紹介です。 AI Academy Bootcamp AI Academy Bootcampは、「短期間でAI活用スキルを付けたい」と考えている方や、 「データサイエンティスト」や「機械学習エンジニア」として就業を目指している方向けの AI特化型オンラインブートキャンプです。 講義動画とオンラインマンツーマンの演習授

    【保存版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita
  • 畳み込みニューラルネットワークすごさを従来の機械学習のアルゴリズムと比較する - Qiita

    畳み込みニューラルネットワーク(CNN)が画像判別でよく使われるというのは知っていても、従来の機械学習アルゴリズムと比較してどれぐらいすごいものなのかというのがいまいちピンとこなかったので確認してみました。だいぶ長いよ! 概要 機械学習のアルゴリズムとして、ディープラーニングが出る前は例えばロジスティック回帰、サポートベクトルマシン、ランダムフォレストなどがありました。従来の手法というと漠然としますが、Scikit-learnでできるアルゴリズムと考えてよいです。これらの手法は現在でも有効で、これらのどれを使っても、手書き数字(MNIST)に対して最低でも8割、ちゃんと実装すれば9割の精度は出ます。Scikit-learnはとても使いやすいライブラリで、学習効率・実装効率ともによく、計算が比較的簡単なので高速です。逆にその段階で9割近く出ちゃうと、「学習が大変で処理も遅いディープラーニング

    畳み込みニューラルネットワークすごさを従来の機械学習のアルゴリズムと比較する - Qiita
  • にほんごのれんしゅう

    bertで知る炎上とブランドイメージの関係 イントロダクション 近年のSNSでの炎上は企業にとって大きなリスクとして認識されています。炎上してしまうと、企業はその対応に追われ、多大な労力を払うことになります。また、企業のブランドイメージの既存があると一般的に認識されているようです。 2020年は企業・国務に関連した多くの不祥事がありました。不祥事が起こるたびにその対策は行われてきましたが、炎上自体が引き起こす、ブランドイメージの低下等は定量化されていないようです。 今回、twitterのデータと機械学習のbertと呼ばれるアルゴリズムを用いることで、炎上した企業・商品・公人がどのような影響を受けたかを定量化し、曖昧であった炎上のリスクを可視化したいと思います。 類似した研究等 クチコミによるネット炎上の定量化の試みとその検証 ネット炎上の実態と政策的対応の考察 どのように定量化したか tw

    にほんごのれんしゅう
  • 高速化したYOLO V3を使ったリアルタイム物体検出 for PyTorch

    正確さと高速化に成功したYOLO V3 こんにちは。 AI coordinator管理人の清水秀樹です。 最近はラズパイにハマってdeeplearningの勉強をサボっておりましたが、YOLO V2をさらに高速化させたYOLO V3がリリースされたようなので、早速試してみました。 しかもより正確になったようです。 開発環境 imac2012 27-inch macOS High Sierra Python 3.5.2 PyTorch Anaconda使用 GPUは使用しない 公式サイトからのダウロード YOLO V3を使うだけならすぐにできます。 公式サイトを参考に以下の通りにコマンドラインをただ入力するだけ試すことができます。 $ git clone https://github.com/pjreddie/darknet $ cd darknet $ make $ wget https:

    高速化したYOLO V3を使ったリアルタイム物体検出 for PyTorch
  • 深層学習を使って楽曲のアーティスト分類をやってみた! - Platinum Data Blog by BrainPad

    記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 深層学習を使った音声データによる楽曲分類を実施しました!楽曲の特徴を表すメル周波数スペクトログラムを用いて、その楽曲のアーティストを推定します。 こんにちは、アナリティクスサービス部の井出です。 今回のブログは、音声データをテーマとして取り上げ、 音声データの特徴量 深層学習による楽曲のアーティスト分類 についてご紹介します。 ブレインパッドでは、深層学習の技術を駆使した活用事例が増えてきています。特に、画像認識の分野における活用事例は多く、当社の公開されている事例だけでも以下のようなものがあります。 ブレインパッド、キユーピーの品工場における不良品の検知をディープラーニングによる画像解析で支援 八千代エンジニヤリングとブレインパッド、洪水を安全に流す役割を担う河川のコンクリート護岸の

    深層学習を使って楽曲のアーティスト分類をやってみた! - Platinum Data Blog by BrainPad
  • ディープ・ラーニングを使った「誤字脱字を指摘する機能」を搭載しました | 文賢 ヘルプサイト

    いつも文賢をご利用いただき、誠にありがとうございます。 このたび、ディープ・ラーニングを使った「誤字脱字を指摘する機能」を搭載しました。 ※以下、「校閲支援」画面にある「誤字脱字チェック」をオンにすることで機能します。 新しく追加された「誤字・脱字チェック」は、2017年12月12日のプレスリリースのとおり、ディープ・ラーニング技術を利用しております。 これまでと比べ、数値上では8.7倍を超える誤字脱字検出数となりました。 しかし、すべての誤字・脱字を完璧に検出するものにはなっておりません。 そのため、今後も誤字脱字チェックを含め、文賢の機能全般を強化するための研究を進めていきたいと考えております。 今回の誤字脱字検出プロジェクトに際して 今回のプロジェクトに際して、人工知能の研究者や実務の専門家など、個人法人問わず素晴らしいメンバーに恵まれました。 ただ、人工知能を使っての誤字脱字検出に

    ディープ・ラーニングを使った「誤字脱字を指摘する機能」を搭載しました | 文賢 ヘルプサイト
  • Deep Learning with Python を読んだ

    TL;DR Deep Learning with Python を読んだ よく書かれているで、特に初学者〜中級者が Keras を使ってモデル構築ができるようになるには最適 扱っているトピック自体は他のと比べてそこまで変わっていないが、一つ一つの質は高い 個人的には Keras の実装の話などをもっとして欲しかった Keras 作者の Chollet 氏が書いた deep learning ということで、どんな内容なんだろうと思って読んでみた。 結論から言うととてもよく書けているで、対象読者は Keras を使って deep learning を始めたい(始めてみた)という人かと思う。 どんな経緯で出したかとかそういうのは全然知らないが、deep learning が使えるようになるための getting started となる決定版を書いたぞ、という印象を受けた。 自分としては

    Deep Learning with Python を読んだ
    yoshiweb
    yoshiweb 2018/04/03
    Keras 作者の Chollet 氏が書いた deep learning 本