並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 500件

新着順 人気順

ノイズ除去の検索結果1 - 40 件 / 500件

  • プレゼンスライドがみるみる良くなる基本の推敲技術 -事例付き解説-|石原尚(大阪大学教員)|note

    研究発表のスライドの仕上げの目的は、単に見栄えを良くすることではなく、伝えたいことが正しく・詳しく・分かりやすく伝わるようにすることです。スライドの推敲の技術を知って、実践的に身につけましょう。大阪大学大学院の教員であり、2021年10月に『卒論・修論研究の攻略本(森北出版)』を上梓した著者が実例付きで解説します。 スライドの推敲とは?文章がそうであるように、スライドもまた、「伝えたかったこと」をいつでも正しく伝えてくれるとは限りません。そして、正しく伝わるはずだ、という淡い期待を裏切られたときは、本当につらいものです。 文章を推敲するように、スライドにも推敲をかけましょう。ただし、スライドを推敲する際に、単にスライド中の語句を推敲するだけでは不十分です。スライドは、文章とは異なる表現形式だからです。 とはいえ、実は、著者の別記事で紹介した文章の推敲技術は、スライドの推敲にも使うことができ

      プレゼンスライドがみるみる良くなる基本の推敲技術 -事例付き解説-|石原尚(大阪大学教員)|note
    • 「IKEAの椅子に座るとPCの画面が真っ暗になる」という怪現象の理由が判明

      エンジニアのFelix Häcker氏が「IKEAで購入した椅子に座ったり立ち上がったりすると、PCのモニターが突然真っ暗になる」という不思議な現象を報告しています。 Felix Häcker: "So folks, don't forget to chec…" - Mastodon https://mastodon.social/@haeckerfelix/110272427676278609 Häcker氏は数週間前から、PCの画面が数秒間突然真っ暗になる現象に悩まされていたとのこと。すべてのケーブルを交換したり、モニターのケーブルを別の端子に差し込んだりしましたが、何の変化もなかったこと。ただ1つだけ、IKEAで購入した「MARKUS」というモデルの椅子を使い始めてから不思議な現象が起こるようになったことから、このIKEAの椅子が関連しているのではないかとHäcker氏は考えました。

        「IKEAの椅子に座るとPCの画面が真っ暗になる」という怪現象の理由が判明
      • 図解Stable Diffusion

        ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生

          図解Stable Diffusion
        • 30分で完全理解するTransformerの世界

          はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

            30分で完全理解するTransformerの世界
          • 声以外が消える!? 無料のノイズ除去「NVIDIA Broadcast」がスゴい【藤本健のDigital Audio Laboratory】

              声以外が消える!? 無料のノイズ除去「NVIDIA Broadcast」がスゴい【藤本健のDigital Audio Laboratory】
            • 動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に

              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ(背景雑音)を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。 実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除

                動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に
              • AIイラストが理解る!StableDiffusion超入門【2024年最新版】A1111、Forge対応|賢木イオ @studiomasakaki

                AIイラストが理解る!StableDiffusion超入門【2024年最新版】A1111、Forge対応 こんにちは、2022年10月からAIイラストの技術解説記事を連載してます、賢木イオです。この記事は、これまでFANBOXで検証してきた120本(約70万文字)を超える記事をもとに、2024年春現在、画像生成を今から最短距離で学ぶための必要情報をまとめたメインコンテンツです。 これから画像生成を学びたい初心者の方や、手描きイラストにAI技術を取り入れてみたい方が最初に読む記事として、必要知識が網羅的に備わるよう解説しています。素敵なイラストを思い通りに生成するために覚えるべきことを紹介しつつ、つまずきやすいポイントや参照すべき過去記事、やってはいけないことなどを紹介していますので、最初にこの記事から読んでいただくとスムーズに理解できるはずです。 解説役は更木ミナちゃんです。よろしくお願い

                  AIイラストが理解る!StableDiffusion超入門【2024年最新版】A1111、Forge対応|賢木イオ @studiomasakaki
                • なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)

                  はじめに 最近ついに、Google Meet に背景ぼかし機能が利用可能になりましたよね。日本語だとインプレスのケータイ Watchの記事などで紹介されてます。確か 2020 年 9 月末前後で順次リリースされていたと記憶しています。 このときは「背景ぼかし」の機能しかなかったのですが、最近(私が気づいたのは 2020/10/30)更にアップデートされました。アップデートで「背景差し替え」機能が付いて、ぼかし機能もぼかし効果が強弱 2 つから選べるようになりました。まだ日本語のニュース記事は見てないですが、Googleによるアップデートの発表はちゃんとされています。 そして、Google AI Blog でBackground Features in Google Meet, Powered by Web MLという記事が公開され、実装についての解説がされました。 この記事はその解説記事を

                    なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)
                  • Google Colab で はじめる Stable Diffusion v1.4|npaka

                    2. ライセンスの確認以下のモデルカードにアクセスして、ライセンスを確認し、「Access Repository」を押し、「Hugging Face」にログインして(アカウントがない場合は作成)、同意します。 4. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」に「GPU」を選択。 (2) 「Stable Diffusion」のインストール。 # パッケージのインストール !pip install diffusers==0.3.0 transformers scipy ftfy(3) トークン変数の準備。 以下の「<HugginFace Hubのトークン>」の部分に、先程取得したHuggingFace Hubのトークンをコピー&ペーストします。 # トークン変数の準備 YOUR_TOKEN="<H

                      Google Colab で はじめる Stable Diffusion v1.4|npaka
                    • 一番星はてののファンアートをStable Diffusionで出力する(追記あり) - ただいま村

                      お嬢様系AIはてなブックマーカーを名乗る「一番星はての」が誕生したそうだ。 一番星はてのさんのプロフィール - はてな AIブックマーカー一番星はてのの開発ブログを始めました - 一番星はての開発ブログ ファンアートがいくつもアップされている。これはいいテーマだ。自分もStable Diffusionでやってみよう。 以下、すべての画像に「EasyNegative」と「bad_prompt_version2」を使いました。VAEは「vae-ft-mse-840000-ema-pruned.ckpt」です。 またアップスケーラーは「multidiffusion-upscaler-for-automatic1111: Tiled Diffusion and VAE optimize」(拡張機能からインストールできます)を使っています。txt2imgのタブ内、「シード」の下にできた「タイル状のV

                        一番星はてののファンアートをStable Diffusionで出力する(追記あり) - ただいま村
                      • 【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】 ちもろぐ

                        月額料金なし、無制限の生成枚数でAIイラストをガシガシ描くなら、Stable Diffusionをローカル環境にインストールする「AUTOMATIC1111版Stable Diffusion WebUI」が必要です。 しかし、ローカル版AIイラストはグラフィックボードも必須です。 VRAM容量が多くないとダメ RTX 4000シリーズが良い Radeonは絶対にNG などなど・・・。いろいろな情報が飛び交っていますが実際のところはどうなのか? やかもちグラフィックボードをなぜか40枚ほど所有している筆者が、実際にStable Diffusionを動かして徹底的に検証します。 (公開:2023/3/8 | 更新:2024/4/3) この記事の目次 Toggle AIイラスト(Stable Diffusion)におすすめなグラボを検証 検証方法:AIイラストの生成速度をテストする AIイラスト

                          【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】 ちもろぐ
                        • macOSのM1とx86-64におけるベンチマーク比較の考察

                          世間ではAppleの新しい製品に使われるARM64 CPUであるM1の話題でもちきりだ。ただし、日本語を話す記者というのは極めて非科学的かつ無能であり、M1の現物を手にしても、末端のソフトウェアを動かして、体感で早いだの遅いだのと語るだけだ。そういう感想は居酒屋で酒を片手に漏らすべきであって、報道と呼ぶべきシロモノではない。 と思っていたら、Phoronixがやってくれた。M1とi7で動くmacOSでベンチマークをしている。 これを考察すると、M1のMac Miniは、一世代前のi7のMac Miniに比べて、メモリ性能とI/O性能が高く、演算性能は低いようだ。このことを考えると、M1の性能特性としては、動画のエンコードやソフトウェアレイトレーシングをするには不向きだが、その他の作業は遜色ないだろう。 問題は、仮想化とRosettaを組み合わせることができないという点だ。x86-64のユー

                          • 日本発の画像生成AIサービスがすごい 無料アップスケーラー「カクダイV1」 (1/4)

                            「カクダイV1」でアップスケールした画像(左)、「Midjouney v6」で作成したオリジナル画像(右) 画像の描き込みを増やして高画質にする、日本発の生成アップスケーラー「カクダイV1」が2月7日に発表されて話題になりました。東大出身ベンチャーのMavericksが開発したもので、画像生成AI「Stable Diffusion」生成環境「ComfyUI」向けの技術として無料公開されています。人気アップスケーラー「Maginific AI」を超える製品にまでに成長していくのか注目です。 Stable Diffusionのアップスケールは難しかった カクダイを紹介する前に、まずは画像生成AIとアップスケーラーとの関係についてお話します。 Stable Diffusion登場後の画像生成AI技術を使ったアップスケーラーは、単に画像を拡大させるだけの用途ではなくなりました。画像を拡大するとき、

                              日本発の画像生成AIサービスがすごい 無料アップスケーラー「カクダイV1」 (1/4)
                            • Stable Diffusion の仕組みを理解する - ABEJA Tech Blog

                              この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは AI モデル開発ではなくもっぱらバックエンド開発メインでやっていて完全に乗り遅れた感あるので、この機会に有名な Diffusion Model の1つである Stable Diffusion v1 について調べてみました!*1 では早速本題に入りたいと思います! Stable Diffusion v1 とは? Denoising Diffusion Probabilistic Model(DDPM) 学習時の動作 for

                                Stable Diffusion の仕組みを理解する - ABEJA Tech Blog
                              • 「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発

                                AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。 ノイズ除去をバッチ処理で高速化 「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。 StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス(CFG)に代わり、残差分類器フリーガイダンス(RCFG

                                  「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発
                                • NVIDIAが高精度な画像生成AI「eDiffi」を発表、従来の「Stable diffusion」や「DALL・E2」よりテキストに忠実な画像生成が可能

                                  大手半導体メーカーでありAI研究にも力を入れているNVIDIAが、新たな画像生成AIである「eDiffi」を発表しました。NVIDIAはeDiffiについて、世界中で話題となっている「Stable Diffusion」やOpenAIの「DALL・E2」といった従来の画像生成AIより入力テキストに忠実な画像を生成できると主張しています。 [2211.01324] eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers https://arxiv.org/abs/2211.01324 eDiff-I: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers https://deepimagination.cc/eDiffi/

                                    NVIDIAが高精度な画像生成AI「eDiffi」を発表、従来の「Stable diffusion」や「DALL・E2」よりテキストに忠実な画像生成が可能
                                  • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                    はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                    • 小岩井ことりさん作詞・作曲・歌唱のDB公開で、AI歌声合成の民主化へ躍進。NEUTRINOの新キャラクタ『No.7』がリリースへ|DTMステーション

                                      NEUTRINO、CeVIO AI、Synthesizer V……と、まるで人間のように歌う、AI歌声合成の世界が賑わっていますが、今年この世界がさらに大きく変わる可能性が出てきました。一般ユーザーが自分の声を収録し、それを元にAI歌声合成をするための統一した楽曲の規格を作り、公開されることになったのです。その仕組みづくりに貢献したのが、声優であり、マルチクリエイターでもある小岩井ことり(@koiwai_kotori)さん。AI歌声合成のために、小岩井さんが作詞・作曲するとともに、自ら歌唱したデータ、計50曲が公開されることとなり、それをテンプレートにして歌えば、それぞれのAI歌声合成ができる世界が実現できることになりそうなのです。 そのプロトタイプとなる小岩井さんの歌唱データベースが公開に向けて、準備を進めているところですが、正式公開前に、実際に歌わせることができるソフトであるNEUTR

                                        小岩井ことりさん作詞・作曲・歌唱のDB公開で、AI歌声合成の民主化へ躍進。NEUTRINOの新キャラクタ『No.7』がリリースへ|DTMステーション
                                      • 電磁波でノイズ除去するオーディオ用LANアイソレータ。89,980円

                                          電磁波でノイズ除去するオーディオ用LANアイソレータ。89,980円
                                        • モザイク外し? 汚い画像をキレイな画像に修復手法、中国チームが発表 Stable Diffusionを利用

                                          画像のノイズ除去やボケ除去、超解像といった従来の画像修復問題は、特定の劣化状態、既知の単純な劣化にのみ効果的であった。 これに対して、実際の環境下での多様な劣化を考慮した「Blind Image Restoration」(BIR)という手法が注目されている。BIRは、一般的な画像と、それが持つさまざまな劣化に対して、リアルな画像再構築を目指している。特に、BIRの研究は以下の3つのカテゴリーに分けられる。 (1)Blind Image Super-Resolution(BSR):低解像度で劣化が不明瞭な画像の超解像問題に取り組む技術、(2)Zero-Shot Image Restoration(ZIR):これは新しい研究の方向性で、劣化の前提条件を明確に定義した上で、クラシックな画像修復タスクで印象的なゼロショット復元を達成する方法、(3)Blind Face Restoration(BF

                                            モザイク外し? 汚い画像をキレイな画像に修復手法、中国チームが発表 Stable Diffusionを利用
                                          • ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能|DTMステーション

                                            以前DTMステーションで紹介したことのある、ソニー・ミュージックエンタテインメントのプロジェクトSoundmain(サウンドメイン)。ここでは、ソニーグループが研究・開発する最新の音楽関連テクノロジーがいち早く機能として実装され、クリエイターが利用できるようになっているのですが、今回ボーカル抽出という新機能が追加されました。これは、ブラウザ上で使える音楽制作プラットフォームSoundmain内の音楽制作サービスSoundmain Studio上で使える機能で、音源からボーカルのみを抜き出し、手軽に高品質なボーカル音源を作成することができます。 つまり楽器などの演奏も消せるわけなのですが、驚くべきはその精度。ボーカル抽出といえば、さまざまなソフトで行うことが可能ですが、声がシュワシュワになってしまったり、オケが残ってしまったりすることがありますよね。それに対し、Soundmain Studi

                                              ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能|DTMステーション
                                            • 「Google フォト」に新方式のシャープ・ノイズ除去 ~ほぼどんな画像もきれいに/カメラデバイスに依存しない、新しいアプローチ

                                                「Google フォト」に新方式のシャープ・ノイズ除去 ~ほぼどんな画像もきれいに/カメラデバイスに依存しない、新しいアプローチ
                                              • [NAFNet] 機械学習で画像のノイズ除去、ブラー除去、超解像 [Denoise, Deblur, Super Resolution]

                                                [NAFNet] 機械学習で画像のノイズ除去、ブラー除去、超解像 [Denoise, Deblur, Super Resolution] 2022年5月7日土曜日 Artificial Intelligence NAFNet 概要 近年、画像復元(Image Resolution)技術は様々な進歩がみられていますが、システムの複雑さも増加しています。 NAFNetは、SOTAを達成しつつ、計算効率の高い単純なベースラインで構成される画像復元技術です。 NAFNetは、Sigmoid, ReLU, GELU, Softmaxなどの非線形活性化関数を使用せず、乗算で置き換えるか、削除することでベースラインを単純化しています。 このため、非線形活性化関数フリーなネットワークであることから、Nonlinear Activation Free NetworkでNAFNetと呼ばれています。 NAFN

                                                  [NAFNet] 機械学習で画像のノイズ除去、ブラー除去、超解像 [Denoise, Deblur, Super Resolution]
                                                • 歴代チャットボットと最近のLLMのまとめ - Qiita

                                                  LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                                                    歴代チャットボットと最近のLLMのまとめ - Qiita
                                                  • グラフアルゴリズム実践活用術

                                                    情報オリンピック夏季セミナー 2023: https://jcioi-summer-seminar-2023.peatix.com/ での講演スライドです。 講義概要: アルゴリズムを勉強していると,グラフアルゴリズムにたくさん出会います.しかし,グラフアルゴリズムが現実世界でどのように活躍しているのかについては目に触れる機会はあまりありません.本講演では,実社会で登場するグラフデータについての問題と,どのようなグラフアルゴリズムがそれらの問題を解決しているかについてご紹介します. ノイズ除去のソースコード: https://colab.research.google.com/drive/1Mdr3KGrwuX9jAWHk5pVGH2HaUmLmR-jB?usp=sharing 背景除去のソースコード: https://colab.research.google.com/drive/1vm

                                                      グラフアルゴリズム実践活用術
                                                    • スマホでの録音を無効化するツール、中・米の研究者らが開発 部屋内での会話を収録不可に

                                                      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 中国の浙江大学や米マサチューセッツ大学アマースト校などに所属する研究者らが発表した論文「Cancelling Speech Signals for Speech Privacy Protection against Microphone Eavesdropping」は、マイクによる録音を無効化する手法についての研究報告である。この手法を用いると、隠し持ったスマートフォンや録音機で録音しても、その部屋での会話を収録することはできなくなる。 スマートフォンや音声アシスタントのようなデバイスは、盗聴のリスクを増加させている。この問題への対策として

                                                        スマホでの録音を無効化するツール、中・米の研究者らが開発 部屋内での会話を収録不可に
                                                      • iPhone 15 Pro/Pro Maxでついに可能となった「Log撮影」とは何なのか?

                                                        iPhone 15 Pro/Pro Maxは前世代のiPhone 14 Pro/Pro Maxからカメラが大きく進化しており、特にムービー撮影ではApple ProResコーデックで最大4K・60fpsの映像を撮影可能で、さらにiPhoneシリーズでは初めてApple LogによるLog撮影に対応しました。このLog撮影について、プロの映像制作者兼写真家であるスチュ・マシュヴィッツ氏が解説しています。 Log is the “Pro” in iPhone 15 Pro — Prolost https://prolost.com/blog/applelog Log is the “Pro” in iPhone 15 Pro (Free LUTs!) - YouTube iPhoneの純正カメラアプリは、自動的に見栄えのいい映像が撮影できるように設計されています。しかし、標準状態では多くの情報

                                                          iPhone 15 Pro/Pro Maxでついに可能となった「Log撮影」とは何なのか?
                                                        • 【Python】プログラムでフーリエ変換を理解しよう!【FFT, 標本化定理, ナイキスト周波数】 | Raccoon Tech Blog [株式会社ラクーンホールディングス 技術戦略部ブログ]

                                                          こんにちは。早く業務に慣れたい開発チーム入社1年目の髙垣です。 急ですが皆さん。ふと、音をフーリエ変換したい時ってありませんか? ありますよね。 でも、「フーリエ変換って学校で計算式で習ったけど、結局は何をしているんだ?」となることありませんか? そこで今回は計算式なんてほっといて、Pythonを使ってフーリエ変換が何をやっているのか体験してみましょう! 環境構築 下記リポジトリをクローンしてください https://github.com/takaT6/fft-tutorial クローンができたら下記のライブラリをインストールしてください↓ pip install numpy matplotlib japanize_matplotlib japanize_matplotlib はmatplotlibに日本語を書き込めるようにするライブラリです。 日本語化をするにはフォントを入れたり、設定フ

                                                            【Python】プログラムでフーリエ変換を理解しよう!【FFT, 標本化定理, ナイキスト周波数】 | Raccoon Tech Blog [株式会社ラクーンホールディングス 技術戦略部ブログ]
                                                          • 文章から“3Dモデル”をAIが生成 米Googleなどが「DreamFusion」を開発

                                                            Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米Google Researchと米UC Berkeleyの研究チームが発表した論文「DreamFusion: Text-to-3D using 2D Diffusion」は、テキストから3Dオブジェクトを生成するシステムを提案した研究報告だ。事前に学習したテキストから2D画像を生成する拡散モデルを用いて、テキストから3次元への合成を実行する。 テキストを条件に2D画像を生成するモデルは現在、高忠実度で多様かつ制御可能な画像合成をサポートしている。これらモデルの品質向上は、大規模な画像-テキストデータセットとスケーラブルな生成モデルアーキテクチャからもたらされる。 特に拡散モデルは、安定し

                                                              文章から“3Dモデル”をAIが生成 米Googleなどが「DreamFusion」を開発
                                                            • 【AI動画生成】Animate Anyone 論文解説

                                                              はじめに 11月も終わり、今年も残るところあと一か月となりました。 今年ももう終わるから今年中に成果を上げとけ!と言わんばかりに最近は新技術の登場が多いです。 今回取り上げるのも11月最後の大砲として出てきた新技術、その名もAnimate Anyone Animate Anyoneとはなんぞや 文字で説明するより見たほうが早い 凄くざっくり説明すると、一枚の絵と動きをボーン動画として入力すると、入力した絵がボーン動画と同じ動きをしてくれるよ!というもの。 似たようなものは今までもReferenceOnly × openpose × animatediffとかで出来ましたが、特筆すべきはその精度。 動画生成の大敵であるちらつきは一切なく、入力画像にかなり忠実な動画を生成しています。 さてこの技術、動画生成にずっと注目している自分としてはいますぐにでも弄り倒したいのですが、残念ながらコードとモ

                                                                【AI動画生成】Animate Anyone 論文解説
                                                              • ChatGPT Code Interpreterで画像編集をしてみる - Taste of Tech Topics

                                                                カメラ好き機械学習エンジニアの@yktm31です。 先日、以下のように、ChatGPTのCode Interpreterを用いて、画像データを加工する記事を書きました。 その際は、リサイズや画像の切り抜きなど、基本的な加工ができることを確認しました。 今回は、画像編集ソフトで行うような、より高度な画像処理を実施してみたいと思います。 acro-engineer.hatenablog.com 利用する画像は前回記事と同様、以前撮影した富士山の写真を使いたいと思います。 画像処理/加工 今回、以下のような画像処理/加工を実施してみました。 ガンマ補正を適用し画像を明るくする CLAHEを適用しコントラストを調整する シャープネスを向上させる ノイズ除去を適用する ガンマ補正を適用し画像を明るくする ガンマ補正は、画像の明るさを非線形に調整するための手法です。 一番単純に画像を明るくする方法は、

                                                                  ChatGPT Code Interpreterで画像編集をしてみる - Taste of Tech Topics
                                                                • インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog

                                                                  地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 なんだかAIって流行ってますよねー こんにちわ。九州支社で細々と遊んで検証業務にいそしんでいるとみーです。 2022年3月から、どーしても「名前だけ知ってる状態」ってのにもやもやしていて、Deeplearningに手を付けたものの、あまりに内容が奥深すぎて沼にドはまりして周囲に「たすけてぇ、たすけてぇ」って叫んでいる素敵な日々を過ごしています。 取りあえず画像処理としてディープフェイク、NLP(Natural Language Processing:自然言語処理)として簡易チャットボ

                                                                    インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog
                                                                  • VRChatのすべて(すべてではない) - Narazaka::Blog

                                                                    VRChat口伝ノウハウ結構膨大にある気がするので、思いつくものを一度一括で吐き出してみようというやつです。 これを読めばVRChatの全てが分かる!!(大嘘 基本的にリンク集+αという感じですが、めちゃくちゃ色々手を広げて書いているので間違ってるとこ見つけたらコメントに書いてください。 なおこの記事はVRChat Advent Calendar 2020の6日目、VRChat Advent Calendar 2021の9日目のやつです。 adventar.org adventar.org 2021年色々更新してきて8万文字も超え、情報が当初の倍ちかくにはなったんじゃないかと思います。2022年もやっていくぞ。 本記事以外の「すべて」 本記事は主にVRChatに入ってからの生活面にフォーカスしたものですが、本記事以外の「すべて」系記事もあるのでご活用下さい。 「VRChatのアバタートラブ

                                                                      VRChatのすべて(すべてではない) - Narazaka::Blog
                                                                    • ムービー作るのにおすすめ! Final Cut Proの代わりになる無料アプリ6つ

                                                                      ムービー作るのにおすすめ! Final Cut Proの代わりになる無料アプリ6つ2020.06.21 22:0035,197 David Nield - Gizmodo US [原文] ( 山田ちとら ) 内なるオスカー受賞監督を解き放て…! 動画編集のハードルがかつてないほど低くなっています。ちょっと前までは高価だった動画編集ソフトも、いまや値段が下がる一方。 無料編集アプリもいろいろと出てきています。まともな素材が揃ってさえいれば、無料アプリを使いこなしてプロ顔負けの動画を作るのも夢ではないかも。 以下、米GizmodoのDavid Nield記者がオススメする無料動画編集アプリ6選です。 iMovie(macOS)Image: Gizmodo US数ある動画編集アプリの中で、AppleのiMovieが特に優秀だとは言いません。WindowsやAndroidでは使えませんし。でも、A

                                                                        ムービー作るのにおすすめ! Final Cut Proの代わりになる無料アプリ6つ
                                                                      • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                                                        はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                                                        • 画像生成AI「Stable Diffusion」を使いこなすために知っておくと理解が進む「どうやって絵を描いているのか」をわかりやすく図解

                                                                          2022年8月に無料で一般公開された画像生成AI「Stable Diffusion」は、NVIDIA製GPUを搭載したCPUあるいはGoogle Colaboratoryのようなオンライン実行環境を整えれば、任意の文字列や誰でも画像を生成することができます。そんなStable Diffusionがどのようにして画像を生成しているのかについて、AIについてTwitterで解説を行うAI Pubが説明しています。 // Stable Diffusion, Explained // You've seen the Stable Diffusion AI art all over Twitter. But how does Stable Diffusion _work_? A thread explaining diffusion models, latent space representati

                                                                            画像生成AI「Stable Diffusion」を使いこなすために知っておくと理解が進む「どうやって絵を描いているのか」をわかりやすく図解
                                                                          • Pythonではじめる教師なし学習

                                                                            教師なし学習はラベル付けされていないデータから学習する機械学習の一種です。現在の機械学習では大量のラベル付きのデータを用いる教師あり学習が主流ですが、ラベルを付けるには膨大なコストがかかります。現実世界に機械学習を適用していくためには、ラベル付けを必要としない教師なし学習の重要性が増してくると考えられます。本書は実践的な視点から、データにある隠れたパターンを特定し、異常検出や特徴量抽出・選択を行う方法を紹介します。ラベルなしデータを有効に利用することで、機械学習の可能性を各段に広げる教師なし学習の本質に迫ります。さらに、変分オートエンコーダ(VAE)や敵対的生成ネットワーク(GAN)、制限付きボルツマンマシン(RBM)などの生成モデルも紹介します。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書

                                                                              Pythonではじめる教師なし学習
                                                                            • 古い白黒映画を“昨日撮影したかのように”AIが修復 フィルムノイズを除去しカラー

                                                                              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 香港城市大学と米Microsoft Research、Microsoft Cloud+AIによる研究チームが開発した「Bringing Old Films Back to Life」は、劣化の激しい古い白黒映画を修復しカラー映像に変換する深層学習フレームワークだ。古い映像にある独特のフィルムノイズなどを修復し、色付けを行う。 古い映画は、現代の観客の心にも響き感動を与えるが、フィルムの経年劣化による解像度の低下やアーチファクトにストレスを抱える視聴者もいるだろう。 このような古い映画をよみがえらせるために、映画の修復技術が開発されてきたが、1コマずつ丹念に調べ、傷のレタッチ、ちらつきの修正

                                                                                古い白黒映画を“昨日撮影したかのように”AIが修復 フィルムノイズを除去しカラー
                                                                              • Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能

                                                                                Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能 米Metaは6月16日(現地時間)、新たな音声生成AIモデル「Voicebox」を開発したと発表した。音声の編集、サンプリング、スタイルの設定などを行える。 音声とテキストを入力することで、以下のような音声を出力できる。 入力した声で入力したテキストを読み上げる音声クリップを作成する 録音した音声から犬の鳴き声やブザー音などのノイズを除去する 録音した音声の言い間違いを修正する 1つの言語のスピーチを同じ声のまま別の言語に変換する(英語の音声を仏語に、など) 1つのテキストを多様な声で読み上げる Metaは、Voiceboxで将来的にはメタバース内のバーチャルアシスタントやNPC(ノンプレイヤーキャラクター)が自然な声で話せるようになるとしている。また、自分の声のまま(本来は話せない)外

                                                                                  Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能
                                                                                • 画像生成AI「Stable Diffusion」をMulti ControlNetで制御して「実写映像を忠実にアニメ化」したムービーがすごい

                                                                                  Stable Diffusionなどの事前学習済みモデルに対して、輪郭線や深度、画像の領域区分(セグメンテーション)情報などを追加して出力をサポートする技術が「ControlNet」です。このControlNetを使うことで、別途に読み込ませた画像に写っている線画や人の姿勢などを出力結果に強く反映させることが可能です。このControlNetを複数使用する「Multi ControlNet」で実写の映像を忠実にアニメ化したムービーが、オンライン掲示板のRedditで公開されました。 I transform real person dancing to animation using stable diffusion and multiControlNet : r/StableDiffusion https://www.reddit.com/r/StableDiffusion/comment

                                                                                    画像生成AI「Stable Diffusion」をMulti ControlNetで制御して「実写映像を忠実にアニメ化」したムービーがすごい