並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 870件

新着順 人気順

audioの検索結果1 - 40 件 / 870件

  • Hello GPT-4o

    GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

      Hello GPT-4o
    • ワイヤレスイヤホンの価格帯別選び方 - ARTIFACT@はてブロ

      今使っているワイヤレスイヤホンのEdifier NeoBuds Proが2021年に出た製品でちょっと古めになったので新しいのが欲しいと思い、情報収集をしていた。入門記事で、あまり触れられていないことがあったのでまとめておきたい。 現在、Amazon新生活セールFINALでセール価格になっている製品が多いので、気になる製品は価格をチェックして欲しい。 LDAC接続は再生時間が短くなる ワイヤレスイヤホンの再生時間は初心者にはわかりにくい。10時間以上の再生をうたうものはバッテリーケースを使っての充電を含めての場合を言っているものがほとんどだ。*1更にイヤホン本体のみの再生時間はノイズキャンセルON/OFFと使うCODECによって変わってくる。 「LDAC接続は高音質」みたいなことはよく書かれるのだが、この再生時間がかなり短くなることについては触れられていないことが多くて罠だ。ハイレゾのCO

        ワイヤレスイヤホンの価格帯別選び方 - ARTIFACT@はてブロ
      • 俺に骨伝導イヤホンの質問するならこれ読んで - 本しゃぶり

        骨伝導イヤホンを常時着用は便利である。 しかし、勧めるには語るべきことが多い。 だからここに俺の知識をまとめることにした。 これを読めばいい 骨伝導イヤホンの基本 常時着用で運用 骨伝導が向かない状況 外がうるさい 音漏れ禁止 音質にこだわる 痛みがする 選び方とおすすめ Shokz OpenRun Pro Shokz OpenMove Shokz OpenComm 2 何でShokz製品しか紹介しないの?手先なの? 骨伝導以外の選択肢 ブコメで人気なFreeClip 終わりに これを読めばいい 骨伝導イヤホンを使い始めて4年が経とうとしている。使い始めた当時はまだ珍しかったが、今ではかなり普及してきたと思う。実際、弊社でも着けている人をよく見るようになった。とはいえ、普通のワイヤレスイヤホンと比べると、使ったことのある人は少ない。 それゆえか、骨伝導イヤホンがどんなものかと質問されること

          俺に骨伝導イヤホンの質問するならこれ読んで - 本しゃぶり
        • 時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす

          みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無

            時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす
          • アニメ スナックバス江

            合成音声 VOICEVOX:四国めたん VOICEVOX:ずんだもん VOICEVOX:後鬼 https://voicevox.hiroshiba.jp/ 動画編集:ゆっくりムービーメーカー4 https://manjubox.net/ymm4/ 音楽:魔王魂 https://maou.audio/ 効果音:効果音ラボ https://soundeffect-lab.info/

              アニメ スナックバス江
            • デジタルガジェットのレビュー評価でサクラチェッカーを鵜呑みにしないで! - ARTIFACT@はてブロ

              Amazoでセールが行われるたびに、サクラチェッカーの使用を勧める人が多いが、自分はこれに疑問を感じる。レビューのサクラ度が高いと表示される製品の中に、良い製品が多数あるからだ。 オーディオを中心に中華製品をよく買っているのだが、サクラチェッカーを使ったことがなかった。なぜなら中華製品だと、どれも高いサクラ度表示が出るので、それを信じたら何も買えない。 無名メーカーならともかく、知名度があり評価の高い製品を出している中国系オーディオメーカーで検索してみたら、EarFunやEdifier、SOUNDPEATSといったメーカーは軒並みサクラチェッカーではサクラ度99%という結が出てくる。各社日本の販売代理店や支社があるが、いまだに怪しい中華メーカー扱いなのだろうか。かわりにFunLogy(※生産は中国だけど日本企業)やAnkerはなんとサクラ度0%であった。 各メーカーのサクラチェッカー検索結

                デジタルガジェットのレビュー評価でサクラチェッカーを鵜呑みにしないで! - ARTIFACT@はてブロ
              • 無料でYouTubeやX(旧Twitter)の動画をURLをコピペしてダウンロードできる「cobalt」

                YouTubeなどに投稿される動画は、ブラウザのデベロッパーツールや「yt-dlp」などを使ってダウンロードできますが、操作が少し手間です。オープンソースプロジェクトとして公開されている「cobalt」を使うと、URLを貼り付けるだけでYouTubeやX(旧Twitter)の動画をダウンロードできるとのことなので、実際に使ってみました。 GitHub - imputnet/cobalt: save what you love https://github.com/imputnet/cobalt cobalt https://cobalt.tools/ 上記のcobaltの公開ページにアクセスすると、以下のように表示されます。 今回は、試しに以下の動画をダウンロードしてみます。 1.56秒で180km/hに達する富士急ハイランド「ド・ドドンパ」の加速力3.75Gをプレス向け試乗会で体験してき

                  無料でYouTubeやX(旧Twitter)の動画をURLをコピペしてダウンロードできる「cobalt」
                • 音楽生成AI「Suno AI」が話題、文章から楽曲を瞬時に作成 プロの音楽家も「これはヤバい」と驚愕

                  音楽生成AI「Suno AI」がX(旧Twitter)上で話題になっている。歌詞や曲調を文章で指示するだけで音楽を自動生成するサービスで、PCやスマートフォンのWebブラウザ上から利用できる。生成した音楽の出来栄えには、プロの音楽家からも驚きの声が上がっている。 Suno AIは、米国を拠点とする音楽家とAIの専門家たちからなる米Sunoが運営するサービス。開発者の中には、米MetaやTikTokを運営する中国ByteDanceなどに所属していた人たちもいるという。利用にはGoogleやMicrosoft、Discordのアカウントが必要で、12月14日時点ではβ版を提供中。1日5回まで無料で音楽を生成できる他、有料プランもある。 早速使ってみた そのお手並みは? 記者も試しに利用してみた。メニューにある「Create」を押し、「記事を書くのがはかどる音楽を作成してください」と指示を入れた

                    音楽生成AI「Suno AI」が話題、文章から楽曲を瞬時に作成 プロの音楽家も「これはヤバい」と驚愕
                  • Xiaomi TV A Pro 43 2025 購入レビュー:「量子ドット」はウソですが・・・コスパは凄い! | ちもろぐ

                    粗利益率5%ポリシーの外資系メーカー「Xiaomi」から、戦略的な価格設定の43インチテレビが発売されました。 「Xiaomi TV A Pro 43 2025」です。チューナーレスだから国営放送の電波を受信できず、YoutubeやPrime VideoなどVODサービスをTV本体だけで見られます。 もちろん、パソコンと接続すればPCディスプレイとして利用できます。格安な大型4Kゲーミングモニターに超コスパが良さそうなのでAmazonで1台買って詳しくレビューします。 (公開:2024/9/3 | 更新:2024/9/3) この記事の目次 Toggle Sponsored Link 「Xiaomi TV A Pro 43 2025」はどんなゲーミングモニター? Xiaomi TV A Pro 43 2025【量子ドット】 Xiaomi / サイズ : 43インチ / 解像度 : 3840

                      Xiaomi TV A Pro 43 2025 購入レビュー:「量子ドット」はウソですが・・・コスパは凄い! | ちもろぐ
                    • すぐに役に立つものはすぐに陳腐化してしまうから方法ではなく設計の本を読む - API Design Patterns の読書感想文 - じゃあ、おうちで学べる

                      あなたがさっきまで読んでいた技術的に役立つ記事は、10年後も使えるでしょうか?ほとんどの場合でいいえ はじめに 短期的に効果的な手法や知識は、ソフトウェア開発の分野において、急速に価値を失う傾向があります。この現象は、私たちが何を重点的に学ぶべきかを示唆しています。最も重要なのは、第一に基本的な原理・原則、そして第二に方法論です。特定の状況にのみ適用可能な知識や即座に結果を出すテクニックは、長期的には有用性を失う可能性が高いです。これは、技術や手法が時間とともに進化し、変化していくためです。 learning.oreilly.com 「API Design Patterns」は、このような考え方を体現した書籍です。しかも480 ページもあります。本書は単なる手法の列挙ではなく、Web APIデザインの根幹をなす原則と哲学を探求しています。著者のJJ Geewax氏は、APIを「コンピュータ

                        すぐに役に立つものはすぐに陳腐化してしまうから方法ではなく設計の本を読む - API Design Patterns の読書感想文 - じゃあ、おうちで学べる
                      • 可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z

                        こういうのが欲しかったんだよ。マジで。 コマンドラインからLLMを呼び出せるgptmeというツールがアツい これは、gptmeコマンドを追加するというもの。 環境変数としてOPENAI_API_KEYとかAnthropicのキーとかを設定しておくと勝手にAPIを呼び出してくれる。もちろん、クラウドに送信するとかけしからんという勢にはローカルLLMでも対応できる。 こいつはコマンドライン版ChatGPTのようなものなので、コマンドラインで動くのだが、その真価は例えばパイプで繋いだ時とかに発揮される。 $ du -d 1|gptme "一番容量を食ってるフォル ダは何Gバイト使ってんの?" Found OpenAI API key, using OpenAI provider [10:13:32] No model specified, using recommended model for

                          可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z
                        • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

                          大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                            RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
                          • メインPCをついにMacへ戻しました。Windowsから切り替えたメリット・デメリット - すまほん!!

                            M3 Maxを選んだ理由として画面出力は3画面以上欲しかったこと、M1 MaxからM3 Proはダウングレードになるということ、メモリは48GB以上欲しかったということ、によりM3 Max搭載のMacBook Proにしました。価格は60万8800円。筆者の人生で一番高いPCになりました。 データ移行 前回、14TBのデータ移行に苦労した経験を元に、使用しなくなったデータはNASへバックアップする癖をつけ、移行するデータは1TB以下で済むようにしました。ゆえに移行はすんなり完了しました。 また基本的なデータはM1 MaxのMacBook Proにも入れており、こちらはThunderboltケーブルでつなぐことでわずか十数分で数百GBのデータが移行できました。 周辺機器 Windows環境から引き続き使用する周辺機器は以下の通りです。 オーディオインターフェースとしてYAMAHA MG12X

                              メインPCをついにMacへ戻しました。Windowsから切り替えたメリット・デメリット - すまほん!!
                            • 初心者が"次"に買うイヤホン(2024/09) - 花見川の日記

                              はじめに 経緯 記事の方針 基本事項共有:ドライバの種類 DDについて BAについて 1DD KEFINE Delci:¥7000~10000 Maestraudio MA910SR アイドルマスターU149Edition:¥8000~10000 SIVGA Que:¥10000~12000 1DD+nBA ND X12:¥4500~7500 KZ ZS12 Pro X(スイッチ付き):¥4800~8700 nBA KZ AS10 Pro:¥4500~11000 1PD NICEHCK F1 PRO ¥10000~¥15000 あとがき はじめに 経緯 ch1248.hatenadiary.jp ↑の記事を書いた後、古からのオーデイオ・オタクであるc_CさんにTRN ORCAが好評で、「次にもう少し高いイヤホンで良いものは無いか?」と聞かれたため、「これはシャッシャッと優秀なイヤホンを提示

                                初心者が"次"に買うイヤホン(2024/09) - 花見川の日記
                              • Crush! | iPad Pro | Apple

                                Introducing the all-new iPad Pro. Outrageous performance by the first-ever M4 chip. With the breakthrough Ultra Retina XDR display. All in the thinnest Apple product ever. iPad has never been this powerful. Or this thin. Learn More: https://apple.co/3QEsTSv Audio Descriptions: https://youtu.be/uT24U56I1ZA “All I Ever Need Is You” by Sonny & Cher - https://apple.co/sonny-cher-all-I-need #iPad

                                  Crush! | iPad Pro | Apple
                                • [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO

                                  [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。 コールセンターでは、有人対応から無人対応に変更したいニーズが増えているように思います。 電話予約の無人対応を想定し、1回の発話で、下記の5つの予約情報を抽出できるか確認します。 お名前 電話番号 予約日 予約時間 人数 発話で予約情報を抽出する方法として、GPT-4 Turbo のJSONモードを利用します。 JSONモードの詳細は、下記を参照ください。 例えば、「名前はクラスメソッドで、電話番号は09011111111。来週の火曜日の19時に4名で予約できます

                                    [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO
                                  • LUNA SEAも驚いたヤマハの「ライブの真空パック」。ロックバンドの演奏再現も夢じゃない!?【藤本健のDigital Audio Laboratory】

                                      LUNA SEAも驚いたヤマハの「ライブの真空パック」。ロックバンドの演奏再現も夢じゃない!?【藤本健のDigital Audio Laboratory】
                                    • ウォークマン®45歳の誕生日|ソニー株式会社|広報note

                                      ソニー広報部のKKです。 2024年7月で「ウォークマン®」は誕生45周年を迎えます。みなさんがウォークマンと聞いて思い浮かべるのは何でしょうか?最新機種、初代ウォークマン、学生時代に使った思い出の製品…人それぞれのウォークマンが思い浮かんでいると嬉しいです。今回はソニー社内にある「ウォークマンルーム」を巡りつつ、ウォークマン45年間の歴史をご紹介します! ウォークマンルームで振り返る45年の歴史ソニーの社内にはウォークマンルームという部屋があり、歴代ウォークマンや関連する資料などが集められています。残念ながら、普段は社外の方に自由に出入りいただくことはできないのですが…今回は特別にウォークマンルームに集められたウォークマンの一部をご紹介しつつ、45年間の歴史を振り返っていきます! 歴代のウォークマンがずらりと並ぶウォークマンルーム1979年発売 ウォークマン1号機の開発秘話『TPS-L2

                                        ウォークマン®45歳の誕生日|ソニー株式会社|広報note
                                      • ロスレスとMP3ってどのくらい差があるんだ? 専門家に聞いてみた

                                        ロスレスとMP3ってどのくらい差があるんだ? 専門家に聞いてみた2024.04.12 19:0088,501 Maxwell Zeff - Gizmodo US [原文] ( そうこ ) 「音楽聴くなら絶対ロスレス音源がいいよ? MP3より音がいいから」なんて、一度は聞いたことがあるようなセリフです。 データ容量をギュっと縮めた圧縮音源であるMP3。データ圧縮時の劣化を最小限に留めた、または圧縮していないロスレス音源。 なるべくロスがない方がサウンドクオリティがいいのは事実です。ロスレスがアーティストが意図する生の音に近いのも事実です。…事実なのですが、やっぱり言わずにはいられません。 その音、聴き分けられるの? 圧縮音源とロスレスの差って、フツーの人が聴いてもわかるのかい? 少々古い話で恐縮ですが、2014年に米Gizmodoが読者アンケートをとっていました。質問は「ロスレス音源とMP3

                                          ロスレスとMP3ってどのくらい差があるんだ? 専門家に聞いてみた
                                        • Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に

                                            Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に
                                          • 無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた

                                            オープンソースで開発される「audapolis」は書き起こし機能を備えたメディアエディターで、音声を自動的にテキストに書き起こすだけでなく、書き起こしたテキストを編集することで同時に音声も編集できるツールで、無料で使うことができます。 GitHub - bugbakery/audapolis: an editor for spoken-word audio with automatic transcription https://github.com/bugbakery/audapolis audapolisはオープンソースで開発されるフリーアプリで、AGPL-3.0ライセンスの下で配布されています。GitHubのページにアクセスし、「Release」にある最新バージョンをクリック。記事作成時点での最新バージョンはv0.3.0です。 audapolisはmacOS・Linux・Window

                                              無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた
                                            • ソウルとファンクの1974年:50年前の時代を定義した7つの作品

                                              ヒップホップやR&Bなどを専門に扱う雑誌『ブラック・ミュージック・リヴュー』改めウェブサイト『bmr』を経て、現在は音楽・映画・ドラマ評論/編集/トークイベント(最新情報はこちら)など幅広く活躍されている丸屋九兵衛さんの連載コラム「丸屋九兵衛は常に借りを返す」の第46回。 今回は、今から50年前となる1974年のチャートで話題となったソウルとファンクの名盤について。 <関連記事> ・【動画付】1974年に発売されたアルバム・ベスト68 ・【動画付】1984年に発売されたアルバム・ベスト64 ・【動画付】1994年に発売されたアルバム・ベスト69 ・ベスト・アルバム・ランキング記事一覧 1970年代は米ブラック・ミュージックが最も熱かったディケイドの一つ。というわけで今から50年前にあたる1974年のブラック・ミュージック界を見てみよう。 取り上げる7作品とは、ビルボードの「Hot Soul

                                              • FLACよりも圧縮率が優秀!? 日本発のロスレス音声コーデック「SRLA」とは【藤本健のDigital Audio Laboratory】

                                                  FLACよりも圧縮率が優秀!? 日本発のロスレス音声コーデック「SRLA」とは【藤本健のDigital Audio Laboratory】
                                                • 商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso

                                                  これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。 日本語と英語の文章がそのまま通じる画像生成を使ってみたいが使えないクリエイターの中には、プロンプトが英語であるから、使い勝手がわるいと思っている方も少なくないと思います。実際、画像生成AIに慣れている人も時には翻訳ソフトを使って入力している方もいるようです。しかし、翻訳ソフトを間に挟むことでニュアンスが変わるという問題も従来指摘されています。 そこで、本画像生成は日本語を日本人の話す感覚と近いかたちで処理し、画像を生成できるようにしました。具体的には入力テキストを処理する技術を通常の言語モデルから大規模言

                                                    商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso
                                                  • 俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ

                                                    こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。 麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか? 特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。 そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ 現状の点数計算の練習

                                                      俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
                                                    • ローカルLLMとRAGで自分の外部記憶を強化しよう - VA Linux エンジニアブログ

                                                      はじめに 自宅PC編 会社サーバ編 感想等 執筆者:佐藤友昭 ※ 「ディスアグリゲーテッドコンピューティングとは何か?」連載記事一覧はこちら はじめに 作業ログや検討メモ、参照した定型論文や書籍、ネット上の記事、視聴した講演やウェビナーのメモ等、日常を記録する情報は日々増えていく。これらの情報はできれば後に役立てたいと思うが、筆者の場合、なかなか上手くいかない。自分の外部記憶を紐解いてみると、記録したことすら忘れてしまっている項目が大半である。本稿では、ローカルLLMとRAGを用いて自分の外部記憶にいろいろと質問できるようにする方法を入門的に紹介する。決してベストプラクティス的な内容ではない。 自宅PC編 まずは、普段自宅で使用しているLinux PCを実験台として使えそうか試してみてから会社のサーバに適用してみることにする。 第一の要件は、ローカル環境で動作することである。情報の性質によ

                                                        ローカルLLMとRAGで自分の外部記憶を強化しよう - VA Linux エンジニアブログ
                                                      • マリアナ海溝から聞こえる謎の音の正体が解明される

                                                        2014年に北西太平洋・マリアナ海溝で実施した音響調査で収集された謎の音は約10年にわたって科学者を悩ませていました。しかし、アメリカ海洋大気庁(NOAA)の研究者らがAIを用いた分析を行った結果、この音の正体を突き止めることに成功しました。 Frontiers | Bryde’s whales produce Biotwang calls, which occur seasonally in long-term acoustic recordings from the central and western North Pacific https://www.frontiersin.org/journals/marine-science/articles/10.3389/fmars.2024.1394695/full Creepy 'biotwang' noises coming fro

                                                          マリアナ海溝から聞こえる謎の音の正体が解明される
                                                        • Synthesizer VがDTM界にまた新たな革命!人の歌声から音程と歌詞を抽出して再合成。ARA 2対応でDAWとの有機的な融合も実現|DTMステーション

                                                          ボーカルをMIDIに変換し、歌詞も抽出 今回発表されたSynthesizer V Studioのバージョンは1.11.0 b1(β版)と、11番目のバージョンとなるのですが、今回も従来と同様にユーザーに対しては無償のアップデートとなっています。普通であればメジャーバージョンアップというか、新製品といってもいいほどの革新的なアップデートを繰り返してきているのに、「無償アップデートで大丈夫なの?」とこちらが心配になってしまうほどではありますが、その気前の良さがSynthesizer Vユーザーを飛躍的に増やしてきている大きな要素ともなっているのだと思います。 今回も、まさに革命といってもいい機能を実現しているので、まずは以下の動画をご覧ください。 何をしているかお分かりいただけたでしょうか?これは、声優・小岩井ことりさん歌唱による「ハレのち☆ことり♪」のボーカルのWAVをSynthesizer

                                                            Synthesizer VがDTM界にまた新たな革命!人の歌声から音程と歌詞を抽出して再合成。ARA 2対応でDAWとの有機的な融合も実現|DTMステーション
                                                          • 廃止が決まったStudio One Primeの受け皿になる!?プロ絶賛のUniversal Audioの無料DAW、LUNA入手法と基本操作ガイド|DTMステーション

                                                            先日Studio One 7が発表されると同時に、無料版のStudio One PrimeおよびミッドレンジのStudio One Artistが廃止され、Studio One Proのみになることが発表され、この界隈に大きな波紋を呼んでいます。そのStuido One 7 Proについては、また近いうちにレポートするつもりですが、その一方で、Universal AudioがLUNAという無料DAWをリリースし、どんどん進化させてきているのをご存じでしょうか?当初はMac版のみでスタートしたのですが、先日Windows版のパブリックベータが公開され、すでに問題なく使えるようになっています。そしてまもなくWindows版も正式リリースされる予定となっています。 そのLUNAは無料とはいえ、機能削減版とかエントリー版といった位置づけではありません。プロが快適に使えることを目指して開発されたDA

                                                              廃止が決まったStudio One Primeの受け皿になる!?プロ絶賛のUniversal Audioの無料DAW、LUNA入手法と基本操作ガイド|DTMステーション
                                                            • Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO

                                                              構成 構成としては、下記の通りです。 Connectのフローの詳細は下記の通りです。 例として、発話で住所を認識させる処理の流れは以下のとおりです。 コンタクトフロー内で「メディアストリーミングの開始」ブロックを使って、Kinesis Video Stream(KVS)への音声のストリーミングを開始します。 顧客は、住所を含めた発話をします。 「顧客の入力を保存する」ブロックで、顧客が特定の番号を押すと、ストリーミングを終了します。 「AWS Lambda関数を呼び出す」ブロックを使い、LambdaでKVSからデータを取得します。取得したデータをWAV形式に変換し、Whisper APIで文字起こしします。文字起こし内容から、GPT-4 Turboで住所のみを抽出します。 プロンプト再生で、住所のみを音声出力します。 以下の図は、電話での対話の流れを示しています。 前提 2023年11月時

                                                                Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO
                                                              • Transformer Explainer: LLM Transformer Model Visually Explained

                                                                What is a Transformer? Transformer is a neural network architecture that has fundamentally changed the approach to Artificial Intelligence. Transformer was first introduced in the seminal paper "Attention is All You Need" in 2017 and has since become the go-to architecture for deep learning models, powering text-generative models like OpenAI's GPT, Meta's Llama, and Google's Gemini. Beyond text, T

                                                                  Transformer Explainer: LLM Transformer Model Visually Explained
                                                                • 1人ビートルズで全曲完コピを目指す、60歳からの宅録ライフ“日々を生きる”ためのDTM〜Akifumi Tamagawaさん(70)の場合〜 - Always Listening by Audio-Technica(オーディオテクニカ)

                                                                  職業的な作業としてではなく、ただただ日常を満たすためだけの切実な営みとして音楽を作る人々にフォーカスしていく「 “日々を生きる” ためのDTM」。 音楽を「作る」ことが「聴く」ことよりも特別な行為だと考えている人は、現代では少数派かも知れない。 ラップトップ一台で誰でも手軽に楽曲制作ができる今、作曲や録音は特権的なことではなくなった。 例えば、その人にとって音楽を聴くということが、日常を潤したりエキサイティングなものにするためのものだったとしたら、より能動的な作曲という習慣は、その人が求める癒しや興奮をさらに手応えのあるものにしてくれるのかもしれない。 今回登場してもらったのは、埼玉県蕨市在住のAkifumi Tamagawaさん。 約10年間にわたって、宅録で制作したビートルズ(The Beatles)の「完コピ」音源をYouTubeなどのオンラインプラットフォーム上にアップし続けている

                                                                    1人ビートルズで全曲完コピを目指す、60歳からの宅録ライフ“日々を生きる”ためのDTM〜Akifumi Tamagawaさん(70)の場合〜 - Always Listening by Audio-Technica(オーディオテクニカ)
                                                                  • ヘルスケアデータをGrafanaで見たくない…?〜健康 Reliability Engineering〜

                                                                    はじめに まずはこちらをご覧ください。 これは私のApple Watchで計測されたヘルスケアデータです。Apple Watchをつけていると、心拍数や歩数、睡眠時間などのデータが自動的にiPhone内に記録されます。 SREなら健康を維持するためにもSLIとSLOを設定して可視化するべきですよね? SREなら健康エラーバジェットが無くなりそうだったら「今すぐ寝ましょう!」と架電が来て欲しいですよね? 普通にやるとiOSアプリを用いて直接ヘルスケアデータを確認することになりますが、Web系のSRE的なエンジニアとしてはやはり業界標準の技術で可視化したいところです。 また、iOSアプリを開発するのは専門知識が必要となり非常に骨が折れる作業です。そもそもMacがないとできないですし。 そこで、今回は Apple Watchのヘルスケアデータを 全自動で良い感じにデータベースに保存し Grafa

                                                                      ヘルスケアデータをGrafanaで見たくない…?〜健康 Reliability Engineering〜
                                                                    • 今年のGAME OF THE YEARは「Baldur's Gate 3」に決定。「The Game Awards 2023」各賞が発表に

                                                                      今年のGAME OF THE YEARは「Baldur's Gate 3」に決定。「The Game Awards 2023」各賞が発表に 編集部:TeT その年にリリースされた優れたゲームを表彰する世界最大級のゲームアワード,「The Game Awards 2023」の各賞が本日(2023年12月8日)発表された。 今年は「Baldur's Gate 3」(PC / PlayStation 5)がGAME OF THE YEARを獲得。ちなみに同作は,BEST COMMUNITY SUPPORT,BEST RPG,BEST MULTIPLAYER,BEST PERFORMANCE,PLAYERS' VOICEと合わせて6冠となった。 また,「Alan Wake 2」(PC / PlayStation 5 / Xbox Series X|S)は,BEST GAME DIRECTION,B

                                                                        今年のGAME OF THE YEARは「Baldur's Gate 3」に決定。「The Game Awards 2023」各賞が発表に
                                                                      • Feedly + ChatGPTで、毎朝 自分専用のポッドキャストを自動生成する仕組みを作った|鈴木慎吾 / TSUMIKI INC.

                                                                        毎朝、デザイン系の英語記事を10件ほどおすすめしてくれるSlackボットです。このボットは現在も問題なく稼働し続けていますが、毎朝のニュースは文字で読むよりも音声として聞いたほうが負担が少なく続けられそうです。 そこで、このSlackボットを拡張して、毎朝デザインニュースのポッドキャストを自動生成する仕組みを作ることにしました。 成果物はじめに成果物について。完成したポッドキャストは毎朝SpotifyとApple Podcastで配信しています。 おおまかな処理の流れ開発前に想定した処理の流れは以下の通りです。 毎朝ポッドキャストが自動で配信される理想的なフロー自分はコンテンツ制作者ではなく、あくまでリスナーというスタンスを取りたいため、ワークフローに自分が介在しない完全自動化が理想です。 ところが、Sound Cloud APIの利用に必要なアプリケーション登録の受付が現在停止しているこ

                                                                          Feedly + ChatGPTで、毎朝 自分専用のポッドキャストを自動生成する仕組みを作った|鈴木慎吾 / TSUMIKI INC.
                                                                        • 『機動武闘伝Gガンダム』30周年 ドモン・カッシュ役 関 智一インタビュー① | Febri

                                                                          ――ガンダムシリーズには前年の『機動戦士Vガンダム』から継続しての出演でした。 関 それでいうと『Gガンダム』のあとの『新機動戦記ガンダムW』にも出ているので、3年連続なんですよね。その後、『機動戦士ガンダムSEED』にも出ているので、僕はあの頃の『ガンダム』によく出ている男なんです(笑)。 ――たしかに。 関 でも、子供の頃は『ガンダム』にはそんなにハマっていなかったんです。どちらかというとスーパーロボット系の作品が好きだったので、『ガンダム』はちょっと難しい印象があって。だから『Gガンダム』のオーディションを受けたとき、内容がスーパーロボットっぽかったので「やった!」と思いました。「必殺技を言ってるぞ!」って。「きっと俺にぴったりだ!」とテンションが上がったまま受けたのをおぼえていますね。ただ、そんなことを感じながらも「受かるわけない」と思っていました。 ――なぜでしょう? 関 その前

                                                                            『機動武闘伝Gガンダム』30周年 ドモン・カッシュ役 関 智一インタビュー① | Febri
                                                                          • 歌詞と検閲:“Parental Advisory”が生まれる切っ掛け“汚らわしい15曲”とミュージシャンの反応

                                                                            今から30年以上前、アメリカでは、15の曲が公序良俗を乱す曲として名指しされた。政治家の妻たちによる過激になっていった歌詞への反動的な運動の中で、これら15曲が「汚らわしい15曲 / Filthy 15」として槍玉に挙げられ、その結果、彼らの圧力によって「露骨な歌詞」が含まれていることを警告するステッカー「Parental Advisory」がレコードやCDのジャケットに貼られるようになったのだ。 それからかなり年月は過ぎたが、槍玉に挙げられた曲に関する議論は今でも語り草となっている。2018年には、作曲家のニコール・リジーがこの問題をテーマとした作品「汚らわしい15曲」を発表し、有名なバービカン・シアターを含む各地の演劇会場で上演されている。 「初めのころ、私は驚いて呆然としていた。けれど、じきに怒りが爆発した」 作品で発表する表現がどこまで許容されるのか……それをめぐる議論は昔からあっ

                                                                              歌詞と検閲:“Parental Advisory”が生まれる切っ掛け“汚らわしい15曲”とミュージシャンの反応
                                                                            • スティーヴ・アルビニ死去 - amass

                                                                              ミュージシャンで、レコーディング・エンジニア/プロデューサーとしても知られる、インディー・ロックのアイコン、スティーヴ・アルビニ(Steve Albini)が死去。米Pitchforkや米ローリングストーン誌などが、彼のシカゴのレコーディング・スタジオ、Electric Audioのスタッフに、アルビニが5月7日の夜に亡くなったことを確認しています。死因は心臓発作。61歳でした。 アルビニは、ミュージシャンとしてビッグ・ブラック(Big Black)やシェラック(Shellac)といったアンダーグラウンド・バンドを率いただけでなく、オーディオ・エンジニアとしてニルヴァーナ『In Utero』、ピクシーズ『Surfer Rosa』、PJハーヴェイ『Rid of Me』などのアルバムのレコーディングにも参加し、高い評価を得た。シェラックの10年ぶりのアルバムは5月17日リリース予定で、ツアーに

                                                                                スティーヴ・アルビニ死去 - amass
                                                                              • バンダイナムコ知新「第8回 第2章ナムコサウンドの発展の足跡を追う【後編①】」 | ファンファーレ

                                                                                各機種でイチから作っていた家庭用タイトルのサウンドドライバ ――前回の流れから続いて、家庭用の方のお話も伺いたいのですが、第1章ではナムコ(当時)がファミリーコンピュータに参入されてから、サウンドクリエイターの皆さまはアーケード、家庭用と部門が分かれるまでどちらも担当されていたことがあると伺っておりますが、当時はどんどんハードウェアが進化していくアーケードと、ハードウェアが基本固定の家庭用ゲーム機と、お仕事としてどう捉えていらっしゃったのでしょうか? 大久保:第1章で小沢さん(※1)たちがお話しされていたのは、アーケードタイトルを家庭用に移植するのは、取り外していく作業(仕様を削ったり、映像の質を家庭用のハードに合わせたり)だということで、家庭用ハードに移植することを「落とす」という言葉で表現をされていましたが、実際家庭用の作業は、そういったモノが多かったのですか? ※1 小沢純子:サウン

                                                                                  バンダイナムコ知新「第8回 第2章ナムコサウンドの発展の足跡を追う【後編①】」 | ファンファーレ
                                                                                • AWS Step Functionsで、音声ファイルがS3バケットに保存される度にAmazon Transcribeで文字起こしし、内容をメール送信してみた | DevelopersIO

                                                                                  はじめに AWS Step Functionsを利用し、音声ファイルがS3バケットに保存されるたびにAmazon Transcribeで文字起こしを行い、文字起こし内容をメール送信する方法を紹介します。 今回構築する構成は以下の通りです。 処理の流れは以下の通りです。 音声ファイル(WAV)をS3バケットにアップロードする アップロードをトリガーにEventBridgeからStep Functionsステートマシンを起動する 音声ファイルからAmazon Transcribeで文字起こしし、文字起こした内容をAmazon SNSでメール送信する この構成を構築するきっかけは、以前執筆した「Amazon Connectでエージェントの介在がない場合でも電話中の発話を録音する」記事の構成に、録音ファイルに対して文字起こしとメール通知機能を追加する必要が生じたためです。 執筆した記事の構成図は以

                                                                                    AWS Step Functionsで、音声ファイルがS3バケットに保存される度にAmazon Transcribeで文字起こしし、内容をメール送信してみた | DevelopersIO