スマホの音声入力では、マイクに向かってしゃべった声が、リアルタイムに文章として入力されます。その裏側を支えているのが「音声認識」。声を分析し、文字のデータに変換する技術です。「Alexa、電気消して」も「Hey Siri、明日の天気は?」も、音声認識なしには実現しません。 最近では、会議の音声から議事録を作ったり、音声で作業記録を付けたりなど、音声認識の用途は拡がりを見せているそう。一方で、「インタビューの文字起こしがうまくいかない」など、思うように認識されないという声も耳にします。 そもそも、音声認識はどうやって人間の声を認識しているのか? 日本語の音声認識はどこが難しいのか? 音声認識ソリューションを手がける株式会社アドバンスト・メディアの安藤さんに、音声認識の気になる裏側を聞きました。 株式会社アドバンスト・メディア 1997年に創業し、音声認識技術「AmiVoice」をコアとした各
こんにちは、浦本です。 今回は、サウンドファイルの編集に便利なsoxコマンドの使用例を紹介します。 sox (Sound eXchange) 配布元: http://sox.sourceforge.net/ soxを使うとコマンドだけでサクっとサウンド編集を行うことができます。 Linux/Mac/Windowsで利用可能です。 日々のサウンド編集だけでなく、Webアプリのバックエンド処理として活用しても面白いと思います。 ちなみに、soxネタは被らないだろうと思っていたのですが、 検索してみるとなんとアシアルブログの過去記事でも一度紹介されていました。さすがKさん! 以下はその続編として書きたいと思います。 【1】音量を上げる +3dB上げる例です。 soxの基本的な使い方は「sox 入力ファイル 出力ファイル エフェクトオプション」となります。 sox in.wav out.wav g
動画内に一定時間無音が続くシーンがあったら自動でカットするプログラムをPython(Google Colab)でプロトタイピングしてみることにした。 方針 下記のステップで、無音シーンの自動カットを試してみることにした。 動画ファイルの音声トラックを抜き出す音声トラックを分析して、「カットしても良さそうな箇所」を探す元の動画ファイルから、「カットしても良さそうな箇所」以外の箇所を抜き出してつなげる なお、検証にはじんぼくんがTwitter / TikTokにアップロードしているこちらの動画の編集前の素材を使わせてもらった。 【30秒でペラッペラ英会話 道案内編】 日本語でも難しいんだから英語でなんかムリよ。そんな時は文明の利器。 pic.twitter.com/CfwsrALIUK — じんぼぼんじ(ジョージP)@DJ新橋のお友だち (@jimbobonji) May 30, 2020 動
AviUtlの設定ミスAviUtl自体の設定ミス(システム設定や各フィルタのON・OFFなど)によって起こる音ズレについてです。 システム設定メニューの「ファイル」→「環境設定」→「システムの設定」を開きます。 fps調整・変換関係以下の2つにチェックが付いていない事を確認して下さい。 「ロード時に29.97fpsに近いものは自動的に29.97fpsに変換する」中途半端なfpsの動画を29.97fpsに強制的に変換する設定 「ロード時に映像と音声の長さが0.1秒以上ずれているものは自動的にfps調整する」キャプチャの際などにコマ落ちしてしまって映像と音声の長さが合わない動画などの帳尻を合わす設定最大フレーム数デフォルトでは「320000」となっていますが、「320000」だと、 30fps動画の場合:3時間まで60fps動画の場合:1時間半までしか扱う事が出来ません。(これ以上の長さの動画
ホワイトノイズとは?マイクで録音したときに入るサーーーーーッという音のことです。 ▲「こんにちは~」という音声に乗ったホワイトノイズです。(音量を大きくしてイヤホンなどで聴くとわかりやすいと思います) 動画音声のホワイトノイズを削除する方法方法は2つあります。 ①Audacityなどの音声編集ソフトを使う方法ザックリいうと以下のような流れで削除できます。 AviUtlにて「ファイル」→「WAV出力」から、動画の音声のみを音声ファイルとして出力する 参考:【AviUtl】動画から音声を抽出(分離)する方法出力した音声ファイルをAudacityなどの音声編集ソフトで読み込み、ノイズを除去し、再び音声ファイルとして出力するAviUtlにて、もともとの動画ファイルの音声を削除し、Audacityで出力した音声ファイルを読み込む この方法については他に解説しているサイトがたくさんありますし、「そもそ
ブロマガから移行した記事です。 歌ってみたのMIXをするというときマスタリング済みのものとマスタリング前の2mixがあればもちろんマスタリング前の2mix音源を使いますが、音圧が高いマスタリング済みの音源しか配布していないということもしばしばあります。 EQでボーカルがうまく入るようにしたけど楽曲自体の音圧が高いから声が浮いてしまうし、オケに負けないようボーカルにかなりキツめのコンプレッサーをかけなくてはいけません。 なんとかして音圧を下げてボーカルが入る空間を作ってあげたい!!! でも…音圧を下げるって無理じゃね? と思っていた時期がありました。 出来るんですよね。 ReLifeっていうVSTプラグインで。 ダウンロードはここから。 では音圧の高いその音源にインサートしてみましょう。 すごくシンプルです。重要なのは1、2、3と書かれた数字。 音のダイナミクスをより取り戻してくれるのは3で
ひとつの音源をボーカルやベースといったパート別に分解する「音源分離技術」が、一般ユーザー向けにも提供されるようになった。この技術は人工知能(AI)の訓練やアーティストによる楽曲制作に応用される一方で、著作権侵害のリスクなどさまざまな問題もはらんでいる。 TEXT BY NOAH YOO TRANSLATION BY MASUMI HODGSON/TRANNET 楽曲のなかで楽器やボーカルといったあらゆるパートが何をしているのか、詳細まで分解して聴けることを想像してみてほしい。楽曲のファイルをアップロードすると、ほんの数分でブルース・スプリングスティーンの「Born to Run(明日なき暴走)」といった曲がパートごとに分解されるのだ。 すると、それぞれのプレイヤーの腕前がはっきりと浮き彫りになってくる。スプリングスティーンのボーカルパートでは、つぶやきやうめき声が聞こえてくる。ゲイリー・タ
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 北海道大学と神戸大学による研究チームが発表した「ウェアラブルコンピューティングにおける聴力自在化技術の提案」(PDFへのリンク)は、外界音を変換し、ユーザーが自在に自身の聴力を操作する技術だ。この技術を用いることで、外界音から聞きたい音だけを選択して聞くことができる。 人間の耳は、自らの意志では制御することが難しく、聞く音の取捨選択ができない。その上、超音波などの人間には聞こえない音も取得することができない。 研究チームは、マイクとスピーカーを搭載したイヤフォン型ウェアラブルデバイス(マイク付きワイヤレスイヤフォン)での利用を想定し、外界音から聞きたい音だけを聞ける技術でこの課題に挑戦する
レコーディングスタジオやマスタリングスタジオには必ずあるVUメーター。見た目にもカッコいいけれど、単にカッコいいというのではなく、スタジオに存在する大きな理由があります。それは、これを見れば、音楽制作に適正な音量を一目で把握することができ、CDにしたりネットにUPする作品を正しく、効率よく、作っていくことができるからです。とくにストリーミング全盛の時代になった今、その重要性が高まってきています。 そんなVUメーターに、ものすごいこだわりを持って開発する日本の小さな、小さなメーカーがあります。HAYAKUMOは今年、音楽制作者の要望を徹底的に詰め込んだVUメーター、FORENOを発売。日本の伝統と職人の技で作り上げた、このVUメーター、FORENOは国内外の制作現場で絶賛されているようですが、DTMerにとっても大きな武器となるアイテムです。開発者である早雲健悟さんにいろいろとお話を伺うとと
VST SDK 3.7.5が公開されました。 2022年5月16日に、VST SDK 3.7.5が公開されています。 参考→sdk.steinberg.net フォーラムではなく、公式の変更履歴は「VST3 Developer Portal 変更履歴」にあります。 VST SDK 3.7.4からの変更点は下記のようです。 (公式サイトからの翻訳ですが英語は自信がないです。また、一部 補足などを入れております。) インターフェイス・フラグ等の修正 プラグイン情報(モジュール情報)を記載したmoduleinfo.jsonファイルが利用できるように変更。 作成したプラグインのフォルダに「/Contents/moduleinfo.json」のようにに配置することで、ホストアプリケーションが.vst3ファイルを読み込むことなく、情報を取得できるようになった。 プラグインの情報には、ファクトリ((PF
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く