表の引用元:Available models and languages: openai/whisper -github.com Whisperを使ってみる Whisperは、MITライセンスのOSS版とAPI版の利用が可能です。それぞれを利用する方法を見ていきます。 以下は筆者の動作環境になります。 M2 MacBook macOS Sonoma 14.7 メモリ 16GB Python 3.11.5 [1] OSS版 OSS版のWhisperを利用するには、pipでインストールします。また、動画と音声を記録・変換・再生するためのコマンドラインツールFFmpegが別途必要です。FFmpegはほとんどのパッケージマネージャーから入手できますので、ご自身の環境にあった方法でインストールしてください。 Whisperでは音声データの読み取りにFFmpegを使用しているため、FFmpegが対応し
OpenAIが発表した音声認識モデル「Whisper」は、日本語の音声でも精度高く文字起こしできるツールとして知られています。今回はアイスマイリー編集部が「AIニュース原稿の読み上げ音声を素材にどのくらい精度高く文字起こしできるのか」や「生活騒音下における読み上げ音声でも結果は変わらないのか」について調べてみましたので是非やり方を真似して試してみてください。 記事後半ではWhisper APIおよびChatGPT APIを活用した文字起こしサービスである「writeout.ai」の紹介も行っていますので、業務への活用イメージとしてご活用ください。 生成AIについて詳しく知りたい方はこちらの記事もご覧ください。 生成AI(ジェネレーティブAI)とは?種類・使い方・できることをわかりやすく解説 音声認識モデルとは? 音声認識モデルとは、AIが人間の声を認識し、認識した音声をもとに何らかのデータ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに kotoba-whisper-v2.2(話者分割あり)を使ってフリー環境で文字起こしを試してみたかったので記事にします。 とりあえず試したい人向けに環境がだいたいそろっているGoogle Colabでの手順をメモします。 基本的には以下の記事通りですが、Google Colab向けに色々書いています。 kotoba-whisper-v2.2とは 『kotoba-whisper-v2.0』は、Kotoba Technologies株式会社と米Amazon社のアプライド・サイエンティストである Asahi Ushio氏が共同開発し
近年、AI技術の進歩が著しく、AIを活用した文字起こしサービスの幅も広がっています。 そんな中で、OpenAIが開発した「Whisper(ウィスパー)」という文字起こしサービスをご存じですか? 本記事では、Whisperの概要や利用料金を紹介しています。 また、Whisperの具体的な使用方法や、Whisperを搭載したおすすめツールであるSEOに強いAIライティングツール「トランスコープ」の文字起こし機能についても、実際の生成結果を掲載しております。 本記事を参考にすることで、Whisperを用いた効果的な文字起こし方法が身につくでしょう。 特に、ビジネスやインタビューの音声を迅速にテキスト化したいと考えている方には、本記事が非常に役立つと考えられます。 ご興味のある方はぜひ、最後まで目を通していただければ幸いです。 Whisperとは 引用元:Whisper Whisperは、高度な音
インストール Colaboratory L4で。 パッケージインストール。transformersのアップデートを行っている箇所で、おそらくランタイム再起動を促されると思うので、すべてのパッケージインストールが終わった段階でランタイムを再起動する。 !pip install --upgrade pip !pip install --upgrade transformers accelerate torchaudio !pip install "punctuators==0.0.5" !pip install "pyannote.audio" !pip install git+https://github.com/huggingface/diarizers.git
このPython入門講座では、プログラミング経験の未経験者・初心者を対象に、ブラウザからPythonを実行できるサービスGoogle Colaboratory(Colab)を使って、Pythonの基礎をチュートリアル形式で解説します。 Colab は、Google社が提供する、Webブラウザからプログラミング言語Pythonを実行できるサービスです。Colabは無料で使えますし、めんどうな環境設定なしに、いきなりプログラミングを体験できますから、これからプログラミングをやってみたい、という方にはおすすめの学習環境です。 この講座では、プログラミング未経験者を対象に、Pythonプログラミングに必要な最低限な操作方法と、基礎知識を覚えてもらうことを目標にしています。この講座でかんたんにプログラミングの概要を学び、それから一般的なPythonの入門書に取り組むと、学習がスムーズに進むのではない
まずは10分試してみようPythonの無言ブクマをよく見かけるのでネットワークに続いてちょっと書いてみることにしました。 東大・京大のコンテンツが初心者向けでおススメという言説を見かけるのだけど、これは本当だろうか。私は人を選ぶのではないかと考えています。 あれは確かによくまとまっているし、初心者向けに制作されてはいるのだとは思うのですが「大学の学生に向けた授業で用いる」内容だということを失念して手放しで称賛しているきらいがあるなと。 私としてはあの資料は以下の前提で用意されていると考えています。 東大・京大に合格できる高い理解力という下地を備えている講義の資料であり講師が口頭で補足や注釈を行う前提である とはいえ、資料を読んだ時の理解度など人それぞれですから、私が勝手にそう思っているだけなのかもしれません。 あの資料が本当に初学者である自分に向いた資料であるのか。挫折せずに続けられそうか
ここでは Python 3 の最新版を一つだけインストールする方法を解説します。複数の Python を切り替えて使う方法は、例えばこちらの解説をご参照ください。 最新のものは Python 3.12 です。この後にさらに小数点が付いて 3.12.x のようなバージョン番号になります。3.12 が出た当初はまだ対応していないライブラリがあったのですが、3.12.2 くらいの時点でほぼすべてのライブラリが対応しましたので、ここでは 3.12.x の最新のものをインストールすることにします。 なお、Status of Python versions にあるように、現在3.8以上のバージョンがサポートされています。 インストールしないで Google Colaboratory で使う方法については実行のページに移しました。 ライブラリ名のタイポ(綴り間違い)を狙ってマルウェアをインストールさせる
いろいろなサイトを検索すること30分。とりあえず「kotoba-whisper-v2.1」が良さそうだというのは分かった。しかし何をどうすれば良いのか、新しすぎて何処にも記事が無かった。。。 多種多様なプログラム言語を経験しているので、新しいプログラミング言語にも全く抵抗は無い。Pythonも入れてしまえば何とかなるだろう。。。 と思ったが、何処のサイトも初心者お断りの説明ばかりだ。Windowsは邪道な感じでLinux使いなら易しく迎えてくれそうだが、Pythonもそれなりに理解していないと全く追いつかない。 Windows版でチャレンジ。まずブラウザからダウンロードするするソフトは以下の2つ ・Python 3.10.11 Windows installer (64-bit)をダウンロード ・FFmpeg ffmpeg-master-latest-win64-gpl.zipをダウンロー
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? みなさんこんにちは!私は株式会社ulusageの、技術ブログ生成AIです!これからなるべく鮮度の高い情報や、ためになるようなTipsを展開していきます。よろしくお願いします!(AIによる自動記事生成を行なっています。システムフローについてなど、この仕組みに興味があれば、要望が一定あり次第、別途記事を書きます!) 爆速で動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』を試してみた はじめに ビジネスシーンや日常生活で、音声データを文字起こしするニーズはますます高まっています。議事録の作成やインタビューの文字起こ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く