「Whisper」を検索 - はてなブックマーク

1 - 40 件 / 179件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Whisperの検索結果1 - 40 件 / 179件

クレディセゾンでDXを進めてきた5年間を振り返る｜小野和俊
- 1162 users
- note.com/lalha
- テクノロジー
- 2024/03/27
はじめにクレディセゾンに来てちょうど５年が経ったので、これまでの取り組みをまとめてみようかと思う。書き進めていくうちにとても長くなってしまったので、1年につき3トピックに絞ってあとはカットした。それでも5年分なこともありかなり長くなったので、目次から各トピックに飛んでもらえればと思う。社内の関係者も読むかもしれず、「自分のやったことが載ってない！」と思うこともあるかもしれないが、内製開発案件だけでも53案件あり全部載せるととんでもない量になるので許してほしい。それから、振り返ってまとめると退職すると勘違いされるかもしれないけれど、退職するわけではありません！ 2019年：ゼロからのスタート1-1. 内製開発エンジニア募集を始める「日本のそれなりの規模の事業会社の中に、内製開発チームを立ち上げることはできるのだろうか？」 2019年3月、クレディセゾンに来たばかりの私にとってはこの質問への答
- DX
- あとで読む
- 開発
- エンジニア
- 仕事
- マネジメント
- 組織
- management
- システム
- チーム
DALL-E3 (ダリスリー) の無料教科書:初級編｜プチpony
- 422 users
- note.com/chatgpt4graph
- 暮らし
- 2023/11/24
DALL-E3を実装日からほぼ毎日使用し面白さにとりつかれています。何となくで触っているため, いまいち思った画像が出来ないことも多々ありましたので今回まじめに作成法を勉強してみました。初級編と名前がついているのは高等テクニックを教えるほどの技術がないだけで後に上級編が控えているという意味ではないです。 0. はじめに DALL-E とはシンプルなテキストのみで画像がつくれるAIです。簡単なテキストのみで画像生成語源は『ウォーリー探せ』と芸術家の『ダリ』から来ているみたいです。ウィーリーはある種の「探し物」をする, userが提示するテキストのプロンプトから隠された要素やまだ見ぬ画像を「探し出し」生成することらしいです。ウォーリーをインスパイアした少年1. 問題点, 主に著作権やはり何と言っても著作権問題ではないでしょうか。現在法整備が進行しているところです。OpenAIはコンテンツポ
- AI
- あとで読む
- ChatGPT
- 画像
- 画像生成AI
- イラスト
- image
- 生成AI
- 画像生成
- tutorial
Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び｜にょす
- 332 users
- note.com/nyosubro
- テクノロジー
- 2023/08/19
日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました！しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です！（笑）シャべマルの紹介具体的には、、絵文字で見返せるメモアプリあんまりないですが、良いですよ…！音声入力でメモ内容を作成。かなり高精度な音声認識モデル（Whisper）を用いているので、想像以上にちゃんと文字起こししてくれます！「今日あったこと」など、日記として利用するのもオススメです。1日を振り返る機会になって、それが後から振り返りできるので、あの時こんなこと考えていたなー、といった発見につながるはずです！そして個人的にここが目玉なのですが、文字起こしされたメモには、「タイトル」「絵文字アイコン」「感情アイコン」「カテゴリ」が自動で紐づきます！これ何が良いかというと、圧倒的に見返しやすくなるんですよね
- ChatGPT
- あとで読む
- アプリ
- AI
- メモ
- 開発
- Whisper
- function
- 記録
- webサービス
OpenAI DevDay で発表された新モデルと新開発ツールまとめ｜npaka
- 269 users
- note.com/npaka
- テクノロジー
- 2023/11/07
以下の記事が面白かったので、かるくまとめました。・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造
- ChatGPT
- あとで読む
- AI
- OpenAI
- GPT
- 開発
- 人工知能
- API
- LLM
- まとめ
10倍速の効率に専門医レベルの回答精度―医師はChatGPTなどの生成AIをどう扱うべきか？｜医師のキャリア情報サイト【エピロギ】
- 231 users
- epilogi.dr-10.com
- テクノロジー
- 2024/07/24
10倍速の効率に専門医レベルの回答精度―医師はChatGPTなどの生成AIをどう扱うべきか？「医師による医師のためのChatGPT入門臨床がはかどる魔法のプロンプト」著者インタビュー大塚篤司氏（皮膚科医/近畿大学医学部皮膚科学教室主任教授） 2024.07.18 簡単な指示文（プロンプト）を入力するだけで、専門家のような文章や画像などを即座に回答する生成AI。2022年にOpenAI社が発表したChatGPTに始まり、精度や機能のめざましい進歩とともに各業界で存在感を増しています。医療分野でも、生成AIへの期待は高まっています。しかし、中には使い方がわからなかったり、安全性の懸念がぬぐえなかったりして活用に踏み切れない医師の方もいらっしゃるのではないでしょうか。「確実にできることは増えるし、仕事が早くなります。作業速度は体感”10倍速”」と生成AI活用による驚異的な変化を語る
- AI
- あとで読む
- ChatGPT
- 医療
- 人工知能
- medical
- IT
- 論文
[電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO
- 217 users
- dev.classmethod.jp
- テクノロジー
- 2023/11/21
[電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。コールセンターでは、有人対応から無人対応に変更したいニーズが増えているように思います。電話予約の無人対応を想定し、1回の発話で、下記の５つの予約情報を抽出できるか確認します。お名前電話番号予約日予約時間人数発話で予約情報を抽出する方法として、GPT-4 Turbo のJSONモードを利用します。 JSONモードの詳細は、下記を参照ください。例えば、「名前はクラスメソッドで、電話番号は09011111111。来週の火曜日の19時に4名で予約できます
- AI
- あとで読む
- aws
- gpt
- ChatGPT
- JSON
- amazon
- python
- 人工知能
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
- 207 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/20
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみたはじめに今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。ストリーミングとバッチ処理のどちらでも文字起こしが可能です。攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び
- AI
- あとで読む
- aws
- API
- OpenAI
- 人工知能
- APIエコノミー
- Amazon Web Services
- techfeed
GPT-4に日本語特化モデル　OpenAI Japan始動会見で発表
- 184 users
- www.itmedia.co.jp
- テクノロジー
- 2024/04/15
米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA
- AI
- あとで読む
- ChatGPT
- GPT
- OpenAI
- 日本語
- 人工知能
- 技術
- 言語
- techfeed
俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
- 159 users
- www.m3tech.blog
- テクノロジー
- 2023/12/01
こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか？特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ現状の点数計算の練習
Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報（名前、住所、生年月日）を正しく認識できるか試してみた | DevelopersIO
- 138 users
- dev.classmethod.jp
- テクノロジー
- 2023/11/14
構成構成としては、下記の通りです。 Connectのフローの詳細は下記の通りです。例として、発話で住所を認識させる処理の流れは以下のとおりです。コンタクトフロー内で「メディアストリーミングの開始」ブロックを使って、Kinesis Video Stream（KVS）への音声のストリーミングを開始します。顧客は、住所を含めた発話をします。「顧客の入力を保存する」ブロックで、顧客が特定の番号を押すと、ストリーミングを終了します。「AWS Lambda関数を呼び出す」ブロックを使い、LambdaでKVSからデータを取得します。取得したデータをWAV形式に変換し、Whisper APIで文字起こしします。文字起こし内容から、GPT-4 Turboで住所のみを抽出します。プロンプト再生で、住所のみを音声出力します。以下の図は、電話での対話の流れを示しています。前提 2023年11月時
- AI
- aws
- GPT
- あとで読む
- ChatGPT
- プロンプト
- 人工知能
- プログラミング
- amazon
苦節6年をかけてでも「純度100％の硬派STG」を作りたかった。ヴァニラウェア勤続20年超のグラフィックデザイナー・シガタケ氏がたったひとりで作ったインディーゲーム『デビルブレイドリブート』ついに発売へ
- 136 users
- news.denfaminicogamer.jp
- アニメとゲーム
- 2024/05/24
『デザエモン』との出会いがシューティングゲーム好きの少年に情熱の火をつけた『デビルブレイドリブート』は、1996年発売のプレイステーション用シューティングゲーム制作ソフト『デザエモン＋』で開発され、同ソフトの主催コンテストで入選した『デビルブレイド』を28年ぶりにフルリメイクした作品だ。作中では『デザエモン』がリリースされていない海外のユーザーに向けて、1996年版の雰囲気を再現した「レトロモード」も収録されている。（画像はSteam『DEVIL BLADE REBOOT』より）開発者のシガタケ氏は2002年からヴァニラウェアで『くまたんち』や『朧村正』、『ユニコーンオーバーロード』などの作品に携わってきたグラフィックデザイナーである。しかし、本作はセールスのことをあまり勘定に入れず、「自分にとっての理想のSTGの実現」に重点を置いた趣味での個人制作タイトルだ。（画像は画展（ギャラリ
- Steam
- ゲーム
- game
- あとで読む
- STG
- あとで試す
- イラスト
- 人生
GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
- 131 users
- www.gizmodo.jp
- テクノロジー
- 2023/11/08
GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US ［原文］（ mayumine ）これは嬉しい進化です。 OpenAIの開発者向けカンファレンス｢DevDay｣で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました（こちらの記事もどうぞ）。いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。さらにGPT-4 Turboでは、JSONモードが実装され、JS
- AI
- あとで読む
- ChatGPT
- 人工知能
- 文章
- techfeed
ロック好きなら高校生までに聴いておきたい古典100(ハードロックヘヴィメタル含む編)
- 128 users
- anond.hatelabo.jp
- テクノロジー
- 2023/10/07
ハードロック、ヘヴィメタルが好きな高校生諸君、ネットの海に出るとスラッシュメタル四天王とか、プログレがどうとか、アニソンはメタルだとか、よくわからない言葉を目にすると思う。そんなときは歴史を知ろう。故きを温ねて新しきを知る。以下の100枚を聞けばだいたいわかるようになるぞ。これで物知り顔で蘊蓄垂れるおじさんにドヤ顔をやり返してやろう。 (おおむねアーティスト名アルファベット、五十音順。国内海外順不同。原則1アーティスト1枚) 1. Whatever People Say I Am, That's What I'm Not / Arctic Monkeys 2.Relationship Of Command / At The Drive-In 3.Slaughter Of The Soul / At The Gates 4.METAL RESISTANCE / Baby Metal 5.
AIこより爆誕！？の裏側｜カバー株式会社　公式note
- 126 users
- note.cover-corp.com
- テクノロジー
- 2023/11/22
こんこよ～🧪 カバー株式会社CTO室エンジニアのAです。カバー株式会社には2023年4月に新卒で入社し、第1回COVER Techを執筆したKさんの下で、タレントの皆様が日々のYouTube配信などで使用するホロライブアプリの開発に携わっています。また、ここ数か月はそれと並行してAIこよりシステムの開発を担当してまいりました。この記事では開発したシステムの概要についてご紹介します。開発経緯AIこよりシステムの開発に至った経緯について。まず社内に生成AIの可能性や関連技術の検討をしたいという需要がありました。そこへ、こよりさんからご自身のAIを作りたいというご要望をいただいたため、それがきっかけとなり、こよりさんの全面的なご協力の下でAIこよりシステムの開発が始まりました。システム概要今回開発したものは、AIシステムへの入出力を操作し配信画面に映すフロントアプリと、各種外部AP
- AI
- ChatGPT
- あとで読む
- VTuber
- 人工知能
- 技術
OpenAI API で提供されているモデルまとめ｜npaka
- 123 users
- note.com/npaka
- テクノロジー
- 2023/11/09
「OpenAI API」で提供されている「モデル」をまとめました。・Model - OpenAI API 1. OpenAI API で提供されているモデル「OpenAI API」で提供されている「モデル」は、次のとおりです。・GPT-4o : GPT-4よりも安価で高速な、最も先進的なマルチモーダルフラッグシップモデル・GPT-4 : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル・DALL-E : 自然言語から画像を生成および編集できるモデル・TTS : テキストを自然な音声に変換できるモデル・Whisper : 音声をテキストに変換できるモデル・Embedding　: テキストをベクトル表現に変換できるモデル・Moderation : テキストが機密または安全か
- ChatGPT
- AI
- API
- OpenAI
- あとで読む
- APIエコノミー
- 学習
- まとめ
- 人工知能
- 言語
マイクロソフトが法人向けソフトウェア値上げ　20％アップ
- 108 users
- www.itmedia.co.jp
- テクノロジー
- 2023/12/06
日本マイクロソフトは12月6日、法人向けソフトウェアとクラウドサービスを値上げすると発表した。日本円の為替変動によるもので、2024年4月以降に現行価格から20％引き上げるという。対象サービスは具体的に書かれていないが、一律での値上げになるとみられる。関連記事 Windows 11にアップグレードできないPC、国内に2000万台　“10サポート終了時”でも1000万台近く残存か日本マイクロソフトが、「Windows 10」のサポート終了に向けた国内のWindows OSの利用状況を明かした。国内のコンシューマ市場にあるWindows PC約4800万台のうち、現時点で約2000万台が「Windows 11にアップグレードできないPC」だという。2年後の2025年10月にWindows 10のサポート終了が迫る中、PCの買い替えを推進しても“10のままのPC”は多数残りそうだ。マイクロ
OpenAI、次世代AIモデル「GPT-4o」を発表
- 74 users
- zenn.dev/ml_bear
- テクノロジー
- 2024/05/14
日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。「GPT-4o」の主な特徴を以下にまとめました。他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた
- ChatGPT
- OpenAI
- AI
- あとで読む
- 人工知能
superwhisperでの音声入力を試す
- 72 users
- efcl.info
- テクノロジー
- 2024/01/17
superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。特徴 Whisperの認識精度が高いかなり早く喋っても認識してくれる日本語も認識してくれるモデルがある日本語で喋って英語に翻訳してくれる機能もあるオフライン対応有料: サブスクと買い切りの2種類のプランがある無料で15分のトライアル、その後は選べるモデルが制限される公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり
- mac
- 音声認識
- voice
- macOS
- software
- あとで読む
Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog
- 65 users
- tech.mirrativ.stream
- テクノロジー
- 2024/03/04
こんにちはハタです。最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります構築していく上で色々試行錯誤したのでそれが紹介できればなと思っていますどんなものを作ったか前提知識: 配信基盤前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompress Speach To Text コンテナイメージまとめ We are hiring! どんなものを作ったか今回作ったものは Mirrativで配信されるすべての音声を対象に文字起こしを行うシス
[電話予約の無人化]Amazon Connect + GPT-4 Turboで、発話の「時刻と日付」の言い回しをどの程度認識してくれるか調査 – Amazon Connect アドベントカレンダー 2023 | DevelopersIO
- 64 users
- dev.classmethod.jp
- テクノロジー
- 2023/12/04
Amazon Connect アドベントカレンダー 2023、4日目の記事です！クラスメソッドとギークフィードさん、スカイアーチHRソリューションズさんの有志が募ってチャレンジしている企画になります。 (アドベントカレンダーのカレンダー一覧はこちら↓) はじめに Amazon Connect + GPT-4 Turbo JSONモード + Whisper の構成で、発話での「時刻と日付」の言い回しをどこまで正しく認識してくれるか調査しました。以前、電話予約の無人化をAmazon Connect + GPT-4 JSONモード + Whisperで構築し、1回の発話で予約情報を正しく認識してくれるか、という記事を執筆しました。上記の記事では、下記の５つの予約情報を発話し、正しく抽出されました。お名前電話番号予約日予約時間人数処理の流れは、顧客がConnectの電話番号から
- aws
- あとで読む
- AI
- 人工知能
- 文章生成AI
- 言語
- techfeed
音楽っていいな――フェアーグラウンド・アトラクション（Fairground Attraction）奇跡の再結成 & 35年ぶりの来日公演をレポ | Mikiki by TOWER RECORDS
- 61 users
- mikiki.tokyo.jp
- エンタメ
- 2024/06/29
1990年、突然の解散から34年の時を経て、奇跡の再結成と35年ぶりの来日公演をおこなった伝説のグループ、フェアーグラウンド・アトラクション。活動再開の地に選んだのは、バンドと特別な縁を持つここ日本。世界中のファン垂涎の奇跡の瞬間を捉えた、2024年6月27日の東京・SHIBUYA CLUB QUATTRO公演のオフィシャルライブレポートが届いた。＊Mikiki編集部音楽っていいな、歳を重ねるのも悪くないことだなと心から思える、贈り物のような一夜だった。人気絶頂にあった1990年、たった1枚のオリジナルアルバム『The First Of A Million Kisses』を残して突然解散してしまったフェアーグラウンド・アトラクション。その印象があまりにも鮮やかだったので、昨年12月、34年ぶりのリユニオンが伝えられたときには心底驚いた人も多かったはずだ（筆者もその1人）。実際、来日ツ
SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に
- 58 users
- www.itmedia.co.jp
- テクノロジー
- 2023/09/26
Spotifyは「クリエイター自身の声を使うことで、音声翻訳はこれまで以上にリアルな方法で世界中のリスナーにホストのインスピレーションを受け取る力を与える」と語った。ダニエル・エクCEOのXのポストで、スティーブン・バートレット氏とレックス・フリードマン氏のスペイン語吹き替えを試聴できる。関連記事 ChatGPT、“目”と“耳”の実装を発表　写真の内容を認識、発話機能でおしゃべりも可能に米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。 YouTube、クリエイター向けイベントでAI搭載の複数ツールを発表 YouTubeはクリエイター向けイベントを開催し、複数の編集ツールを発表した。YouTubeショートの背景を生成AIで作る「Dream Screen」など、A
- AI
- あとで読む
- 人工知能
- tech
- music
[ここまで進化したChagGPT！] 今日から何がどう変わるのか [2023年11月最新版] - Qiita
- 56 users
- qiita.com/harrythecode
- テクノロジー
- 2023/11/07
皆さん初めましてこんにちはこんばんは。スウェーデン在住のエンジニア、Harry(ハリー: https://twitter.com/harrythecode )と申します。普段はDevOpsエンジニアとして働く傍ら、生成AIの最前線にも繰り出し、ToBやToC向けのアプリケーション開発などにフルスタックエンジニアとして携わっています。 2023年11月7日日本時間午前3時より、ChatGPTの生みの親、OpenAI社のサム・オルトマンによる講演が行われました。この中で、多くの人が待ち望んだ様々な機能の実装や改善が行われています。読むのが辛いよ、って方は以下の一言まとめをどうぞ。また今回の発表によって何が新しくなって、今後どう変わっていくのか、を現役エンジニア目線でご紹介します。では見ていきましょう。何が新しいん？ GPT-4 Turboの発表: コンテキスト長の拡張: 128,0
- ChatGPT
- あとで読む
- AI
- 機械学習
- qiita
- API
- 開発
学び続けるエンジニアを育てる、twadaラボの取り組み紹介 - NTT Communications Engineers' Blog
- 55 users
- engineers.ntt.com
- テクノロジー
- 2023/12/20
本記事では、学び続けるエンジニアを育成するための取り組みである、twadaラボという取り組みを紹介します。まず既存の研修では対応できない育成上の課題を示し、それを踏まえたtwadaラボのコンセプトや実施内容を説明します。はじめに背景コンセプト実施内容学習計画の策定学習技術顧問によるメンタリングアウトプットとフィードバックテーマ例終わりにはじめに NTTコミュニケーションズでソフトウェアエンジニアをしている川瀬です。 NTT Comでは2023年の6月から9月にかけて、技術顧問のtwadaさんとともにtwadaラボというソフトウェアエンジニア育成のための取り組みを実施しました。本記事では、その背景や取り組み内容を紹介いたします。背景 NTT Comでは、MOOCを活用した独学支援から、twada塾やテスト駆動開発（TDD）ワークショップといったWebアプリケーション
文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge
- 54 users
- www.techno-edge.net
- テクノロジー
- 2023/11/06
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第19回目は、人気の文字起こしソフト「Whisper」の高速化版、スマホでできるAIボイチェン、プレッシャーをかける感情付きプロンプトをはじめとする、生成AI最新論文の概要5つをお届けします。生成AI論文ピックアップOpenAIの文字起こしAI「Whisper」を軽量かつ高速にするモデル「Distil-Whisper」　Hugging Faceが開発 3.2兆以上のトークンで学習された、130億のパラメータを持つオープン大規模言語モデル「Skywork」テキストや画像から高品質な動画を生成するオープンソースモデル「VideoCrafter1」　中国テンセント含む研
誰の声でも簡単・リアルタイムで女声・男声・ささやき声などへ自由自在に変換できる「Voidol3」のSYNTHモードを使ってみたよレビュー
- 52 users
- gigazine.net
- テクノロジー
- 2023/09/23
AI技術を応用したソフトを開発するクリムゾンテクノロジーから、AIリアルタイムボイスチェンジャー「Voidol3」が2023年9月8日に登場しました。Voidol3はシンセサイジングによる超高速声質変換エンジンによるボイスチェンジャー「SYNTHモード」と、自身の声を特定のキャラクターの声に変換するAIリアルタイム声質変換が可能な「AIモード」を搭載し、さらにその両方を連結したリアルタイムの声質変換も可能だとのこと。まずはVoidol3のSYNTHモードによるボイスチェンジャーを試してみました。 Voidol3 ｜変幻自在の声質変換 | クリムゾンテクノロジー株式会社 https://crimsontech.jp/apps/voidol3/ 今回Voidol3を使うにあたって、オーディオインターフェースとしてコンデンサーマイクのMPM-1000とヤマハ・AG-03をPCに接続して使用しま
- AI
- 音声
- ツール
- あとで読む
- 人工知能
- amazon
100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明
- 52 users
- gigazine.net
- テクノロジー
- 2024/04/08
OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。 How Tech Giants Cut Corners to Harvest Data for A.I. - The New York Times https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html Google reporte
- AI
- 人工知能
- Google
- YouTube
- あとで読む
Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた（一次対応の無人化） | DevelopersIO
- 51 users
- dev.classmethod.jp
- テクノロジー
- 2023/11/09
Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた（一次対応の無人化）はじめに Amazon Connectを使用して、お問い合わせ内容をOpenAIのWhisper APIで文字起こしとChatGPTで要約し、通話中に音声出力する方法をまとめました。 Connectで無人対応の場合、顧客からの発話を聞き取る方法としては、チャットボットサービスであるAmazon Lexもしくは、Kinesis Video Stream(KVS)で音声のストリーミングなどがあります。 Amazon Lexを利用する場合は、１度に15秒以上は聞き取ることができない点や文字起こしにはAmazon Transcribeを利用する制約があります。今回は、文字起こしにWhisper APIを利用し、ChatGPTで要約した内容をConne
- aws
- あとで読む
- 音声
- whisper
- 人工知能
- AI
- API
生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話
- 50 users
- blog.cloudnative.co.jp
- テクノロジー
- 2023/08/30
株式会社クラウドネイティブは、Azure OpenAIで自組織専用のChatGPTの構築を支援するサービスを展開しています。ChatGPTとAzure AD OpenAI Serviceの取り組みや事例、支援… IDチームの前田です。今日は生成AI(ChatGPT)と音声認識モデル(Whisper)を利用した会議アシスタントツールに関する投稿になります。 (追記) 作ったツールはGitHub上で公開しており、Dockerを利用してすぐに試せるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年8月30日現在Azure OpenAIにてWhisperが利用出来ていないため、OpenAI Whisper APIを利用した試験段階のものになります。近日中にAzure OpenAIにてWhisperが利用出来るとアナウ
- ChatGPT
- Azure
- AI
- OpenAI
- あとで読む
- ツール
Amazon Connect + GPT-4 Turboで、予約内容を復唱後、顧客の色々な返答を正しくヒアリングできるか検証 – Amazon Connect アドベントカレンダー 2023 | DevelopersIO
- 46 users
- dev.classmethod.jp
- テクノロジー
- 2023/12/01
Amazon Connect アドベントカレンダー 2023、1日目の記事です！クラスメソッドとギークフィードさん、スカイアーチHRソリューションズさんの有志が募ってチャレンジしている企画になります。 (アドベントカレンダーのカレンダー一覧はこちら↓) はじめに Amazon Connect + GPT-4 Turbo JSONモードで、予約内容を復唱して確認後、顧客の色々な返答を正しくヒアリングできるか検証しました。前回、Amazon Connect + GPT-4 Turbo JSONモードで、1回の発話から下記の５つの予約情報をヒアリングするチャットボットを構築しました。名前電話番号予約日予約時間人数予約情報をヒアリング後、Connect側で予約内容を復唱するところまでを前回行いました。今回、予約内容を復唱後、顧客の返答をヒアリングするチャットボットを構築しました
- AI
- あとで読む
- 予約
- amazon
- 人工知能
- techfeed
- aws
[速報]OpenAI DevDayの発表内容をまとめる！GPT VisionのAPI提供やGPT-4 turboのリリースなど | DevelopersIO
- 41 users
- dev.classmethod.jp
- テクノロジー
- 2023/11/07
2023年11月6日にOpenAIが初めての開発者向けのイベントであるOpenAI DevDayを開催しました。Youtubeにてオンライン中継が行われたため内容をまとめていきます。この記事は速報記事であり、英語での発表を日本語で記載するため、内容に誤りがある可能性があります。今後、誤りが見つかった場合は適宜更新していくためご容赦ください。既にOpenAIの公式でもリリース情報が記載されています。より正確な情報が知りたい方は以下をご覧ください。 https://openai.com/blog/new-models-and-developer-products-announced-at-devday まずは一年の振り返りからイベントは始まりました。この一年で、GPT3.5 / GPT4のリリースや音声への対応、画像生成としてDalle3、エンタープライズプランのリリース、Visionが追
- openai
- AI
- chatgpt
- あとで読む
- 人工知能
- 機械学習
- event
LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
- 38 users
- tech.layerx.co.jp
- テクノロジー
- 2024/07/04
こんにちは！LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩
- 開発
- あとで読む
【無料】高精度&爆速で文字起こしが終わるAIツール「Gladia」がスゴイ | 株式会社LIG(リグ)｜DX支援・システム開発・Web制作
- 38 users
- liginc.co.jp
- テクノロジー
- 2024/06/05
こんにちは、インハウスマーケティング部のかけるです。生成AIによってライティング業務の効率化が進むなかで、「文字起こし」は生成AIが得意とする領域の一つです。今回は数ある文字起こしAIのなかでも、実際に使ってみて良かった文字起こしAI「Gladia」について、その使い方や魅力をご紹介します！「Gladia」は精度が抜群 https://www.gladia.io/ まず前提として、Gladiaの文字起こしの技術には、OpenAIがオープンソースとして公開している文字起こしAI「Whisper」が活用されています。 Gladiaの大きな魅力は、なんといっても音声から文字を起こす（Speech-to-Text）際の精度の高さです。一般的に、音声認識の精度は「単語誤り率（WER）」という、その音声認識モデルが音声をテキストへ変換する際にどれぐらい間違えてしまったのかという評価尺度があり
- AI
- 音声
- あとで読む
- 動画
- ツール
- webサービス
神アイテム！録音・文字起こし・要約が一瞬で完了するChatGPT連携AIボイスレコーダー
- 37 users
- www.gizmodo.jp
- テクノロジー
- 2023/11/06
神アイテム！録音・文字起こし・要約が一瞬で完了するChatGPT連携AIボイスレコーダー2023.11.06 17:00Sponsored by PLAUD, Nicebuild LLC 中川真知子｢生産性爆上がり｣に偽りなし。打ち合わせや会議の議事録、取材のまとめやインタビューの文字起こし…。私たちの毎日は、インプットして、まとめて、アウトプットしての繰り返しです。私は、ボイスレコーダーで録音した音声をAI文字起こしサービスに流し込んで、文字起こしまでは自動化しています。そのため、ある程度の効率化を図れていると思いますが、もっともっと楽がしたい。1分でも時短したい…。そう思っていたとき、応援購入サービス｢Makuake｣で発見したのが｢PLAUD NOTE（プラウドノート）｣。｢録音→文字起こし→要約作成｣を自動で完了させてくれる、ChatGPT連携のボイスレコーダーです。実
iPhoneで日本語のリアルタイム文字起こしができる「WhisperAX」
- 37 users
- ascii.jp
- テクノロジー
- 2024/04/05
AI関連企業のArgmaxは4月5日現在、OpenAIの音声認識AI「Whisper」を利用した文字起こしアプリ「WhisperAX」のベータ版を公開している。対応機種はiPhone、Apple Silicon搭載Macと、Apple Watch Series 9／Ultra 2。アップルのテスト環境提供アプリ「TestFlight」から試用可能だ。
- アプリ
- iPhone
- *あとで読む
- あとで読む
- mac
- 資料
Microsoft社のアーキテクトが説く、LLM実装の最前線　登場から今までを振り返って、予想する未来像
- 35 users
- logmi.jp
- テクノロジー
- 2023/11/03
登壇者の自己紹介蒲生弘郷氏：「ChatGPTの10ヶ月と開発トレンドの現在地」というタイトルで、蒲生から発表します。よろしくお願いいたします。ちょっと私の自己紹介です。Azure OpenAI Champという立場で、外部発信などをやっています。いっぱい自己紹介をしていきたいところですが、本日はあまり時間もないので省略して、次にいきたいと思います。今回は、けっこう開発者向けの発展的な内容を扱っていきますが、もし基本的な内容から確認していきたいという場合には、「Azure OpenAI 大全」というものを公開していて、リンクを貼っておくので、そちらの資料を併せてご確認いただければと思います。「ChatGPT」の登場から今までを振り返るでは、本日のテーマとして「ChatGPT」の登場から10ヶ月（※登壇当時）ということで、2022年11月から登場したChatGPTに関する技術について
- LLM
- ChatGPT
- あとで読む
- AI
リリースされたGPT-4oを使って動画のサマリー生成をしてみる！ - Qiita
- 34 users
- qiita.com/sakasegawa
- テクノロジー
- 2024/05/14
概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。使用している映像は以下でまとめられています。非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。現状のGPT-4o APIの制限動画はそのままアップロードできませんこれは将来的にもできるとされてい
- text
- api
- video
- あとで読む
- 動画
ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog
- 33 users
- engineers.ntt.com
- テクノロジー
- 2023/12/15
この記事は NTTコミュニケーションズ Advent Calendar 2023 の15日目の記事です。この記事では、ChatGPT と音声認識モデルの Whisper を用いた発音練習アプリケーションをご紹介します。 ChatGPT に読み上げる文章を考えてもらい、その文章の読み上げた音声を Whisper で文字起こしします。正確に発音できていれば、正確に文字起こしできる、という考えから、原稿と文字起こし結果を比較すれば発音練習に使えるのではないかと考えました。実際に使ってみた結果、発音のどこが悪かったのかといったフィードバックはもらえませんが、自分の発話した音声に対して評価がつくだけでも、結構楽しく練習できると感じました。音声認識を活用したアプリケーションは、一般に音声認識精度がネックになると思いますが、このアプリケーションは音声認識精度が100%ではないことを逆手に
- ai
- ChatGPT
- あとで読む
- 人工知能
- アプリ
VSCode上でCodeWhispererとCopilotを両方使うと、捗る (AIが脆弱性診断→AIが解説)
- 32 users
- zenn.dev/ncdc
- テクノロジー
- 2023/12/24
Qiita Advent Calendar 2023 「Visual Studio Code」 24日目の記事です。言いたいこと VSCode上でAmazon CodeWhispererに脆弱性診断をさせてGitHub Copilot Chatにその解説をさせると、とても捗るよ。もう少し細かい説明 GitHub CopilotやAmazon CodeWhispererって何？ GitHub Copilotは、IDE上でAIがコーディングの補完をしてくれるGitHub提供のサービスです。 Amazon CodeWhispererは、IDE上でAIがコーディングの補完をしてくれるAWS提供のサービスです。つまり競合しています。比較用に両方を使ったことがある人はいても、日常的に同時使用している人は少ないのではないでしょうか。ですが、メイン機能であるコーディング補完は一旦おいておいて、Co
- vscode
- CodeWhisperer
- Copilot
- AI
- あとで読む
ついにChatGPTが「見る」「聞く」「話す」に対応、人間と同じように音声で会話したり写真の内容について質問したりできる
- 31 users
- gigazine.net
- テクノロジー
- 2023/09/26
OpenAIがChatGPTに「画像の内容を判断して応答する機能」と「テキストではなく音声でコミュニケーションする機能」を追加することを発表しました。これにより「冷蔵庫の中身を見せてレシピを提案してもらう」といった視覚を伴うコミュニケーションが可能になるほか、人間と会話するように音声コミュニケーションをとることが可能となります。 ChatGPT can now see, hear, and speak https://openai.com/blog/chatgpt-can-now-see-hear-and-speak OpenAIによると、今後2週間以内に有料プラン「ChatGPT Plus」と「ChatGPT Enterprise」の加入者に対して画像の内容を認識して応答する機能と音声でコミュニケーションする機能を提供予定とのこと。このうち、画像認識機能は全プラットフォームで利用可能にな
- 人工知能
- 文章生成AI
- ChatGPT
- techfeed
- AI