並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 179件

新着順 人気順

Whisperの検索結果1 - 40 件 / 179件

  • クレディセゾンでDXを進めてきた5年間を振り返る|小野 和俊

    はじめにクレディセゾンに来てちょうど5年が経ったので、これまでの取り組みをまとめてみようかと思う。書き進めていくうちにとても長くなってしまったので、1年につき3トピックに絞ってあとはカットした。それでも5年分なこともありかなり長くなったので、目次から各トピックに飛んでもらえればと思う。社内の関係者も読むかもしれず、「自分のやったことが載ってない!」と思うこともあるかもしれないが、内製開発案件だけでも53案件あり全部載せるととんでもない量になるので許してほしい。それから、振り返ってまとめると退職すると勘違いされるかもしれないけれど、退職するわけではありません! 2019年:ゼロからのスタート1-1. 内製開発エンジニア募集を始める「日本のそれなりの規模の事業会社の中に、内製開発チームを立ち上げることはできるのだろうか?」 2019年3月、クレディセゾンに来たばかりの私にとってはこの質問への答

      クレディセゾンでDXを進めてきた5年間を振り返る|小野 和俊
    • DALL-E3 (ダリスリー) の無料教科書:初級編|プチpony

      DALL-E3を実装日からほぼ毎日使用し面白さにとりつかれています。何となくで触っているため, いまいち思った画像が出来ないことも多々ありましたので今回まじめに作成法を勉強してみました。初級編と名前がついているのは高等テクニックを教えるほどの技術がないだけで後に上級編が控えているという意味ではないです。 0. はじめに DALL-E とはシンプルなテキストのみで画像がつくれるAIです。 簡単なテキストのみで画像生成語源は『ウォーリー探せ』と芸術家の『ダリ』から来ているみたいです。ウィーリーはある種の「探し物」をする, userが提示するテキストのプロンプトから隠された要素やまだ見ぬ画像を「探し出し」生成することらしいです。 ウォーリーをインスパイアした少年1. 問題点, 主に著作権やはり何と言っても著作権問題ではないでしょうか。現在法整備が進行しているところです。OpenAIはコンテンツポ

        DALL-E3 (ダリスリー) の無料教科書:初級編|プチpony
      • Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|にょす

        日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました! しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です!(笑) シャべマルの紹介具体的には、、 絵文字で見返せるメモアプリあんまりないですが、良いですよ…!音声入力でメモ内容を作成。かなり高精度な音声認識モデル(Whisper)を用いているので、想像以上にちゃんと文字起こししてくれます! 「今日あったこと」など、日記として利用するのもオススメです。1日を振り返る機会になって、それが後から振り返りできるので、あの時こんなこと考えていたなー、といった発見につながるはずです! そして個人的にここが目玉なのですが、文字起こしされたメモには、「タイトル」「絵文字アイコン」「感情アイコン」「カテゴリ」が自動で紐づきます! これ何が良いかというと、圧倒的に見返しやすくなるんですよね

          Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|にょす
        • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

          以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

            OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
          • 10倍速の効率に専門医レベルの回答精度―医師はChatGPTなどの生成AIをどう扱うべきか?|医師のキャリア情報サイト【エピロギ】

            10倍速の効率に専門医レベルの回答精度―医師はChatGPTなどの生成AIをどう扱うべきか? 「医師による医師のためのChatGPT入門 臨床がはかどる魔法のプロンプト」著者インタビュー 大塚 篤司 氏(皮膚科医/近畿大学医学部皮膚科学教室主任教授) 2024.07.18 簡単な指示文(プロンプト)を入力するだけで、専門家のような文章や画像などを即座に回答する生成AI。2022年にOpenAI社が発表したChatGPTに始まり、精度や機能のめざましい進歩とともに各業界で存在感を増しています。 医療分野でも、生成AIへの期待は高まっています。しかし、中には使い方がわからなかったり、安全性の懸念がぬぐえなかったりして活用に踏み切れない医師の方もいらっしゃるのではないでしょうか。 「確実にできることは増えるし、仕事が早くなります。作業速度は体感”10倍速”」と生成AI活用による驚異的な変化を語る

              10倍速の効率に専門医レベルの回答精度―医師はChatGPTなどの生成AIをどう扱うべきか?|医師のキャリア情報サイト【エピロギ】
            • [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO

              [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。 コールセンターでは、有人対応から無人対応に変更したいニーズが増えているように思います。 電話予約の無人対応を想定し、1回の発話で、下記の5つの予約情報を抽出できるか確認します。 お名前 電話番号 予約日 予約時間 人数 発話で予約情報を抽出する方法として、GPT-4 Turbo のJSONモードを利用します。 JSONモードの詳細は、下記を参照ください。 例えば、「名前はクラスメソッドで、電話番号は09011111111。来週の火曜日の19時に4名で予約できます

                [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO
              • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                  自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                • GPT-4に日本語特化モデル OpenAI Japan始動会見で発表

                  米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。 関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。 マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応 米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA

                    GPT-4に日本語特化モデル OpenAI Japan始動会見で発表
                  • 俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ

                    こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。 麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか? 特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。 そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ 現状の点数計算の練習

                      俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
                    • Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO

                      構成 構成としては、下記の通りです。 Connectのフローの詳細は下記の通りです。 例として、発話で住所を認識させる処理の流れは以下のとおりです。 コンタクトフロー内で「メディアストリーミングの開始」ブロックを使って、Kinesis Video Stream(KVS)への音声のストリーミングを開始します。 顧客は、住所を含めた発話をします。 「顧客の入力を保存する」ブロックで、顧客が特定の番号を押すと、ストリーミングを終了します。 「AWS Lambda関数を呼び出す」ブロックを使い、LambdaでKVSからデータを取得します。取得したデータをWAV形式に変換し、Whisper APIで文字起こしします。文字起こし内容から、GPT-4 Turboで住所のみを抽出します。 プロンプト再生で、住所のみを音声出力します。 以下の図は、電話での対話の流れを示しています。 前提 2023年11月時

                        Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO
                      • 苦節6年をかけてでも「純度100%の硬派STG」を作りたかった。ヴァニラウェア勤続20年超のグラフィックデザイナー・シガタケ氏がたったひとりで作ったインディーゲーム『デビルブレイド リブート』ついに発売へ

                        『デザエモン』との出会いがシューティングゲーム好きの少年に情熱の火をつけた『デビルブレイド リブート』は、1996年発売のプレイステーション用シューティングゲーム制作ソフト『デザエモン+』で開発され、同ソフトの主催コンテストで入選した『デビルブレイド』を28年ぶりにフルリメイクした作品だ。作中では『デザエモン』がリリースされていない海外のユーザーに向けて、1996年版の雰囲気を再現した「レトロモード」も収録されている。 (画像はSteam『DEVIL BLADE REBOOT』より)開発者のシガタケ氏は2002年からヴァニラウェアで『くまたんち』や『朧村正』、『ユニコーンオーバーロード』などの作品に携わってきたグラフィックデザイナーである。しかし、本作はセールスのことをあまり勘定に入れず、「自分にとっての理想のSTGの実現」に重点を置いた趣味での個人制作タイトルだ。 (画像は画展(ギャラリ

                          苦節6年をかけてでも「純度100%の硬派STG」を作りたかった。ヴァニラウェア勤続20年超のグラフィックデザイナー・シガタケ氏がたったひとりで作ったインディーゲーム『デビルブレイド リブート』ついに発売へ
                        • GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること

                          GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US [原文] ( mayumine ) これは嬉しい進化です。 OpenAIの開発者向けカンファレンス「DevDay」で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました(こちらの記事もどうぞ)。 いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。 さらにGPT-4 Turboでは、JSONモードが実装され、JS

                            GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
                          • ロック好きなら高校生までに聴いておきたい古典100(ハードロックヘヴィメタル含む編)

                            ハードロック、ヘヴィメタルが好きな高校生諸君、ネットの海に出るとスラッシュメタル四天王とか、プログレがどうとか、アニソンはメタルだとか、よくわからない言葉を目にすると思う。 そんなときは歴史を知ろう。故きを温ねて新しきを知る。以下の100枚を聞けばだいたいわかるようになるぞ。 これで物知り顔で蘊蓄垂れるおじさんにドヤ顔をやり返してやろう。 (おおむねアーティスト名アルファベット、五十音順。国内海外順不同。原則1アーティスト1枚) 1. Whatever People Say I Am, That's What I'm Not / Arctic Monkeys 2.Relationship Of Command / At The Drive-In 3.Slaughter Of The Soul / At The Gates 4.METAL RESISTANCE / Baby Metal 5.

                              ロック好きなら高校生までに聴いておきたい古典100(ハードロックヘヴィメタル含む編)
                            • AIこより爆誕!?の裏側|カバー株式会社 公式note

                              こんこよ~🧪 カバー株式会社CTO室エンジニアのAです。 カバー株式会社には2023年4月に新卒で入社し、第1回COVER Techを執筆したKさんの下で、タレントの皆様が日々のYouTube配信などで使用するホロライブアプリの開発に携わっています。 また、ここ数か月はそれと並行してAIこよりシステムの開発を担当してまいりました。 この記事では開発したシステムの概要についてご紹介します。 開発経緯AIこよりシステムの開発に至った経緯について。 まず社内に生成AIの可能性や関連技術の検討をしたいという需要がありました。そこへ、こよりさんからご自身のAIを作りたいというご要望をいただいたため、それがきっかけとなり、こよりさんの全面的なご協力の下でAIこよりシステムの開発が始まりました。 システム概要今回開発したものは、AIシステムへの入出力を操作し配信画面に映すフロントアプリと、各種外部AP

                                AIこより爆誕!?の裏側|カバー株式会社 公式note
                              • OpenAI API で提供されている モデル まとめ|npaka

                                「OpenAI API」で提供されている「モデル」をまとめました。 ・Model - OpenAI API 1. OpenAI API で提供されている モデル「OpenAI API」で提供されている「モデル」は、次のとおりです。 ・GPT-4o : GPT-4よりも安価で高速な、最も先進的なマルチモーダルフラッグシップモデル ・GPT-4 : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル ・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル ・DALL-E : 自然言語から画像を生成および編集できるモデル ・TTS : テキストを自然な音声に変換できるモデル ・Whisper : 音声をテキストに変換できるモデル ・Embedding : テキストをベクトル表現に変換できるモデル ・Moderation : テキストが機密または安全か

                                  OpenAI API で提供されている モデル まとめ|npaka
                                • マイクロソフトが法人向けソフトウェア値上げ 20%アップ

                                  日本マイクロソフトは12月6日、法人向けソフトウェアとクラウドサービスを値上げすると発表した。日本円の為替変動によるもので、2024年4月以降に現行価格から20%引き上げるという。対象サービスは具体的に書かれていないが、一律での値上げになるとみられる。 関連記事 Windows 11にアップグレードできないPC、国内に2000万台 “10サポート終了時”でも1000万台近く残存か 日本マイクロソフトが、「Windows 10」のサポート終了に向けた国内のWindows OSの利用状況を明かした。国内のコンシューマ市場にあるWindows PC約4800万台のうち、現時点で約2000万台が「Windows 11にアップグレードできないPC」だという。2年後の2025年10月にWindows 10のサポート終了が迫る中、PCの買い替えを推進しても“10のままのPC”は多数残りそうだ。 マイクロ

                                    マイクロソフトが法人向けソフトウェア値上げ 20%アップ
                                  • OpenAI、次世代AIモデル「GPT-4o」を発表

                                    日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                                      OpenAI、次世代AIモデル「GPT-4o」を発表
                                    • superwhisperでの音声入力を試す

                                      superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                        superwhisperでの音声入力を試す
                                      • Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog

                                        こんにちは ハタ です。 最近Mirrativ上に構築した配信の文字起こしシステムを紹介したいなと思います 音声からの文字起こしは、各社SaaSでAPI提供されているものがあると思いますが、今回紹介するものはセルフホスト型(自前のGPUマシンを使う)になります 構築していく上で色々試行錯誤したのでそれが紹介できればなと思っています どんなものを作ったか 前提知識: 配信基盤 前提知識: Unix Domain Socket Live Recorder Archiver DS Filter VAD Filter NAC / Compress Transcriber NAC / Decompress Speach To Text コンテナイメージ まとめ We are hiring! どんなものを作ったか 今回作ったものは Mirrativで配信されるすべての音声を対象に文字起こしを行う シス

                                          Neural Audio Codec を用いた大規模配信文字起こしシステムの構築 - Mirrativ Tech Blog
                                        • [電話予約の無人化]Amazon Connect + GPT-4 Turboで、発話の「時刻と日付」の言い回しをどの程度認識してくれるか調査 – Amazon Connect アドベントカレンダー 2023 | DevelopersIO

                                          Amazon Connect アドベントカレンダー 2023、4日目の記事です! クラスメソッドとギークフィードさん、スカイアーチHRソリューションズ さんの有志が募ってチャレンジしている企画になります。 (アドベントカレンダーのカレンダー一覧はこちら↓) はじめに Amazon Connect + GPT-4 Turbo JSONモード + Whisper の構成で、発話での「時刻と日付」の言い回しをどこまで正しく認識してくれるか調査しました。 以前、電話予約の無人化をAmazon Connect + GPT-4 JSONモード + Whisperで構築し、1回の発話で予約情報を正しく認識してくれるか、という記事を執筆しました。 上記の記事では、下記の5つの予約情報を発話し、正しく抽出されました。 お名前 電話番号 予約日 予約時間 人数 処理の流れは、顧客がConnectの電話番号から

                                            [電話予約の無人化]Amazon Connect + GPT-4 Turboで、発話の「時刻と日付」の言い回しをどの程度認識してくれるか調査 – Amazon Connect アドベントカレンダー 2023 | DevelopersIO
                                          • 音楽っていいな――フェアーグラウンド・アトラクション(Fairground Attraction)奇跡の再結成 & 35年ぶりの来日公演をレポ | Mikiki by TOWER RECORDS

                                            1990年、突然の解散から34年の時を経て、奇跡の再結成と35年ぶりの来日公演をおこなった伝説のグループ、フェアーグラウンド・アトラクション。活動再開の地に選んだのは、バンドと特別な縁を持つここ日本。世界中のファン垂涎の奇跡の瞬間を捉えた、2024年6月27日の東京・SHIBUYA CLUB QUATTRO公演のオフィシャルライブレポートが届いた。 *Mikiki編集部 音楽っていいな、歳を重ねるのも悪くないことだなと心から思える、贈り物のような一夜だった。 人気絶頂にあった1990年、たった1枚のオリジナルアルバム『The First Of A Million Kisses』を残して突然解散してしまったフェアーグラウンド・アトラクション。その印象があまりにも鮮やかだったので、昨年12月、34年ぶりのリユニオンが伝えられたときには心底驚いた人も多かったはずだ(筆者もその1人)。実際、来日ツ

                                              音楽っていいな――フェアーグラウンド・アトラクション(Fairground Attraction)奇跡の再結成 & 35年ぶりの来日公演をレポ | Mikiki by TOWER RECORDS
                                            • SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に

                                              Spotifyは「クリエイター自身の声を使うことで、音声翻訳はこれまで以上にリアルな方法で世界中のリスナーにホストのインスピレーションを受け取る力を与える」と語った。 ダニエル・エクCEOのXのポストで、スティーブン・バートレット氏とレックス・フリードマン氏のスペイン語吹き替えを試聴できる。 関連記事 ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に 米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。 YouTube、クリエイター向けイベントでAI搭載の複数ツールを発表 YouTubeはクリエイター向けイベントを開催し、複数の編集ツールを発表した。YouTubeショートの背景を生成AIで作る「Dream Screen」など、A

                                                SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に
                                              • [ここまで進化したChagGPT!] 今日から何がどう変わるのか [2023年11月最新版] - Qiita

                                                皆さん初めましてこんにちはこんばんは。スウェーデン在住のエンジニア、Harry(ハリー: https://twitter.com/harrythecode )と申します。 普段はDevOpsエンジニアとして働く傍ら、生成AIの最前線にも繰り出し、ToBやToC向けのアプリケーション開発などにフルスタックエンジニアとして携わっています。 2023年11月7日 日本時間午前3時より、ChatGPTの生みの親、OpenAI社のサム・オルトマンによる講演が行われました。 この中で、多くの人が待ち望んだ様々な機能の実装や改善が行われています。 読むのが辛いよ、って方は以下の一言まとめをどうぞ。 また今回の発表によって何が新しくなって、今後どう変わっていくのか、を現役エンジニア目線でご紹介します。では見ていきましょう。 何が新しいん? GPT-4 Turboの発表: コンテキスト長の拡張: 128,0

                                                  [ここまで進化したChagGPT!] 今日から何がどう変わるのか [2023年11月最新版] - Qiita
                                                • 学び続けるエンジニアを育てる、twadaラボの取り組み紹介 - NTT Communications Engineers' Blog

                                                  本記事では、学び続けるエンジニアを育成するための取り組みである、twadaラボという取り組みを紹介します。まず既存の研修では対応できない育成上の課題を示し、それを踏まえたtwadaラボのコンセプトや実施内容を説明します。 はじめに 背景 コンセプト 実施内容 学習計画の策定 学習 技術顧問によるメンタリング アウトプットとフィードバック テーマ例 終わりに はじめに NTTコミュニケーションズでソフトウェアエンジニアをしている川瀬です。 NTT Comでは2023年の6月から9月にかけて、技術顧問のtwadaさんとともにtwadaラボというソフトウェアエンジニア育成のための取り組みを実施しました。 本記事では、その背景や取り組み内容を紹介いたします。 背景 NTT Comでは、MOOCを活用した独学支援から、twada塾やテスト駆動開発(TDD)ワークショップといったWebアプリケーション

                                                    学び続けるエンジニアを育てる、twadaラボの取り組み紹介 - NTT Communications Engineers' Blog
                                                  • 文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                    2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第19回目は、人気の文字起こしソフト「Whisper」の高速化版、スマホでできるAIボイチェン、プレッシャーをかける感情付きプロンプトをはじめとする、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップOpenAIの文字起こしAI「Whisper」を軽量かつ高速にするモデル「Distil-Whisper」 Hugging Faceが開発 3.2兆以上のトークンで学習された、130億のパラメータを持つオープン大規模言語モデル「Skywork」 テキストや画像から高品質な動画を生成するオープンソースモデル「VideoCrafter1」 中国テンセント含む研

                                                      文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                    • 誰の声でも簡単・リアルタイムで女声・男声・ささやき声などへ自由自在に変換できる「Voidol3」のSYNTHモードを使ってみたよレビュー

                                                      AI技術を応用したソフトを開発するクリムゾンテクノロジーから、AIリアルタイムボイスチェンジャー「Voidol3」が2023年9月8日に登場しました。Voidol3はシンセサイジングによる超高速声質変換エンジンによるボイスチェンジャー「SYNTHモード」と、自身の声を特定のキャラクターの声に変換するAIリアルタイム声質変換が可能な「AIモード」を搭載し、さらにその両方を連結したリアルタイムの声質変換も可能だとのこと。まずはVoidol3のSYNTHモードによるボイスチェンジャーを試してみました。 Voidol3 | 変幻自在の声質変換 | クリムゾンテクノロジー株式会社 https://crimsontech.jp/apps/voidol3/ 今回Voidol3を使うにあたって、オーディオインターフェースとしてコンデンサーマイクのMPM-1000とヤマハ・AG-03をPCに接続して使用しま

                                                        誰の声でも簡単・リアルタイムで女声・男声・ささやき声などへ自由自在に変換できる「Voidol3」のSYNTHモードを使ってみたよレビュー
                                                      • 100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明

                                                        OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。 How Tech Giants Cut Corners to Harvest Data for A.I. - The New York Times https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html Google reporte

                                                          100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明
                                                        • Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) | DevelopersIO

                                                          Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) はじめに Amazon Connectを使用して、お問い合わせ内容をOpenAIのWhisper APIで文字起こしとChatGPTで要約し、通話中に音声出力する方法をまとめました。 Connectで無人対応の場合、顧客からの発話を聞き取る方法としては、チャットボットサービスであるAmazon Lexもしくは、Kinesis Video Stream(KVS)で音声のストリーミングなどがあります。 Amazon Lexを利用する場合は、1度に15秒以上は聞き取ることができない点や文字起こしにはAmazon Transcribeを利用する制約があります。 今回は、文字起こしにWhisper APIを利用し、ChatGPTで要約した内容をConne

                                                            Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) | DevelopersIO
                                                          • 生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話

                                                            株式会社クラウドネイティブは、Azure OpenAIで自組織専用のChatGPTの構築を支援するサービスを展開しています。ChatGPTとAzure AD OpenAI Serviceの取り組みや事例、支援… IDチームの前田です。今日は生成AI(ChatGPT)と音声認識モデル(Whisper)を利用した会議アシスタントツールに関する投稿になります。 (追記) 作ったツールはGitHub上で公開しており、Dockerを利用してすぐに試せるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年8月30日現在Azure OpenAIにてWhisperが利用出来ていないため、OpenAI Whisper APIを利用した試験段階のものになります。近日中にAzure OpenAIにてWhisperが利用出来るとアナウ

                                                              生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話
                                                            • Amazon Connect + GPT-4 Turboで、予約内容を復唱後、顧客の色々な返答を正しくヒアリングできるか検証 – Amazon Connect アドベントカレンダー 2023 | DevelopersIO

                                                              Amazon Connect アドベントカレンダー 2023、1日目の記事です! クラスメソッドとギークフィードさん、スカイアーチHRソリューションズ さんの有志が募ってチャレンジしている企画になります。 (アドベントカレンダーのカレンダー一覧はこちら↓) はじめに Amazon Connect + GPT-4 Turbo JSONモードで、予約内容を復唱して確認後、顧客の色々な返答を正しくヒアリングできるか検証しました。 前回、Amazon Connect + GPT-4 Turbo JSONモードで、1回の発話から下記の5つの予約情報をヒアリングするチャットボットを構築しました。 名前 電話番号 予約日 予約時間 人数 予約情報をヒアリング後、Connect側で予約内容を復唱するところまでを前回行いました。 今回、予約内容を復唱後、顧客の返答をヒアリングするチャットボットを構築しました

                                                                Amazon Connect + GPT-4 Turboで、予約内容を復唱後、顧客の色々な返答を正しくヒアリングできるか検証 – Amazon Connect アドベントカレンダー 2023 | DevelopersIO
                                                              • [速報]OpenAI DevDayの発表内容をまとめる!GPT VisionのAPI提供やGPT-4 turboのリリースなど | DevelopersIO

                                                                2023年11月6日にOpenAIが初めての開発者向けのイベントであるOpenAI DevDayを開催しました。Youtubeにてオンライン中継が行われたため内容をまとめていきます。 この記事は速報記事であり、英語での発表を日本語で記載するため、内容に誤りがある可能性があります。今後、誤りが見つかった場合は適宜更新していくためご容赦ください。 既にOpenAIの公式でもリリース情報が記載されています。より正確な情報が知りたい方は以下をご覧ください。 https://openai.com/blog/new-models-and-developer-products-announced-at-devday まずは一年の振り返りからイベントは始まりました。この一年で、GPT3.5 / GPT4のリリースや音声への対応、画像生成としてDalle3、エンタープライズプランのリリース、Visionが追

                                                                  [速報]OpenAI DevDayの発表内容をまとめる!GPT VisionのAPI提供やGPT-4 turboのリリースなど | DevelopersIO
                                                                • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

                                                                  こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

                                                                    LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
                                                                  • 【無料】高精度&爆速で文字起こしが終わるAIツール「Gladia」がスゴイ | 株式会社LIG(リグ)|DX支援・システム開発・Web制作

                                                                    こんにちは、インハウスマーケティング部のかけるです。 生成AIによってライティング業務の効率化が進むなかで、「文字起こし」は生成AIが得意とする領域の一つです。 今回は数ある文字起こしAIのなかでも、実際に使ってみて良かった文字起こしAI「Gladia」について、その使い方や魅力をご紹介します! 「Gladia」は精度が抜群 https://www.gladia.io/ まず前提として、Gladiaの文字起こしの技術には、OpenAIがオープンソースとして公開している文字起こしAI「Whisper」が活用されています。 Gladiaの大きな魅力は、なんといっても音声から文字を起こす(Speech-to-Text)際の精度の高さです。 一般的に、音声認識の精度は「単語誤り率 (WER)」という、その音声認識モデルが音声をテキストへ変換する際にどれぐらい間違えてしまったのかという評価尺度があり

                                                                      【無料】高精度&爆速で文字起こしが終わるAIツール「Gladia」がスゴイ | 株式会社LIG(リグ)|DX支援・システム開発・Web制作
                                                                    • 神アイテム! 録音・文字起こし・要約が一瞬で完了するChatGPT連携AIボイスレコーダー

                                                                      神アイテム! 録音・文字起こし・要約が一瞬で完了するChatGPT連携AIボイスレコーダー2023.11.06 17:00Sponsored by PLAUD, Nicebuild LLC 中川真知子 「生産性爆上がり」に偽りなし。 打ち合わせや会議の議事録、取材のまとめやインタビューの文字起こし…。私たちの毎日は、インプットして、まとめて、アウトプットしての繰り返しです。 私は、ボイスレコーダーで録音した音声をAI文字起こしサービスに流し込んで、文字起こしまでは自動化しています。そのため、ある程度の効率化を図れていると思いますが、もっともっと楽がしたい。1分でも時短したい…。 そう思っていたとき、応援購入サービス「Makuake」で発見したのが「PLAUD NOTE(プラウドノート)」。「録音→文字起こし→要約作成」を自動で完了させてくれる、ChatGPT連携のボイスレコーダーです。 実

                                                                        神アイテム! 録音・文字起こし・要約が一瞬で完了するChatGPT連携AIボイスレコーダー
                                                                      • iPhoneで日本語のリアルタイム文字起こしができる「WhisperAX」

                                                                        AI関連企業のArgmaxは4月5日現在、OpenAIの音声認識AI「Whisper」を利用した文字起こしアプリ「WhisperAX」のベータ版を公開している。対応機種はiPhone、Apple Silicon搭載Macと、Apple Watch Series 9/Ultra 2。アップルのテスト環境提供アプリ「TestFlight」から試用可能だ。

                                                                          iPhoneで日本語のリアルタイム文字起こしができる「WhisperAX」
                                                                        • Microsoft社のアーキテクトが説く、LLM実装の最前線 登場から今までを振り返って、予想する未来像

                                                                          登壇者の自己紹介 蒲生弘郷氏:「ChatGPTの10ヶ月と開発トレンドの現在地」というタイトルで、蒲生から発表します。よろしくお願いいたします。 ちょっと私の自己紹介です。Azure OpenAI Champという立場で、外部発信などをやっています。いっぱい自己紹介をしていきたいところですが、本日はあまり時間もないので省略して、次にいきたいと思います。 今回は、けっこう開発者向けの発展的な内容を扱っていきますが、もし基本的な内容から確認していきたいという場合には、「Azure OpenAI 大全」というものを公開していて、リンクを貼っておくので、そちらの資料を併せてご確認いただければと思います。 「ChatGPT」の登場から今までを振り返る では、本日のテーマとして「ChatGPT」の登場から10ヶ月(※登壇当時)ということで、2022年11月から登場したChatGPTに関する技術について

                                                                            Microsoft社のアーキテクトが説く、LLM実装の最前線 登場から今までを振り返って、予想する未来像
                                                                          • リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita

                                                                            概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。 使用している映像は以下でまとめられています。 非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。 今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ 以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。 現状のGPT-4o APIの制限 動画はそのままアップロードできません これは将来的にもできるとされてい

                                                                              リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita
                                                                            • ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog

                                                                              この記事は NTTコミュニケーションズ Advent Calendar 2023 の15日目の記事です。 この記事では、ChatGPT と 音声認識モデルの Whisper を用いた発音練習アプリケーションをご紹介します。 ChatGPT に読み上げる文章を考えてもらい、その文章の読み上げた音声を Whisper で文字起こしします。 正確に発音できていれば、正確に文字起こしできる、という考えから、 原稿と文字起こし結果を比較すれば発音練習に使えるのではないかと考えました。 実際に使ってみた結果、発音のどこが悪かったのかといったフィードバックはもらえませんが、 自分の発話した音声に対して評価がつくだけでも、結構楽しく練習できると感じました。 音声認識を活用したアプリケーションは、一般に音声認識精度がネックになると思いますが、 このアプリケーションは音声認識精度が100%ではないことを逆手に

                                                                                ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog
                                                                              • VSCode上でCodeWhispererとCopilotを両方使うと、捗る (AIが脆弱性診断→AIが解説)

                                                                                Qiita Advent Calendar 2023 「Visual Studio Code」 24日目の記事です。 言いたいこと VSCode上でAmazon CodeWhispererに脆弱性診断をさせてGitHub Copilot Chatにその解説をさせると、とても捗るよ。 もう少し細かい説明 GitHub CopilotやAmazon CodeWhispererって何? GitHub Copilotは、IDE上でAIがコーディングの補完をしてくれるGitHub提供のサービスです。 Amazon CodeWhispererは、IDE上でAIがコーディングの補完をしてくれるAWS提供のサービスです。 つまり競合しています。比較用に両方を使ったことがある人はいても、日常的に同時使用している人は少ないのではないでしょうか。 ですが、メイン機能であるコーディング補完は一旦おいておいて、Co

                                                                                  VSCode上でCodeWhispererとCopilotを両方使うと、捗る (AIが脆弱性診断→AIが解説)
                                                                                • ついにChatGPTが「見る」「聞く」「話す」に対応、人間と同じように音声で会話したり写真の内容について質問したりできる

                                                                                  OpenAIがChatGPTに「画像の内容を判断して応答する機能」と「テキストではなく音声でコミュニケーションする機能」を追加することを発表しました。これにより「冷蔵庫の中身を見せてレシピを提案してもらう」といった視覚を伴うコミュニケーションが可能になるほか、人間と会話するように音声コミュニケーションをとることが可能となります。 ChatGPT can now see, hear, and speak https://openai.com/blog/chatgpt-can-now-see-hear-and-speak OpenAIによると、今後2週間以内に有料プラン「ChatGPT Plus」と「ChatGPT Enterprise」の加入者に対して画像の内容を認識して応答する機能と音声でコミュニケーションする機能を提供予定とのこと。このうち、画像認識機能は全プラットフォームで利用可能にな

                                                                                    ついにChatGPTが「見る」「聞く」「話す」に対応、人間と同じように音声で会話したり写真の内容について質問したりできる