並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 104件

新着順 人気順

whisper 意味の検索結果1 - 40 件 / 104件

  • クレディセゾンでDXを進めてきた5年間を振り返る|小野 和俊

    はじめにクレディセゾンに来てちょうど5年が経ったので、これまでの取り組みをまとめてみようかと思う。書き進めていくうちにとても長くなってしまったので、1年につき3トピックに絞ってあとはカットした。それでも5年分なこともありかなり長くなったので、目次から各トピックに飛んでもらえればと思う。社内の関係者も読むかもしれず、「自分のやったことが載ってない!」と思うこともあるかもしれないが、内製開発案件だけでも53案件あり全部載せるととんでもない量になるので許してほしい。それから、振り返ってまとめると退職すると勘違いされるかもしれないけれど、退職するわけではありません! 2019年:ゼロからのスタート1-1. 内製開発エンジニア募集を始める「日本のそれなりの規模の事業会社の中に、内製開発チームを立ち上げることはできるのだろうか?」 2019年3月、クレディセゾンに来たばかりの私にとってはこの質問への答

      クレディセゾンでDXを進めてきた5年間を振り返る|小野 和俊
    • 「思考を整理する方法」を模索して辿り着いた先|Yuki Fujisaki|DeployGate Inc.

      こんにちは。DeployGateの藤﨑です。 仕事をしていると、とにかく考えて答えを出さないといけないことが数多くあります。すぐ思いついてアウトプットできることならいいのですが、大事なものは大体、どこから考え始めればいいのか分からないことだったり、なんとなく浮かんでいるんだけどうまく言語化できないものだったりします。 そんなときに、どうやってその状況を抜け出して、話を深めていくか。今日は、最近自分がやってみて、とても効果を感じられた手法について紹介します。 これまでの手法自分が考え事をする上で、まずやるのはテキストで書き出すということでした。何らか課題について考えるときは、ひたすら箇条書きで考えを書き出していくということをします。だいたいNotionにページを作って箇条書きでひたすら書き出しています。 それ以外だと、やはり紙とペンです。長年適当なコピー用紙→ノート→コンパクトなメモ…と移り

        「思考を整理する方法」を模索して辿り着いた先|Yuki Fujisaki|DeployGate Inc.
      • GWにChatGPTについて振り返りたい人向けまとめ - まなめはうす

        今や毎日耳にするChatGPTだけれど、そもそもどんな風に話題になってきたのかをこのGWを利用して振り返りたいって人もいるはず。そんな人のためにChatGPT関連ニュースをまとめておきましたので、ぜひご利用ください! 良い振り返りで、良い人生を。 このタイトルだけでもChatGPTに食わせて、話題の流れをまとめてもらうのが一番かも? 週刊東洋経済 2023/4/22号(ChatGPT 仕事術革命) 作者:週刊東洋経済編集部東洋経済新報社Amazon 2020/06/01 あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」が公開 - GIGAZINE 2020/07/21 GPT-3の衝撃 - ディープラーニングブログ 2020/07/22 「GPT-3」は思ってたより「やばい」ものだった。話し言葉でプログラミングまでこなすAI

          GWにChatGPTについて振り返りたい人向けまとめ - まなめはうす
        • 30分で完全理解するTransformerの世界

          はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

            30分で完全理解するTransformerの世界
          • DALL-E3 (ダリスリー) の無料教科書:初級編|プチpony

            DALL-E3を実装日からほぼ毎日使用し面白さにとりつかれています。何となくで触っているため, いまいち思った画像が出来ないことも多々ありましたので今回まじめに作成法を勉強してみました。初級編と名前がついているのは高等テクニックを教えるほどの技術がないだけで後に上級編が控えているという意味ではないです。 0. はじめに DALL-E とはシンプルなテキストのみで画像がつくれるAIです。 簡単なテキストのみで画像生成語源は『ウォーリー探せ』と芸術家の『ダリ』から来ているみたいです。ウィーリーはある種の「探し物」をする, userが提示するテキストのプロンプトから隠された要素やまだ見ぬ画像を「探し出し」生成することらしいです。 ウォーリーをインスパイアした少年1. 問題点, 主に著作権やはり何と言っても著作権問題ではないでしょうか。現在法整備が進行しているところです。OpenAIはコンテンツポ

              DALL-E3 (ダリスリー) の無料教科書:初級編|プチpony
            • 音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力

              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が開発した「DualVoice: A Speech Interaction Method Using Whisper-Voice as Commands」は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術だ。文字入力以外のコマンド入力と音声認識ミスによる修正は、通常の声とは別に「ささやき声」で操作する。通常の声とささやき声を使い分ける方法で、ハンズフリーの完全な音声入力を実現する。 音声による文字入力はタイピングに比べて格段に速いため、アイデアを書き留めたり、原稿を素

                音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力
              • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

                以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

                  OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
                • 稲田豊史『映画を早送りで観る人たち』感想〜万人の万人に対する象徴闘争から覚醒させられる「編集権の簒奪」というチートスキル - 太陽がまぶしかったから

                  映画を早送りで観る人たち なぜ映画や映像を早送り再生しながら観る人がいるのか――。なんのために? それで作品を味わったといえるのか? 著者の大きな違和感と疑問から始まった取材は、やがてそうせざるを得ない切実さがこの社会を覆っているという事実に突き当たる。一体何がそうした視聴スタイルを生んだのか? いま映像や出版コンテンツはどのように受容されているのか? あまりに巨大すぎる消費社会の実態をあぶり出す意欲作。 映画を早送りで観る人たち~ファスト映画・ネタバレ――コンテンツ消費の現在形~ (光文社新書) 作者:稲田 豊史光文社Amazon 本書は『「映画を早送りで観る人たち」の出現が示す、恐ろしい未来(稲田 豊史) | 現代ビジネス | 講談社(1/6)』から始まった早送り論についての、派生記事のとりまとめや書き下ろしを含んだ総括である。コンテンツの消費者にも、脚本家にもインタビューしており、ま

                    稲田豊史『映画を早送りで観る人たち』感想〜万人の万人に対する象徴闘争から覚醒させられる「編集権の簒奪」というチートスキル - 太陽がまぶしかったから
                  • ChatGPT APIを取り巻くライブラリ 〜LangChainとguidanceの紹介 | gihyo.jp

                    こんにちは! 逆瀬川(@gyakuse)です! 前回はOpenAIが公開しているChat APIとWhisper APIを用いて議事録文字起こしアプリケーションを作ってみました。今回は、Chat APIを便利に使うためのライブラリであるLangChainとguidanceを紹介していきます。 なぜ便利に使うためのライブラリが必要なのか? 単純にChat APIにリクエストを送るだけであれば、各言語に用意されたライブラリを使うだけで良いでしょう。たとえば、Pythonにおいてはopenai-pythonが用意されています。前回紹介したとおり、Chat APIを使うだけなら以下のようなリクエストを作るだけで済みます。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create

                      ChatGPT APIを取り巻くライブラリ 〜LangChainとguidanceの紹介 | gihyo.jp
                    • ブレインパッドでの8年間を振り返って - 毎日がEveryday、日々 Day by Day

                      新卒から約8年勤めたブレインパッドを3月に退職しました。 「受託分析」という生存/スケールが難しい事業分野で、ブレインパッド社は着々と大きくなり、そこでデータサイエンティストとしてファーストキャリアを過ごせたことは今後の僕の仕事への価値観/方法論に大きく影響を与えたのだろうと思っています。 なので8年経って思い至ったことを忘れないうちにブログにメモしておこうと思います。 新しい職場でこの考えをアップデートしたり壊したりしていきたい。 僕がいた2015年~2023年の激動のデータ/AI分野の業界の流れについてはこちらのpodcastでも話したので良かったら聞いてください🙂 open.spotify.com ※なお、全ての行末には「知らんけど」が省略されていることをご了承ください。 データ分析の仕事 「問題の抽象化・構造化」の価値がますます高くなっている 「現実がこい」: DXとはなんだった

                        ブレインパッドでの8年間を振り返って - 毎日がEveryday、日々 Day by Day
                      • Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO

                        構成 構成としては、下記の通りです。 Connectのフローの詳細は下記の通りです。 例として、発話で住所を認識させる処理の流れは以下のとおりです。 コンタクトフロー内で「メディアストリーミングの開始」ブロックを使って、Kinesis Video Stream(KVS)への音声のストリーミングを開始します。 顧客は、住所を含めた発話をします。 「顧客の入力を保存する」ブロックで、顧客が特定の番号を押すと、ストリーミングを終了します。 「AWS Lambda関数を呼び出す」ブロックを使い、LambdaでKVSからデータを取得します。取得したデータをWAV形式に変換し、Whisper APIで文字起こしします。文字起こし内容から、GPT-4 Turboで住所のみを抽出します。 プロンプト再生で、住所のみを音声出力します。 以下の図は、電話での対話の流れを示しています。 前提 2023年11月時

                          Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO
                        • ひたちなかの新フェスに行ったこと - WASTE OF POPS 80s-90s

                          23日、2日間のうち1日だけですが、ROCK IN JAPANが去ったひたちなか市で新たに立ち上がった新フェス「LuckyFM Green Festival」に行ってまいりました。 事前からいろいろ確認したりしていましたので、ある程度時系列で。 <事前> ROCK IN JAPANが、それまでのひたちなかでの開催ではなく、千葉市の蘇我スポーツ公園で開催されることが発表されたのが2022年1月5日の正午。しかしその数時間後には具体的な内容等の発表はなかったものの、国営ひたちなか海浜公園で今夏新フェスを開催します、という声明が。 具体的な日程とフェス名、第1弾ラインナップが発表されたのは4月28日。 開催まで3か月を切った中での告知開始というのは新しいフェスとしては致命的なほど遅く、かつ発表された7/23-24という日程は、浜松市の渚園でFUNDAY PARK FESTIVAL、大阪市舞洲でO

                            ひたちなかの新フェスに行ったこと - WASTE OF POPS 80s-90s
                          • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                            画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                              無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
                            • インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog

                              地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 なんだかAIって流行ってますよねー こんにちわ。九州支社で細々と遊んで検証業務にいそしんでいるとみーです。 2022年3月から、どーしても「名前だけ知ってる状態」ってのにもやもやしていて、Deeplearningに手を付けたものの、あまりに内容が奥深すぎて沼にドはまりして周囲に「たすけてぇ、たすけてぇ」って叫んでいる素敵な日々を過ごしています。 取りあえず画像処理としてディープフェイク、NLP(Natural Language Processing:自然言語処理)として簡易チャットボ

                                インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog
                              • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                                OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                                  音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                • Vtuberにも人気のAIボイスチェンジャーが新音声変換エンジンを追加し、Voidol 2へ。声は自在に作り込む時代に|DTMステーション

                                  自分の声をAI機能でアイドルの声やキャラクタの声などにリアルタイムに変換するユニークなソフトとして、これまでも何度か紹介してきたVoidol。これはクリムゾンテクノロジー株式会社が開発するリアルタイム音声変換技術「リアチェン voice」を搭載したアプリケーションで、VTuberやゲーム実況などの世界でも幅広く使われているWindowsおよびMacで動作するソフトとなっています。 そのVoidolがこれまでのAIリアルタイム音声変換機能に加えて、まったく新たな音声変換エンジンを搭載し、Voidol 2へとメジャーバージョンアップすることが関係者への取材から分かりました。正式な発表・発売は10月20日になるとのこと。税込み価格は13,200円(12月26日までは発売記念価格の8,800円)が予定されています。今回Voidolに加わった最大のポイントは、声をリアルタイム処理でシンセサイジングす

                                    Vtuberにも人気のAIボイスチェンジャーが新音声変換エンジンを追加し、Voidol 2へ。声は自在に作り込む時代に|DTMステーション
                                  • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                                    無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                                      無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                                    • whisper.cppのCore ML版をM1 MacBook Proで動かす

                                      OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順をなぞりつつ手元のMBPで動かしてみたメモ。 なお、実行環境は以下の通り: MacBook Pro M1 Max 64GB macOS Ventura 13.3.1 Core MLモデルの生成手順 依存パッケージのインストール whisper.cppのCore MLモデルの作成に必要なパッケージをインストールする。

                                        whisper.cppのCore ML版をM1 MacBook Proで動かす
                                      • 🌶️ IMHO 🌶️ - Rich Harris on frameworks, the web, and the edge.

                                        この記事はSvelte/Sveltekitの作者であるRich Harris氏による講演「🌶️ IMHO 🌶️」を翻訳したものです。 この記事の作成には、Whisperによる書き起こし、DeepLおよびChatGPTによる翻訳を補助的に使用しています。 また、本文中には適宜訳注を入れています。 この場を借りて、翻訳を許可していただいたRich氏、 またこの翻訳をきめ細かくレビューしていただいたtomoam氏、英文解釈の相談に乗っていただいたshamokit氏へ感謝を表明したいと思います。 So, I'm going to be giving a talk tonight called In My Humble Opinion, and it's a collection of loosely connected thoughts about recent trends in front

                                          🌶️ IMHO 🌶️ - Rich Harris on frameworks, the web, and the edge.
                                        • 音声文字起こし技術で業務効率化: Google Text to Speech と OpenAI Whisper の活用 - STORES Product Blog

                                          こんにちは、CTO室技術基盤グループの id:hogelog です。 STORES Product Blog でも多くの文字起こし記事がありますが、社内重要会議の文字起こしなど STORES 社内には様々なところで音声の文字起こし業務が存在します。そんな文字起こし業務ですが完全に人力で実施するのは作業コストがかなり高いです。今日はそのような業務を効率化する音声文字起こし技術とその変遷について紹介します。 Google Text to Speech の活用 以前 論より動くもの.fmを支える技術 〜Podcast初心者が使っているツール紹介〜 - STORES Product Blog でも紹介しましたが STORES 社内では Google Text to Speech が STORES 社内の様々な文字起こし業務に活用されてきました。 product.st.inc Google Text

                                            音声文字起こし技術で業務効率化: Google Text to Speech と OpenAI Whisper の活用 - STORES Product Blog
                                          • 将来的に統合失調症になるかどうかが93%の正確性で自動分析可能に

                                            by Pixabay 統合失調症はいまだ治療法が確立していない疾患であり、原因の究明や予防策の開発も急がれています。そんな中、ハーバード大学とエモリー大学の研究者が統合失調症や他の精神障害の前段階にある患者の発言を自動分析し、将来的に病気になる危険性を93%の正確性で予測する機械学習ツールを開発しました。 A machine learning approach to predicting psychosis using semantic density and latent content analysis | npj Schizophrenia (PDFファイル)https://www.nature.com/articles/s41537-019-0077-9.epdf eScienceCommons: The whisper of schizophrenia: Machine lear

                                              将来的に統合失調症になるかどうかが93%の正確性で自動分析可能に
                                            • Frozen2 アナ雪2:結局エルサは誰に呼ばれてた?「Into the Unknown」と「Show Yourself」をプリンセス研究の視点で徹底分析 - westergaard 作品分析

                                              はじめに 今作は、プロモーションのために、「Into the 安納」じゃなくて「Into the Unknown」がものすごく大々的に宣伝されてきました。 ※コチラは忘れもしない公式の初ツイート「イントゥ・ザ・アンノウン」笑 まぁちゃんと直ってよかった。 こういうとこで公式が「イントゥ・”ザ”・アンノウン」って書いちゃうとこあたりまだまだね… 「イントゥ・”ジ”・アンノウン」って書かなきゃ ちゃんとした英語を子どもたちに教えるのも責任だと思う https://t.co/iATeo4tiEP — westergaard❄︎醤油はセルフ‼︎ (@westergaard2319) August 26, 2019 Idina Menzel, AURORA - Into the Unknown (From "Frozen 2"/Lyric Video) ikyosuke.hatenablog.com

                                                Frozen2 アナ雪2:結局エルサは誰に呼ばれてた?「Into the Unknown」と「Show Yourself」をプリンセス研究の視点で徹底分析 - westergaard 作品分析
                                              • ChatGPTのセキュリティへの影響 | Cloud Security Alliance Japan

                                                © Copyright 2023, Cloud Security Alliance.All rights reserved. 1 Acknowledgements Authors: Kurt Seifried Sean Heide Bogdan Filip Vishwa Manral Lars Ruddigkeit Walter Dula Eric E. Cohen Billy Toney Supro Ghose Marina Bregkou Additional Staff: Stephen Lumpe (Cover illustration, with assistance from Midjourney) This is a Release Candidate version and is subject to change. © 2023 Cloud Security Allian

                                                • ディズニーアニメ「モアナと伝説の海」で使われる英単語を分析しました~ディズニーアニメで英語学習~ - 塾の先生が英語で子育て

                                                  海外映画を使って楽しく英語学習ができれば最高ですね。 これまで6つの映画で使われる英単語を分析してきました。www.jukupapa.com ディズニー映画は英語学習に最適です。 世界中の人に分かりやすいように作られています。 大人にも子どもにも、非ネイティブにとっても分かりやすい英語が使われています。 今回はディズニーアニメ「モアナと伝説の海」(Moana)で使われた英単語を調べてみました。 モアナと伝説の海 (吹替版) 発売日: 2017/05/12 メディア: Prime Video それではどのような単語が使われているか見ていきたいと思います。 また、記事の後半では「モアナと伝説の海」を英語で見るために知っておきたい英単語も合わせてご紹介します。 ネタバレしないように紹介します。 この記事を読んでから「モアナと伝説の海」を見れば、英語で聞くことが簡単になるかもしれません。 尚、英単

                                                    ディズニーアニメ「モアナと伝説の海」で使われる英単語を分析しました~ディズニーアニメで英語学習~ - 塾の先生が英語で子育て
                                                  • 韓国では夏の定番に?日本発「シティ・ポップ」が世界で人気のワケ | FRIDAYデジタル

                                                    東京2020でも、開会式の前後に大貫妙子や山下達郎がBGMとして流れたという。インターネットによって2015年あたりから世界同時多発的にヒットし始めた「シティ・ポップ」。もはやグローバルスタンダードということか(写真:アフロ) 日本のシティ・ポップが世界的に注目されてから久しい。韓国ではK−POPが独走態勢かと思いきや、もはや「夏といえばシティ・ポップだろ」的な風物詩になっているという。竹内まりやの「プラスティック・ラブ」はアンセム。1986オメガトライブの「君は1000%」もサビで大合唱。一体現地はどんな感じなのか。韓国でミュージシャン、DJとして活躍する長谷川陽平氏に聞いた。 長谷川さんがクラブでかけるレコードのごく一部。リアルタイムではなくても知っている曲は多いんじゃないだろうか 山下達郎、杏里、松任谷由実…わかりやすいサビの英語にグッとくる 韓国には日本文化の流通を法律規制してきた

                                                      韓国では夏の定番に?日本発「シティ・ポップ」が世界で人気のワケ | FRIDAYデジタル
                                                    • なぜ、人は「ChatGPT」と「ChatGTP」を間違えるのか? ChatGPTの答えは……

                                                      なぜ、人は「ChatGPT」と「ChatGTP」を間違えるのか? ChatGPTの答えは……:ChatGPTに聞いてみた 対話型AIサービスでおなじみの「ChatGPT」ですが、時たま、「ChatGTP」と言い間違えているシーンを見かけます。 ChatGPTの「GPT」とは「Generative Pre-trained Transformer」の略称で、OepnAIが開発したAI言語モデルの一種。直訳すると「生成型(Generative)事前学習(Pre-trained)変換器(Transformer)」。トランスフォーマーは、文章に含まれる単語など、連続したデータの関係を追跡して文脈や意味を学習するニューラルネットワークの一種。つまりGPTは、あらかじめ学習した言語データに基づいて、文脈に即した文章やテキストを生成できる言語モデルということです。それをチャットするように利用できるのでCh

                                                        なぜ、人は「ChatGPT」と「ChatGTP」を間違えるのか? ChatGPTの答えは……
                                                      • Whisperで話者分離ができる!会議や録音データを素早く文字起こし - Qiita

                                                        この記事はSafie Engineers' Blog! Advent Calendar 8日目の記事です。 はじめに 映像から取得できる1時間程度の映像(ムービークリップ)を文字起こししたいという要望があったので、文字起こしシステムを作ってみました。 備忘録も兼ねて実施したことをまとめておこうと思います。whisperはOpenAI社が公開している高精度の文字起こしが可能なモデルになります。 文字起こしにwhipsperを使った決め手は以下です。 AWS Transcribeより高精度 pythonで素早く試せる MITライセンス AWS Transcribeで可能な話者分離ができないことが懸念でしたが、話者分離も別のモデルを組み合わせれば実現可能と思いwhipserに決めました。 アーキテクチャ whisper単体では処理の限界があったので、いくつか工夫を加えた結果上記のようなアーキテク

                                                          Whisperで話者分離ができる!会議や録音データを素早く文字起こし - Qiita
                                                        • 【和訳あり】Peppa Pigの「The Tree House」で字幕なし英語動画に挑戦! - 塾の先生が英語で子育て

                                                          Peppa Pigの「The Tree House」で字幕なし英語動画に挑戦! 海外アニメを使って楽しく英語学習ができれば最高ですね。 「Peppa Pig」は日本で手軽に見られる英語アニメの中でも、もっとも簡単な番組のひとつです。 そして日本のアンパンマンのように、イギリスで親しまれているキャラクターです。 「Peppa Pig」については、こちらで詳しく解説しています。 www.jukupapa.com この記事では「Peppa Pig」の実際の動画を使って、英語多観の練習ができるように構成されています。 この記事に沿って英語多観をして頂ければ、聞き取れる、理解できる英語表現が多くなっていることを実感できるはずです。 Peppa Pigの「The Tree House」で字幕なし英語動画に挑戦! 練習の流れ 第37話「The Tree House」 動画の原稿、スクリプト(script

                                                            【和訳あり】Peppa Pigの「The Tree House」で字幕なし英語動画に挑戦! - 塾の先生が英語で子育て
                                                          • OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」

                                                            OpenAIが発表した音声認識モデル「Whisper」は、日本語の音声でも精度高く文字起こしできるツールとして知られています。今回はAIsmiley編集部が「AIニュース原稿の読み上げ音声を素材にどのくらい精度高く文字起こしできるのか」や「生活騒音下における読み上げ音声でも結果は変わらないのか」について調べてみましたので是非やり方を真似して試してみてください。 ■音声認識モデルとは? 音声認識モデルとは、AIが人間の声を認識し、認識した音声をもとに何らかのデータをアウトプットする技術を指します。身近な音声認識モデルには、アレクサでお馴染みのAmazon Echoがあります。Amazon Echoなどのスマートスピーカーは、人間の声を認識し、その音声の意図を把握した後、情報検索を行ったり、接続されている電化製品の操作を行ったりします。 スマートスピーカーの他にも、入力された音声をリアルタイム

                                                              OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」
                                                            • ChatGPTの仕組みと社会へのインパクト

                                                              の仕組みと 社会へのインパクト 黒橋 禎夫 京都大学・教授/NII・所⾧特別補佐 第62回 大学等におけるオンライン教育とデジタル変革に関するサイバーシンポジウム(令和5年3月3日) ChatGPTとは • OpenAIが2022年11月に公開した大規模言語モデルに基 づくチャットボット • OpenAIは2015年末にサム・アルトマン、イーロン・マ スクらによって設立されたAI研究所。マイクロソフト も出資 • 自然言語からの画像生成モデルDALL-E、 音声認識モデルWhisperなども開発 • 本社はサンフランシスコ https://openai.com/ https://openai.com/dall-e-2/ An astronaut riding a horse in a photorealistic style 2 目 次 1. ChatGPTの振る舞い 2. Ch

                                                              • 『すずめの戸締まり』新海誠監督が影響受けた、オススメしている作品 - 社会の独房から

                                                                今もっとも勢いのあるアニメ映画監督といえば『君の名は。』『天気の子』そして『すずめの戸締まり』と大ヒットを続けている新海誠で異論はないと思う。 今回はそんな新海誠監督に影響を与えてきたり、オススメしている作品をまとめたので紹介していく。SF小説と、ダメな大人が出てくる作品が多め。 ダ・ヴィンチ 2022年12月号 より ダ・ヴィンチ 2022年12月号 [雑誌] 『三体』 劉慈欣著 三体 作者:劉 慈欣 早川書房 Amazon 中国のSF作家劉慈欣による長編小説。現代でSF小説といえば本作といっても過言ではない程有名なので、読んだことない人でもタイトルぐらい聞いたことある人は多いだろう。全5巻と長いのでAudibleで聞くのもアリ。映像化も予定されている。 本の雑誌であるダ・ヴィンチらしい質問としてオススメの本の質問に対して新海誠監督は『三体』と答えている。スペースでも同じようにオススメし

                                                                  『すずめの戸締まり』新海誠監督が影響受けた、オススメしている作品 - 社会の独房から
                                                                • 1本50円で外注できるAIソフトウェア開発環境「ChatDEV」、人の声を理解する言語モデル「LLaSM」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                                  2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第10回目はAIによるソフトウェア開発支援、音声を理解できる言語モデル、人物画像学習の新たな手法など、5つの論文をまとめました。 生成AI論文ピックアップテキスト指示からソフトウェアを自動開発するチャットベースのAIフレームワーク「ChatDEV」 人が話す声とやり取りする大規模言語モデル「LLaSM」 テキスト指示で高品質な動画編集ができるAI「MagicEdit」 中国ByteDanceの研究者らが開発 顔の特徴を保持した新しい人物写真を生成するAI「FaceChain」 中国アリババグループの研究者らが開発 映像内の動く人や物を分離する手法「VideoCutLE

                                                                    1本50円で外注できるAIソフトウェア開発環境「ChatDEV」、人の声を理解する言語モデル「LLaSM」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                                  • 灘東大卒がキャリアを捨て無職、0からシリコンバレーで起業するまでの話|Eisuke Hirata

                                                                    はじめまして シリコンバレーでAI×Edtech領域のプロダクトを開発しています平田叡佑(ひらたえいすけ)といいます。 英語も起業も分からない中シリコンバレーに来て2年が経ち、簡単にこれまでのことを振り返ろうと思います。 スタートアップ起業がキャリアの選択肢として認識されるようになった今でも、まだまだグローバルで起業する人は少ないように感じます。 自分自身チャレンジがやっと始まったばかりですが、これから起業を考えている人や海外でチャレンジしたい人にぜひ自分の体験を参考にしてもらえれば嬉しいです。 灘中受験時代小学校最初の頃は学校の授業についていけず、何度やってもくり下がりの引き算が全く理解できなくて泣きながら勉強しているような子供でした。 親や先生の顔色だけを伺ってまともに集中せず、授業中はよくぼーっとしてました。 ただ教育熱心だった両親に関西でもトップクラスの塾へ通わせてもらい、学校で分

                                                                      灘東大卒がキャリアを捨て無職、0からシリコンバレーで起業するまでの話|Eisuke Hirata
                                                                    • OpenAI APIをRubyアプリケーションに統合する(翻訳)|TechRacho by BPS株式会社

                                                                      概要 元サイトの許諾を得て翻訳・公開いたします。 英語記事: Integrate OpenAI API in Ruby applications | Saeloun Blog 原文公開日: 2023/05/22 原著者: Gowsik Vivekanandan サイト: Saeloun Blog OpenAI APIの情報は移り変わりが早いのでご注意ください。最新の情報については以下などの公式情報をご覧ください。 参考: Guides | OpenAI Help Center 参考: GPT best practices - OpenAI API なお、サンプルコードにあるOpenAI APIの出力結果の日本語訳には、OpenAI APIによる機械翻訳の出力結果を使っています。 🔗 ChatGPTについて ChatGPTは、OpenAIが開発した人工知能(AI)チャットボットであり、人間

                                                                        OpenAI APIをRubyアプリケーションに統合する(翻訳)|TechRacho by BPS株式会社
                                                                      • 【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL

                                                                        【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた 2024 2/20 WEELメディア事業部LLMリサーチャーの中田です。 1月18日、Whisperを利用したText-to-Speechモデル「WhisperSpeech」のアップデート版を、Collaboraが公開しました。 このAIモデルを用いることで、テキストを入力するだけで、簡単にそのテキストを(AIが)読み上げることができるんです、、、! 参考:https://github.com/collabora/WhisperSpeech GitHubでのスター数は、すでに1700を超えており、期待度が高いことを示しています。 この記事ではWhisperSpeechの使い方や、有効性の検証まで行います。本記事を熟読することで、WhisperSpeechの凄さを実感し、そこら

                                                                          【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL
                                                                        • UXリサーチでAIが使えるか検証してみた

                                                                          AI はリサーチに使える?ここ数年、インタビューをはじめとした定性調査のデータベース化やインサイトの整理の支援をしています。データベースはプロジェクト単位では見え難い、横断的な傾向が見える場合があるものの、運用コストがかかります。 短期的なメリットが見え難いだけでなく、運用負荷がかかるので片手間では続きません。インタビューのように文字起こしや要点をまとめるなど時間がかかる作業が多いのも長続きしない理由です。 こうした課題を解決するための自動化をいろいろ試していますが、昨年から AI(人工知能)をリサーチ分析に使えないか検証を始めています。例えば Google の Cloud Natural Language でテキストマイニングをし、ユーザーが使っている言葉の頻度を視覚化できないか試していました。ユーザーフィードバックをマイニングするだけでも、どの機能への要望があるのか見えて興味深い結果に

                                                                            UXリサーチでAIが使えるか検証してみた
                                                                          • OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能

                                                                            OpenAIが日本時間の2024年5月14日(火)にAIモデル「GPT-4o」を発表しました。GPT-4oは単一のモデルでテキスト、音声、視覚入力を非常に高速に処理可能で、リアルタイムに会話しながら「計算問題を解く」「画像の生成」「周囲の映像から状況を判断」といったタスクを実行可能です。 Hello GPT-4o | OpenAI https://openai.com/index/hello-gpt-4o/ Introducing GPT-4o and more tools to ChatGPT free users | OpenAI https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/ GPT-4oはテキスト、音声、視覚入力を高速処理できるマルチモーダルなAIモデルです。GPT-4oの応答時間は平均320ミリ秒で、

                                                                              OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能
                                                                            • OpenAI Dev Day 2023 まとめ - 吉田の備忘録

                                                                              今朝、サンフランシスコで開催された OpenAI Dev Day 2023 での発表内容をまとめました。 発表された6つのテーマ 今回のアナウンスメントは主に6つのテーマで発表されていました。 コンテキストの長さの拡張(Context length)より多くのコントロール(More Control)より多くの知識(Better Knowledge)新しいモダリティ(New modalities)カスタマイズ性(Customization)より実行上限(Higher rate limits)+価格改定 GPT-4 Turboの導入 より高い能力を持ち、2023年4月までの世界の出来事に関する知識を有しています。128kのコンテキストウィンドウをサポートし、一度のプロンプトで300ページ以上のテキストに相当する情報を処理することができます。さらに、パフォーマンスが最適化されており、入力トークン

                                                                                OpenAI Dev Day 2023 まとめ - 吉田の備忘録
                                                                              • OpenAIは”GPT”を商標登録できるのか(栗原潔) - エキスパート - Yahoo!ニュース

                                                                                LLM(大規模言語モデル)の代表的存在であるGPT、および、その応用ChatGPTが、情報通信技術、そして、ビジネスの世界に革新的影響を与えていることに議論の余地はないでしょう(厳密には比較対象ではないですが、「メタバース」がすっかりかすんでしまいましたね)。 当然ながら、GPTという言葉には多大な顧客吸引力が生まれています。既に、イーロン・マスクがTruthGPTなる名称のLLMを開発する意向を表明するなど、放っておくとGPTという言葉が一般化して識別力がなくなるリスクがあります。と思っていたら、まさに本日、OpenAIがブランドに関するガイドラインを出していました。 かいつまんでいうと、「ホニャララGPT」というパターンは使用できず、「ホニャララ Powered by GPT」等の表記にする必要があるとされています(したがって、TruthGPTという表記もNGとなります)。早速、これに

                                                                                  OpenAIは”GPT”を商標登録できるのか(栗原潔) - エキスパート - Yahoo!ニュース
                                                                                • 【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所

                                                                                  5月14日、日本時間深夜2時よりOpenAIのイベントが開催されました。 イベントの内容は、AIの新しい時代の幕開けを予感させる衝撃的な発表となりました。 注目すべきは、 最新モデル「GPT-4o」の登場 無料ユーザーへの解放 の二つです。 これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。 今回は、このOpenAIの最新アップデートの内容を詳しく解説していきます! 新しく発表されたGPT-4oとは?5月14日のイベントで発表された最新モデル「GPT-4o」(oはomniの略:【omniは「全ての」を意味する】)は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。 主な特徴マルチモーダル対応:テキスト、音声、画像の組み合わせを入力として受け取り、同様に多様な形式の出力を生成可能。 高速応

                                                                                    【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ|ChatGPT研究所