並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 665件

新着順 人気順

Whisperの検索結果1 - 40 件 / 665件

  • クレディセゾンでDXを進めてきた5年間を振り返る|小野 和俊

    はじめにクレディセゾンに来てちょうど5年が経ったので、これまでの取り組みをまとめてみようかと思う。書き進めていくうちにとても長くなってしまったので、1年につき3トピックに絞ってあとはカットした。それでも5年分なこともありかなり長くなったので、目次から各トピックに飛んでもらえればと思う。社内の関係者も読むかもしれず、「自分のやったことが載ってない!」と思うこともあるかもしれないが、内製開発案件だけでも53案件あり全部載せるととんでもない量になるので許してほしい。それから、振り返ってまとめると退職すると勘違いされるかもしれないけれど、退職するわけではありません! 2019年:ゼロからのスタート1-1. 内製開発エンジニア募集を始める「日本のそれなりの規模の事業会社の中に、内製開発チームを立ち上げることはできるのだろうか?」 2019年3月、クレディセゾンに来たばかりの私にとってはこの質問への答

      クレディセゾンでDXを進めてきた5年間を振り返る|小野 和俊
    • 日本のアニメ映画を米Pasteが厳選「歴代ベスト・アニメ映画 TOP100」発表 - amass

      日本のアニメ映画を、米国のエンタテインメント系メディアPaste Magazineが厳選。「歴代ベスト・アニメ映画 TOP100」を発表しています。 Pasteは以前に、日本のTVアニメ・シリーズを厳選した「歴代ベスト・アニメ・シリーズ TOP30」を発表しています。詳しくはこちら 100. The Boy and the Beast (2015) バケモノの子 99. Mobile Suit Gundam F-91 (1991) 機動戦士ガンダムF91 98. On-Gaku: Our Sound (2021) 音楽 97. Ah! My Goddess: The Movie (2000) 劇場版 ああっ女神さまっ 96. Dallos (1983) ダロス 95. When Marnie Was There (2014) 思い出のマーニー 94. A Dog of Flanders (

        日本のアニメ映画を米Pasteが厳選「歴代ベスト・アニメ映画 TOP100」発表 - amass
      • 「思考を整理する方法」を模索して辿り着いた先|Yuki Fujisaki|DeployGate Inc.

        こんにちは。DeployGateの藤﨑です。 仕事をしていると、とにかく考えて答えを出さないといけないことが数多くあります。すぐ思いついてアウトプットできることならいいのですが、大事なものは大体、どこから考え始めればいいのか分からないことだったり、なんとなく浮かんでいるんだけどうまく言語化できないものだったりします。 そんなときに、どうやってその状況を抜け出して、話を深めていくか。今日は、最近自分がやってみて、とても効果を感じられた手法について紹介します。 これまでの手法自分が考え事をする上で、まずやるのはテキストで書き出すということでした。何らか課題について考えるときは、ひたすら箇条書きで考えを書き出していくということをします。だいたいNotionにページを作って箇条書きでひたすら書き出しています。 それ以外だと、やはり紙とペンです。長年適当なコピー用紙→ノート→コンパクトなメモ…と移り

          「思考を整理する方法」を模索して辿り着いた先|Yuki Fujisaki|DeployGate Inc.
        • GWにChatGPTについて振り返りたい人向けまとめ - まなめはうす

          今や毎日耳にするChatGPTだけれど、そもそもどんな風に話題になってきたのかをこのGWを利用して振り返りたいって人もいるはず。そんな人のためにChatGPT関連ニュースをまとめておきましたので、ぜひご利用ください! 良い振り返りで、良い人生を。 このタイトルだけでもChatGPTに食わせて、話題の流れをまとめてもらうのが一番かも? 週刊東洋経済 2023/4/22号(ChatGPT 仕事術革命) 作者:週刊東洋経済編集部東洋経済新報社Amazon 2020/06/01 あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」が公開 - GIGAZINE 2020/07/21 GPT-3の衝撃 - ディープラーニングブログ 2020/07/22 「GPT-3」は思ってたより「やばい」ものだった。話し言葉でプログラミングまでこなすAI

            GWにChatGPTについて振り返りたい人向けまとめ - まなめはうす
          • 30分で完全理解するTransformerの世界

            はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

              30分で完全理解するTransformerの世界
            • AI 激動の年!2022年の人工知能10大トレンドと必読論文

                AI 激動の年!2022年の人工知能10大トレンドと必読論文
              • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                  文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                • セキュリティ担当者がChatGPTの業務利用方針を検討するうえでの留意点

                  目次[非表示] 1.はじめに 2.AI関連の指針・原則・ガイドラインの動向 2.1.国内における分野横断の主なAI関連の指針・原則・ガイドライン 3.ChatGPTの業務利用に関する動向 3.1.ChatGPT等の業務利用を推進する企業様のニュース 3.2.ChatGPTの業務利用を制限・禁止する企業様のニュース 3.3.AIサービスの業務利用に関するガイドライン策定のニュース 4.ChatGPTのプライバシーポリシーと利用規約における留意点 4.1.情報漏えい 4.2.情報の正確性 4.3.参照 5.ChatGPT Web版の業務利用における情報セキュリティ上の留意点のまとめ 5.1.情報漏えい 5.2.情報の正確性 6.まとめ はじめに昨今、ChatGPTに関する話題に注目が集まるなか、「業務利用」について検討される企業様が増加しています。実際に、クラウドリスク評価「Assured(ア

                    セキュリティ担当者がChatGPTの業務利用方針を検討するうえでの留意点
                  • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                    株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                      超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                    • DALL-E3 (ダリスリー) の無料教科書:初級編|プチpony

                      DALL-E3を実装日からほぼ毎日使用し面白さにとりつかれています。何となくで触っているため, いまいち思った画像が出来ないことも多々ありましたので今回まじめに作成法を勉強してみました。初級編と名前がついているのは高等テクニックを教えるほどの技術がないだけで後に上級編が控えているという意味ではないです。 0. はじめに DALL-E とはシンプルなテキストのみで画像がつくれるAIです。 簡単なテキストのみで画像生成語源は『ウォーリー探せ』と芸術家の『ダリ』から来ているみたいです。ウィーリーはある種の「探し物」をする, userが提示するテキストのプロンプトから隠された要素やまだ見ぬ画像を「探し出し」生成することらしいです。 ウォーリーをインスパイアした少年1. 問題点, 主に著作権やはり何と言っても著作権問題ではないでしょうか。現在法整備が進行しているところです。OpenAIはコンテンツポ

                        DALL-E3 (ダリスリー) の無料教科書:初級編|プチpony
                      • 文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉

                        どうもこんにちは、あんどう(@t_andou)です。 前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。 「Youtubeの」と書いていますが、実際はどの動画でも対応してます。 前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え 上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続 下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロード ここにドラッグ&ドロップでアップできます 大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更 ファイル名に合わせて変更してください 5.全セルを実行 あと

                          文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
                        • 愛すべき昔の歌ヘタアイドルたち

                          https://anond.hatelabo.jp/20200924204657 これを読んで、増田の訴えたいことはともかく、確かに懐メロ番組とかの影響で、 昔のアイドルはみんな歌がうまかったみたいに思い込んでいる人が多いよな~と思ったので アイドルオタの間で特に言及されがちな人、個人的に下手だな~と思った人の中からめぼしい所をピックアップしてみる。 (中にはアイドルか?って思う人もいるだろうが、一応全員アイドル物のオムニバスCDに入ってたりしてるんですわ) URL貼りまくると投稿できないんで、どうしてもこれはって奴だけURL付き。 下手だけどみんな味があって良いので、気になるアイドルがいたら色々聞いてみて欲しい。 ブコメで結構言及されていた浅田美代子と、わざわざ触れなくても名前が出そうな超メジャー所(松本伊代とか)は省く。 あいつがいないという人が出るだろうけどそこは申し訳ない。 (追記

                            愛すべき昔の歌ヘタアイドルたち
                          • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                            画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                              OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                            • Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|にょす

                              日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました! しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です!(笑) シャべマルの紹介具体的には、、 絵文字で見返せるメモアプリあんまりないですが、良いですよ…!音声入力でメモ内容を作成。かなり高精度な音声認識モデル(Whisper)を用いているので、想像以上にちゃんと文字起こししてくれます! 「今日あったこと」など、日記として利用するのもオススメです。1日を振り返る機会になって、それが後から振り返りできるので、あの時こんなこと考えていたなー、といった発見につながるはずです! そして個人的にここが目玉なのですが、文字起こしされたメモには、「タイトル」「絵文字アイコン」「感情アイコン」「カテゴリ」が自動で紐づきます! これ何が良いかというと、圧倒的に見返しやすくなるんですよね

                                Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|にょす
                              • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                  超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                • 英語学習は AI と行う時代がついに到来!? ChatGPT と LINE Bot でオンライン英会話アプリ「Small GPTalk」を作ってみた | DevelopersIO

                                  こんにちは。CX 事業本部 Delivery 部のきんじょーです。 ChatGPT の API がついに提供されたということで、チャット AI 界隈が盛り上がっていますね。 このビッグウェーブに乗り遅れてはいけないと思い、ChatGPT の優れた自然言語処理能力を活かして LINE で英会話の練習をする「Small GPTalk」というサービスを作ってみました! アプリの紹介と、アプリ作成を通して感じた ChatGPT の可能性についてブログ化していきます。 Small GPTalk とは Small GPTalk は、ChatGPT から派遣された AI 英語講師と LINE 上で SmallTalk(世間話) を楽しむためのアプリです。 レッスンが始まると、講師はトピックを提示してくれます。好きなトピックを選んで講師と会話を楽しみましょう。 レッスンを終わるときは「終わります」と伝えて

                                    英語学習は AI と行う時代がついに到来!? ChatGPT と LINE Bot でオンライン英会話アプリ「Small GPTalk」を作ってみた | DevelopersIO
                                  • 自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告

                                    AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから

                                      自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告
                                    • https://twitter.com/hiraoka_dx/status/1638658560170274818

                                        https://twitter.com/hiraoka_dx/status/1638658560170274818
                                      • https://twitter.com/buffett_code/status/1605488460659392514

                                          https://twitter.com/buffett_code/status/1605488460659392514
                                        • 音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力

                                          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が開発した「DualVoice: A Speech Interaction Method Using Whisper-Voice as Commands」は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術だ。文字入力以外のコマンド入力と音声認識ミスによる修正は、通常の声とは別に「ささやき声」で操作する。通常の声とささやき声を使い分ける方法で、ハンズフリーの完全な音声入力を実現する。 音声による文字入力はタイピングに比べて格段に速いため、アイデアを書き留めたり、原稿を素

                                            音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力
                                          • PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

                                            PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan

                                              PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
                                            • 「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】

                                                「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】
                                              • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

                                                以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

                                                  OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
                                                • ChatGPT×Whisperで履歴書と職務経歴書づくりを効率化 開発してみてわかった、生成AIの活かし方

                                                  大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント「ChatGPT IN ACTION 実践で使う大規模言語モデル」。株式会社ROXXからは、CTOの松本宏太氏が登壇。「ChatGPT×Whisper」で作ったプロトタイプを紹介しました。 ROXX社・CTO松本宏太氏 松本宏太氏:弊社は「ChatGPT×Whisper」でいろいろプロトタイプを作っているので、その中の事例を1つ紹介して、そこで学んだ内容をもとに、今後の展望をお話できればなと思っています。 (スライドを示して)今日は、こういう感じで話していこうかなと思っています。まず、自己紹介をさせていただきます。 あらためて、株式会社ROXXでCTOをやっている松本と申します。「kotamat」という名前でいろいろやっているのですが、もとも

                                                    ChatGPT×Whisperで履歴書と職務経歴書づくりを効率化 開発してみてわかった、生成AIの活かし方
                                                  • ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp

                                                    ChatGPT APIの使い方 実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール 今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは!"}] ) print(complet

                                                      ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
                                                    • 稲田豊史『映画を早送りで観る人たち』感想〜万人の万人に対する象徴闘争から覚醒させられる「編集権の簒奪」というチートスキル - 太陽がまぶしかったから

                                                      映画を早送りで観る人たち なぜ映画や映像を早送り再生しながら観る人がいるのか――。なんのために? それで作品を味わったといえるのか? 著者の大きな違和感と疑問から始まった取材は、やがてそうせざるを得ない切実さがこの社会を覆っているという事実に突き当たる。一体何がそうした視聴スタイルを生んだのか? いま映像や出版コンテンツはどのように受容されているのか? あまりに巨大すぎる消費社会の実態をあぶり出す意欲作。 映画を早送りで観る人たち~ファスト映画・ネタバレ――コンテンツ消費の現在形~ (光文社新書) 作者:稲田 豊史光文社Amazon 本書は『「映画を早送りで観る人たち」の出現が示す、恐ろしい未来(稲田 豊史) | 現代ビジネス | 講談社(1/6)』から始まった早送り論についての、派生記事のとりまとめや書き下ろしを含んだ総括である。コンテンツの消費者にも、脚本家にもインタビューしており、ま

                                                        稲田豊史『映画を早送りで観る人たち』感想〜万人の万人に対する象徴闘争から覚醒させられる「編集権の簒奪」というチートスキル - 太陽がまぶしかったから
                                                      • [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO

                                                        [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。 コールセンターでは、有人対応から無人対応に変更したいニーズが増えているように思います。 電話予約の無人対応を想定し、1回の発話で、下記の5つの予約情報を抽出できるか確認します。 お名前 電話番号 予約日 予約時間 人数 発話で予約情報を抽出する方法として、GPT-4 Turbo のJSONモードを利用します。 JSONモードの詳細は、下記を参照ください。 例えば、「名前はクラスメソッドで、電話番号は09011111111。来週の火曜日の19時に4名で予約できます

                                                          [電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO
                                                        • OpenAIが「GPT-4」を一般公開し誰でも利用可能に、ChatGPT内でコードを実行する機能も正式リリース

                                                          OpenAIが高性能モデル「GPT-4」のAPIを一般公開しました。また、ChatGPT Plusの会員向けにコード実行プラグイン「Code Interpreter」の一般公開も予告されています。 GPT-4 API general availability and deprecation of older models in the Completions API https://openai.com/blog/gpt-4-api-general-availability GPT-4 API is now available to all paying OpenAI API customers. GPT-3.5 Turbo, DALL·E, and Whisper APIs are also now generally available, and we’re announcing a

                                                            OpenAIが「GPT-4」を一般公開し誰でも利用可能に、ChatGPT内でコードを実行する機能も正式リリース
                                                          • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                                                            自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                                                              自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                                                            • AIの進歩とつらみについて - Qiita

                                                              こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はAIの進歩にともなうヒトの役割にかんするポエムを書いていきます! なにについて書いてある文章か AI※の進歩ってすごいよね AIがなんでもできるようになったら、ヒトは何を思うか ※AIって気軽に使う世界になったのもすごい. なお、MicrosoftはすでにAGI as a serviceについて考えている: https://thegenerality.com/agi/ さいきん思うこと 言語モデルや生成モデルの進歩は凄まじくて、どんどん知的な活動がAIに置き換えられて行きそうな空気を感じます。じっさい、イラストを描くことやプログラミングを実装することなどは、かなりできるようになってきています。 今回は、こうした人間しか出来ないと思われていたことが、どんどんAIができてくることによって、何が起き

                                                                AIの進歩とつらみについて - Qiita
                                                              • ChatGPT APIを取り巻くライブラリ 〜LangChainとguidanceの紹介 | gihyo.jp

                                                                こんにちは! 逆瀬川(@gyakuse)です! 前回はOpenAIが公開しているChat APIとWhisper APIを用いて議事録文字起こしアプリケーションを作ってみました。今回は、Chat APIを便利に使うためのライブラリであるLangChainとguidanceを紹介していきます。 なぜ便利に使うためのライブラリが必要なのか? 単純にChat APIにリクエストを送るだけであれば、各言語に用意されたライブラリを使うだけで良いでしょう。たとえば、Pythonにおいてはopenai-pythonが用意されています。前回紹介したとおり、Chat APIを使うだけなら以下のようなリクエストを作るだけで済みます。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create

                                                                  ChatGPT APIを取り巻くライブラリ 〜LangChainとguidanceの紹介 | gihyo.jp
                                                                • 2022年の深層学習ハイライト - Qiita

                                                                  はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。 研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,

                                                                    2022年の深層学習ハイライト - Qiita
                                                                  • Introducing ChatGPT and Whisper APIs

                                                                    Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those

                                                                      Introducing ChatGPT and Whisper APIs
                                                                    • ブレインパッドでの8年間を振り返って - 毎日がEveryday、日々 Day by Day

                                                                      新卒から約8年勤めたブレインパッドを3月に退職しました。 「受託分析」という生存/スケールが難しい事業分野で、ブレインパッド社は着々と大きくなり、そこでデータサイエンティストとしてファーストキャリアを過ごせたことは今後の僕の仕事への価値観/方法論に大きく影響を与えたのだろうと思っています。 なので8年経って思い至ったことを忘れないうちにブログにメモしておこうと思います。 新しい職場でこの考えをアップデートしたり壊したりしていきたい。 僕がいた2015年~2023年の激動のデータ/AI分野の業界の流れについてはこちらのpodcastでも話したので良かったら聞いてください🙂 open.spotify.com ※なお、全ての行末には「知らんけど」が省略されていることをご了承ください。 データ分析の仕事 「問題の抽象化・構造化」の価値がますます高くなっている 「現実がこい」: DXとはなんだった

                                                                        ブレインパッドでの8年間を振り返って - 毎日がEveryday、日々 Day by Day
                                                                      • GPT-4に日本語特化モデル OpenAI Japan始動会見で発表

                                                                        米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。 関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。 マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応 米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA

                                                                          GPT-4に日本語特化モデル OpenAI Japan始動会見で発表
                                                                        • WhisperとChatGPTで文字起こし | ドクセル

                                                                          闇のエンジニア/変なデジカメ開発中/ディープラーニング芸人/Raspberry Piとからあげ大好き/はてなブログ書いてます

                                                                            WhisperとChatGPTで文字起こし | ドクセル
                                                                          • OpenAI API で提供されている モデル まとめ|npaka

                                                                            1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデル を提供しています。 ・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。 ・DALL-E : 自然言語から画像を生成・編集するモデル ・Whisper : 音声をテキストに変換するモデル ・Embeddings : 埋め込み (ベクトル表現) を生成するモデル ・Codex : コードを理解および生成するモデル ・Moderation : センシティブおよび 安全でない文章を検出するモデル ・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu

                                                                              OpenAI API で提供されている モデル まとめ|npaka
                                                                            • writeout.ai

                                                                              Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.

                                                                                writeout.ai
                                                                              • 俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ

                                                                                こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。 麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか? 特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。 そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ 現状の点数計算の練習

                                                                                  俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
                                                                                • 高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉

                                                                                  どうもこんにちは、あんどう(@t_andou)です。 今回はOpenAIの高精度な文字起こしAI「whisper」を試してみました。 ただ試すだけでは面白くないのでもう少し実用的なことを…と言うことで、Youtube用の字幕を作ってみました。 実行環境 使用した動画と結果 まずはモデルごとに精度確認 small 処理時間 結果 所感 medium 処理時間 結果 所感 large 処理時間 結果 所感 使用した動画と結果その2 最後に 実行環境 GoogleColabでGPUはT4でした。 使用した動画と結果 以前、リアルな顔がしゃべるAIを作ったので、その動画を使います。 声もAIによるもののため、僕の耳には聞き取りやすいですが、whisperにとってはどうでしょうか。気になります。 (ちなみに、この動画内で話しているニュースの文章もAIによる生成物です。) www.youtube.co

                                                                                    高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉