並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 9 件 / 9件

新着順 人気順

文字起こしの検索結果1 - 9 件 / 9件

  • 時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす

    みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無

      時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす
    • OpenAI の Realtime API の使い方|npaka

      以下の記事が面白かったので、簡単にまとめました。 ・Realtime API 1. Realtime API「Realtime API」は、低遅延なマルチモーダル会話エクスペリエンスを構築するためのAPIです。現在、入出力の両方でテキスト・音声がサポートされており、Function Calling を利用することもできます。 特徴は次のとおりです。 ・ネイティブな音声合成 低遅延でニュアンスに富んだ出力が得られる ・自然で操作可能な音声 自然な抑揚を持ち、笑ったり、ささやいたり、トーンの指示に従うことができる ・同時マルチモーダル出力 テキストはモデレーションに役立ち、オーディオにより安定した再生が保証される 2. クイックスタート「Realtime API」は、「WebSocket」を介して通信するステートフルなイベントベースAPIです。 機能を紹介するデモアプリ「openai-real

        OpenAI の Realtime API の使い方|npaka
      • Notebook LMを活用して音声配信をもっと楽しむ方法

        NotebookLM NotebookLMはGoogleが提供している生成AIを活用したサービスです。なんと(2024年10月現在は)無料で使えます。 NotebookLMは、Googleの生成AI Geminiのロングコンテキスト(多くの量のプロンプトを扱うことができるという意味)の特徴を活かした、文章の要約やQA対応が得意です。文章は、直接プロンプトに入れている(と思われる)ので、単なるRAGとは違う(と思われ)ます。 RAGとロングコンテキストのどっちが良いのかというのは、色々議論があるようです。例えばLost in the Middle: How Language Models Use Long Contextsという論文では「ロングコンテキストの真ん中の情報は失われるよ」みたいなことが書いてありますがRetrieval Augmented Generation or Long-C

          Notebook LMを活用して音声配信をもっと楽しむ方法
        • オートガイネフィリアをめぐって - ohnosakiko’s blog

          トランス女性の女性スペース問題で、「TRA」と「TERF」(トランスの権利擁護の活動家とトランス排除的ラディカルフェミニスト。いずれも蔑称とされているようなのでここでは「」付きで使う)は激しく対立している。対立というか並行線だ。 この話題をめぐって昨日、「TERF」の女性にはオートガイネフィリアに対する忌避感があることについてX(Twitter)で言及したら、いろいろな反応があったので、主なものを紹介したい。 とりあえずこれまでで、オートガイネフィリアについて私が最初にXで目にしていたのはこの動画である。 ⚫︎「オートガイネフィリアとは?」ヘレン・ジョイスの解説(日本語字幕) www.youtube.com 一貫して反「TRA」の立場から語られており、オートガイネフィリアは女装するだけで満足せず、女性スペースに入り女性として扱われようとする人々とされている。この動画が拡散されて、女装したオ

            オートガイネフィリアをめぐって - ohnosakiko’s blog
          • GoogleがSamsungとLenovoのGemini搭載Chromebookを発表、一部のデバイスには新たなキーも追加

            Googleが2024年10月1日に、Samsungの新型Chromebook「Galaxy Chromebook Plus」とLenovoの「Chromebook Duet」を発表しました。両モデルにはGoogleのAI機能「Gemini」が搭載されており、効率的な作業が可能になっているとのことです。 2 new Chromebooks and new AI features to get more done https://blog.google/products/chromebooks/google-chromebook-update-october-2024/ Do less to do more with Gemini on Chromebook Plus - YouTube Google brings new AI features to ChromeOS and announ

              GoogleがSamsungとLenovoのGemini搭載Chromebookを発表、一部のデバイスには新たなキーも追加
            • 自社の社内情報を未来の“ゴミ”にしないための備え 「情報量が多すぎる」時代がもたらす課題とは?

              世の中に生成AIが普及していく中で、多くの企業が「どのように利益を生み出すか」という課題に直面しています。株式会社ベルシステム24のイノベーターズラウンジでは、「AIのゴミ屋敷脱出大作戦」と題したウェビナーが開催されました。ゲストには、先進的なデータ運用やAI活用の取り組みで知られるリバネス社CIOの吉田丈治氏が登壇し、生成AIへの期待や今後の課題について対談を行いました。後編では、今後も増え続けていく膨大なデータの活用の展望を語ります。 “膨大すぎる情報”をどう扱っていくか? 川崎佑治氏(以下、川崎):リバネスでも「情報量が多すぎる」という文句は出るんですか? 世界中の論文などドキュメントをたくさん読み漁ってる人たちでしょうに。情報量が多すぎるというのは、わりとうちの会社や他の会社でも聞かれる声なんですけど。 吉田丈治氏(以下、吉田):やっぱり出ますね。ただでさえ情報量が多いので、読まな

                自社の社内情報を未来の“ゴミ”にしないための備え 「情報量が多すぎる」時代がもたらす課題とは? 
              • 収入多角化:次の収入ネタを探し中 - Be financial freedom. 経済的自由の探求

                こんにちは、株もっちーです。 木曜日は、収入多角化チェックの日にしてみます。 給与収入に頼らない、収入の増大を目指していきます。 収入多角化を目指して調査 というわけで検索 コンテンツ制作関連 フリーランス・副業 デジタル商品販売 投資・金融関連 その他のオンラインサービス 色々出てきました まとめ ランキング・宣伝など 収入多角化を目指して調査 やっぱYouTubeが一番いいのかなーなんて、旅の動画を見て思ったりしていました。 旅しながら、お金ももらえたらいいなと思うわけだけど、旅の様子を動画に撮るって結構面倒な気もしますしね。 というわけで検索 20個調べてみました。いろいろあるんですね。 コンテンツ制作関連 ブログ運営 広告収入やアフィリエイト収入が得られます。月間10,000PVで2〜5万円程度の収入が期待できます。 YouTubeチャンネル 動画投稿で広告収入を得られます。登録者

                  収入多角化:次の収入ネタを探し中 - Be financial freedom. 経済的自由の探求
                • Azure OpenAI Service で GPT-4o audio が使えるようになったので試してみた - Qiita

                  この記事は何? Azure OpenAI Service で GPT-4o audio のモデルが利用可能になったので、サンプルアプリの設定を行って音声でやり取りを行ってみた際の手順のメモです。 GPT-4o audio とは? GPT-4o audio のモデル (現状使えるのは GPT-4o-realtime-preview)は、GPT-4o モデル ファミリの一部であり、低遅延の「音声入力、音声出力」会話インタラクションをサポートします。 つまり、今まで音声をインターフェイスにして言語モデルと対話を行う際には、Speech to Text を行い文字起こしを行った結果を言語モデルに入力して、その出力をまた Text to Speech で行わなければいけなかったところ、今回のモデルは、音声を直接のインターフェイスにして言語モデルと対話を行えるようなものになるわけです。 音声を直接のイ

                    Azure OpenAI Service で GPT-4o audio が使えるようになったので試してみた - Qiita
                  • 【裏技】Google Pixelシリーズの通話スクリーニングを『自動化』する方法。無料で留守電代わりに | ハイパーガジェット通信

                    iOS 18へのアップデートに対応するiPhoneには、満を持して『留守番電話機能(リアルタイム文字起こしつき)』が追加されました。ちなみに通信キャリアの留守番電話サービスを契約すると、継続的に『330円/月(楽天モバイルは2024年12月1日から有料化)』利用料金が発生。 仕事で利用する人が多いイメージの留守番電話ですが、『着信履歴が残っていたけどかけ直すべきか分からない』という時がプライベートでもあるはず。 留守番電話に何かしらのメッセージが残っていれば、その内容を聞いて『かけ直すかどうか』を判断出来ます。 『無料』であれば使いたい留守番電話。GoogleのPixelシリーズは、留守番電話の代わりとしても役立てることが可能な『通話スクリーニング』という機能を搭載(SIMを挿入していない状態では表示されない)。 着信時に『スクリーニング』ボタンを押すと、『おかけになったお相手は、Goog

                    1