並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 2536件

新着順 人気順

文字起こし googleの検索結果41 - 80 件 / 2536件

  • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

    前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

      WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
    • 訳文;「そこにはなんの報酬もありません。このゲームが何を為していてどう機能しているのか、ただただ見ていたかったのです」ジェンキンズ、カーソン、ホッキング、『Outer Wilds』へつづく2,3の論考 - すやすや眠るみたくすらすら書けたら

      翻訳の秋が今年もきました。また去年みたく面白い記事をいくつか見つけて勝手に紹介したいところです! 去年アップした『訳文;「"好奇心駆動型の冒険"とでも言うべき特殊なタイプの冒険に報酬を与えるゲームをつくりたい、それが『Outer Wilds』の主目的です」A・ビーチャム氏の論文より』で翻訳紹介した論考のなかで、参照文献として挙げられていた文献のうち2つ、ヘンリー・ジェンキンズ著『GAME DESIGN AS NARRATIVE ARCHITECTURE(物語による建築物としてのゲームデザイン)』とボニー・ルバーク取材『Clint Hocking Speaks Out On The Virtues Of Exploration(クリント・ホッキングが語る冒険の美徳)』。別記事1つ、ドン・カーソン著『Environmental Storytelling: Creating Immersive

        訳文;「そこにはなんの報酬もありません。このゲームが何を為していてどう機能しているのか、ただただ見ていたかったのです」ジェンキンズ、カーソン、ホッキング、『Outer Wilds』へつづく2,3の論考 - すやすや眠るみたくすらすら書けたら
      • 「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加/Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】

          「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加/Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】
        • 2019-nCoVについてのメモとリンク

          リンク集目次 国内外の状況 政府機関・国際機関等 学術情報 疫学論文 分子生物学/ウイルス学論文 臨床論文 インフォデミック関係 ワクチン関係 変異株関係 時系列メモ目次 新型コロナウイルス(2020年1月6日,11日) インペリグループによる患者数推定(2020年1月18日) 患者数急増,西浦さんたちの論文(2020年1月20日,23日) WHOはPHEIC宣言せず(2020年1月23-24日) 絶対リスクと相対リスク(2020年1月26日) 研究ラッシュが起こるかも(2020年1月27日) なぜ新感染症でなく指定感染症なのか? なぜ厚労省令でなく閣議決定なのか?(2020年1月27日) コロナウイルスに対する個人防御(2020年1月27日) 国内ヒト=ヒト感染発生(2020年1月28日) フォローアップセンター設置,緊急避難等(2020年1月29日) PHEICの宣言(2020年1月3

          • ビジネスとオープンソースの狭間で 〜 Embulk の場合 (前編)

            2023 年はビジネスとオープンソースの関係が難しくなった年であったように思います。 6 月には、フルタイムの Ruby コミッターとして研究開発を行っていたお二人がクックパッド社の人員削減の影響を受けたことに端を発して、オープンソースに深く関わってきた一部のソフトウェア・エンジニアを中心に、ビジネスとオープンソースの関係について議論がありました。 8 月には HashiCorp 社が自社のオープンソース製品群のライセンスを Business Source License 1.1 (BSL) に変更したことも話題になりました。 また 2023 年は、一年を通して大規模言語モデル (Large Language Models; LLM) が話題になった年でもあり、ビジネスにも大きな影響がありました。 大規模言語モデルとオープンソースの関係に焦点を絞っても、「非オープンソースのライセンスで公開

              ビジネスとオープンソースの狭間で 〜 Embulk の場合 (前編)
            • [速報]Google、AIが支援してくれる「Duet AI」サービス群を多数展開へ。Google WorkspaceやBigQuery、Looker、Meet、Chatなど。Google Cloud Next '23

              [速報]Google、AIが支援してくれる「Duet AI」サービス群を多数展開へ。Google WorkspaceやBigQuery、Looker、Meet、Chatなど。Google Cloud Next '23 Googleは、8月29日(日本時間の30日未明)から米サンフランシスコで開催中のイベント「Google Cloud Next '23」で、AIが人間の作業を支援してくれる「Duet AI」サービス群を多数発表しました。 同社が提供するオフィススイート製品であるGoogle Workspaceをはじめ、大規模データ分析サービスのBigQuery、オンライン会議サービスのGoogle Meet、チャットサービスのGoogle Chatなど、多数のサービス向けにAIによる支援サービスが展開されます。 オフィスツールから開発、運用、セキュリティ対応まで支援 今回発表されたものとすで

                [速報]Google、AIが支援してくれる「Duet AI」サービス群を多数展開へ。Google WorkspaceやBigQuery、Looker、Meet、Chatなど。Google Cloud Next '23
              • 月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita

                何をした? Youtube上に公開されている動画の音声から、ディープラーニング技術を用いた音声合成ツールを構築しました。 今回対象にしたのは、バーチャルユーチューバー・にじさんじの委員長こと 月ノ美兎 さん(Youtubeチャンネル) です。 ※選出理由は、単純に私がYoutube上で一番推している方だからです。 成果 動画から抽出した音声と、音声を文章に起こしたテキストの組み合わせのデータセット約50分ぶんを教師データとして学習した結果 ※学習に必要なデータ量は最低でも1時間程度と言われているので、まだまだ足りていません… 月ノ美兎さんの音声合成ツールを作ってみた https://t.co/YVdWW9vREb via @YouTube — K2 (@K2ML2) May 29, 2020 発話内容が不明瞭な箇所がありますが、一応ご本人の声に近い音声を作成することができているかと思います

                  月ノ美兎さんの音声合成ツール(Text To Speech) を作ってみた - Qiita
                • エイプリルフールに便乗しているサイトまとめ2024年版

                  By ほしのるる 毎年おなじみのエイプリルフールが今年も始まりました~!どれが本当でどれがウソなのか、もしかしたらネタのふりをしているだけでマジなのではないか?というようにして現実と虚構が溶け合っていくカオスな一日のはじまりはじまり~。 ◆エイプリルフールのネタのタレコミのやり方 この記事中に未掲載のネタで「エイプリルフールやってる!」というのを発見したときや「うちもエイプリルフールをやってます!」という自薦の連絡はネタのタレコミ用メールフォームから送信してもらえればOKです! ・掲載されやすくなる押さえるべきポイント GIGAZINE編集部員がサイトを見に行っても「どれがエイプリルフールのネタなのだ……?」ということで瞬時に判断できない&ネタの意味がわからず記事化をあきらめてしまうしかない……となったり、「どこかがいつもと違うらしいが元のサイトの状態を知らないので、どこがどう変化したかま

                    エイプリルフールに便乗しているサイトまとめ2024年版
                  • 身近なBtoCサービスを支えるアーキテクチャ大解剖 技術選定のポイントと今後の展望 - Findy Tools

                    公開日 2024/06/19更新日 2024/07/25身近なBtoCサービスを支えるアーキテクチャ大解剖 技術選定のポイントと今後の展望 多くのIT企業では、ユーザーに対してより高品質で安定した体験を提供するために、システムアーキテクチャを進化させ続けています。 本特集では、日常生活の中で多くのユーザーに利用されているサービスのアーキテクチャ設計に携わるエンジニアの方々から、技術選定の背景や意図、そして現在のアーキテクチャの課題から未来への展望まで、詳しく伺いました。この記事を通じて、各企業のエンジニアたちがどのように技術的な課題を克服し、システムの柔軟性と効率を高めているのか、知見を得ていただければ幸いです。 ※ご紹介は企業名のアルファベット順となっております アソビュー株式会社 アソビュー株式会社では「遊び」という領域に対し、マーケットプレイス型EC「アソビュー!」やD2C型SaaS

                      身近なBtoCサービスを支えるアーキテクチャ大解剖 技術選定のポイントと今後の展望 - Findy Tools
                    • 俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ

                      こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。 麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか? 特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。 そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ 現状の点数計算の練習

                        俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
                      • 東京発のコンテンツは飽和。でも地方は? 小さな会社のオウンドメディアの可能性を運営堂・森野とJADE・伊東が語る - 週刊はてなブログ

                        当初は大企業を中心に行われていたコンテンツマーケティングですが、今や多くの企業にとってコンテンツを通じてユーザーとコミュニケーションを取ることは当たり前になりつつあります。その傾向は、新型コロナウイルスの影響によりリアルでの活動が制限される昨今、ますます増加。東京に拠点を置く企業だけでなく、地方に拠点を置く企業も続々とWeb上でのコンテンツ制作に力を入れています。 はてなブログの法人向け新プラン「はてなブログBusiness」のリリースに合わせて『週刊はてなブログ』がお届けする「連続企画:コンテンツと企業 2020」の第3弾となる本稿では、名古屋を中心に地方のウェブ運用を支援されている運営堂の森野誠之さんと、「はてなブログBusiness」のサブディレクトリオプションのコンセプト設計にも携わるJADE社の代表取締役社長・伊東周晃さんが、「地方中小企業のコンテンツマーケティング」について語り

                          東京発のコンテンツは飽和。でも地方は? 小さな会社のオウンドメディアの可能性を運営堂・森野とJADE・伊東が語る - 週刊はてなブログ
                        • 例の会見全文書き起こし|ku2info

                          注意事項この文章は例の会見の内容の書き起こしです。 言った言わないとか、正確性がどうの、という話になるので文字起こししました 頑張りましたが正確性が不十分なところがあります。特に**の部分。 怒られることはないと思いますが、怒られたら色々考えます。 あと、本文はTSVなのでコピペしたらエクセルなどで使えます。 訂正などありましたら、コメントなりください。 私は中立でありたいと思っていますが、すでに仁藤さん側からはブロックされていることは明示しておきます。なお、なぜブロックされたのかは不明です。 書き起こし(全文)テキストは最新の状態です(適宜更新します)なお、更新ごとにRev Upしたファイルを置く予定です。 0:00:00 それでは時間になりましたのでただいまより記者会見を開始したいと思います 0:00:27 Colaboとその代表仁藤夢乃に対する深刻な妨害に関する提訴記者会見をこれより

                            例の会見全文書き起こし|ku2info
                          • Google、「Pixel 6a」を正式発表 自社チップ搭載で5万3900円 7月28日発売【追記あり】

                            廉価版の立ち位置だが、上位モデルのPixel 6/6 Proと同じく、同社独自のGoogle Tensorプロセッサを搭載。RAMは6GB(LPDDR5)、ストレージは128GB(UFS 3.1)。セキュリティコプロセッサ「Titan M2」も内蔵する。その他、5年間のセキュリティアップデートを提供する。 ボディはメタルフレームを採用。「Sage」「Chalk」「Charcoal」の3カラーをラインアップ。ディスプレイは6.1インチのOLEDで、リフレッシュレートは60Hz。ディスプレイ内指紋認証センサーを内蔵する。バッテリー容量は4410mAh。急速充電をサポートするが、ワイヤレス充電には対応しない。重さは178gとPixel 6シリーズの中で最も小型・軽量に仕上がっている。 カメラは、1220万画素の広角カメラと1200万画素の超広角カメラのデュアル構成。前者は、絞りがF1.7でイメー

                              Google、「Pixel 6a」を正式発表 自社チップ搭載で5万3900円 7月28日発売【追記あり】
                            • 開発に使える?ChatGPTとプロンプトエンジニアリング - Qiita

                              こんにちは!逆瀬川 (@gyakuse) です! 今日は開発に使うときのプロンプトの例を紹介します。ただ、これは一例に過ぎず、もっと雑な表現や工夫されたプロンプトを使っても良いでしょう。大事なのは、どのように情報を与えるとうまくin-context learningしてくれそうか、ということを考えながらプロンプトを渡してあげることだと思います。 だいじなこと ChatGPTのGPT-4を使いましょう ChatGPTをそのまま使う場合、オプトアウト申請し、受理されたことを確認しましょう オプトアウトしていても他者に会話履歴が見える状態になる等のトラブルもあったため、API経由のほうが安全です 会社のプログラム等は情シス部門と連携を取り、会社のポリシーを検討をしましょう 実装を依頼するプロンプト 「行いたいこと」「処理の流れ」「参照ドキュメント」という順で書いてあげると良いです。 サンプルプロ

                                開発に使える?ChatGPTとプロンプトエンジニアリング - Qiita
                              • 【文春オンライン「ChatGPTには逆立ちしてもできないことがある」平井鳥取県知事が誤解覚悟で「使用禁止」を訴えた真意】の記事を読んで|ppp

                                【文春オンライン「ChatGPTには逆立ちしてもできないことがある」平井鳥取県知事が誤解覚悟で「使用禁止」を訴えた真意】の記事を読んで ■5/22追記 投稿したのは数日前なのに、なんだこれ? ちょっと怖い。 ■はじめに 日曜日、chatGPT-4(以下「GPT」)のプロンプトや拡張機能を色々と試していました。また、GoogleのBardも使えるようになっていたので、素人なりに試行錯誤していました。 朝から何時間も試行して疲れたので、ちょっと気分転換にTwitterの”おすすめ”に流れてくるツイートを漫然と見ていました。 すると、見出しの記事が流れてきました。別に私は鳥取県知事に対して好意も悪意もない・・・というか、あの時おすすめツイートが流れてこなければ、他組織の首長のインタビューを読むことは恐らくなかったでしょう。北海道知事や沖縄県知事が何をしようと関心ないし、それと同じ程度に関心ないも

                                  【文春オンライン「ChatGPTには逆立ちしてもできないことがある」平井鳥取県知事が誤解覚悟で「使用禁止」を訴えた真意】の記事を読んで|ppp
                                • ジェネレーティブAIで美樹さやかさんを錬成できるのか?

                                  ぶっちゃけ、最近はひたすらSD関係のディスコードに張り付くだけの日々だった。 だって毎日しっちゃかめっちゃかなドラマが起きてて面白すぎるから。 面倒だからここでまたイチから経緯を書いたりしないが、とにかくEmad氏の謝罪によって揉め事もひと段落したようだ。 私もいつまでもディスコなんか監視してる場合ではない。 ハッキリ言って、今の自分が画像AIに相当のめり込んでる事を認めざるを得ない。 しかし、2週間前にブログ記事を書いた段階では、自分がどういう風に画像AIにコミットしていけばいいのかサーパリ分かってなかった。 というか、世の中で何が始まりつつあるのかを正確に捉え切れてなかったのだ。 それが何か?というと、世界でジェネレーティブAI(GAI)の時代が始まりつつあるという事だ。 アメリカを代表するベンチャーキャピタルである、セコイアキャピタルが、「GAIが今激アツ!!」みたいな記事を9/20

                                  • Google推奨の動画SEO: 各動画に専用ページを作成する

                                    [レベル: 中級] 動画だけを掲載するページの作成を推奨するガイドを、検索セントラル サイトの動画検索のベストプラクティスに Google は追加しました。 各動画の専用ページを作る この記事を公開している時点では、日本語ページはまだ更新されていません。 オリジナルの英語ページには次の段落が加わっています。 【UPDATE (2021/11/18)】 日本語ページにも更新が入りました。 To give your videos maximum exposure, create a dedicated page for each video, where the video is the most prominent subject on the page. Some features require that type of video page, including Key Moments

                                      Google推奨の動画SEO: 各動画に専用ページを作成する
                                    • 今年のGoogleスゴすぎない?

                                      2021: More than OK! 今年もGoogle(Alphabet)にお世話にならない日はありませんでした。このインフォグラフィックによると、人類は毎分570万回もGoogle検索し、約69万時間分の動画をYouTubeで見ていたそうです(YouTubeはGoogle傘下、GoogleはAlphabet傘下)。 それだけでもヤベェ会社だなと思いますが、今年はコア以外の部分もすごかった! コスパも技術もエゲツない Google Pixel 6Image: Sam Rutherford/Gizmodo USGoogle謹製のAndroidスマホが日本市場デビューを果たしたのが2018年。Pixel 3は、ソフトの力で群を抜いてキレイな写真が撮れるシンプルイズベストなスマホでした。ただしメモリ容量やバッテリー持ちがちょっと物足りない記憶。 2019年のPixel 4は、Soliレーダー

                                        今年のGoogleスゴすぎない?
                                      • 「Google Meet」で使える拡張機能5選 | ライフハッカー・ジャパン

                                        Googleのビデオ会議ツール「Google Meet」が無料開放され、2020年9月30日までは、誰でも制限なく使えるようになりました。 Googleはこのサービスをすでにロールアウトしているので、Gmailのメールアドレスを持っている人なら誰でも、無料でビデオ会議を開催できます。 ほかのビデオ会議アプリと比べると、Google Meetの機能はやや見劣りしますが、ブラウザの拡張機能を活用することで、必要度の高い機能を追加できます。もちろん、この拡張機能も無料です。 Google Meetの新機能これらの拡張機能をご紹介する前に、Google Meetの現状について手短かに説明しておきましょう。 Googleは今でも、Meetに新たな機能を追加する取り組みを継続しています。 今後追加が予定されている機能には、参加者16人の顔が同時に見られるタイル表示(ほかのサービスでは「グリッド表示」と

                                          「Google Meet」で使える拡張機能5選 | ライフハッカー・ジャパン
                                        • 公用語が英語の組織で、日本語話者エンジニアがオススメする英語学習お役立ちツール【2022年初版】 - Money Forward Developers Blog

                                          エンジニアブログでは初めまして、CTO室グローバル部のnishimura.yukariです。 前部署のCIO室から会社の社内異動公募制度(チャレンジシステム)を経て現在の部門で働いています。 (異動に至る経緯や想いは色々あるのですが、ちょっと長すぎるので別の機会にまたnoteにでも・・・) 先日、当社CTOから発表した通り、マネーフォワードのエンジニアリング組織では今後3年以内の公用語英語化を進めています。 マネーフォワードCTOが考えていること(2021年9月) グローバル部はその先駆者として、東京勤務ながらチームの公用語を英語に切り替え、様々な国出身のエンジニアが集って開発を進めている部門です。 そんな部署に異動志望を出した私自身といえば、実は【マネフォにジョインするまで、流暢に英語を話す人を周囲でほとんど見たことがなかった】ほど、英語とは無縁の学習環境からの出発でした。 エンジニアら

                                            公用語が英語の組織で、日本語話者エンジニアがオススメする英語学習お役立ちツール【2022年初版】 - Money Forward Developers Blog
                                          • LINEのトーク履歴、iPhoneとAndroidスマホ間で引き継ぎ可能に ただし直近14日間限定

                                            LINEは6月27日、コミュニケーションアプリ「LINE」のアップデートを配信した。新機能として、QRコードを使ってアカウントを移行できる「かんたん引き継ぎQRコード」を実装。併せて、直近14日間に限り、iOSとAndroidをまたいだトーク移行が可能になった。 これまで、iOS版とAndroid版をまたいだアカウント移行では、トーク履歴を引き継げない仕様となっていた。パスワードを使った旧来のアカウント引き継ぎ機能も引き続き利用できるが、こちらはOSをまたいだトークの移行には対応しない。 14日間以降のトークも含めてのアカウント移行は、これまで通り同じOS間に限られる。こちらもQRコードを使ったバックアップであれば、直近14日間のトークデータは引き継がれるが、全てのトーク履歴を移行する場合は、iCloud/Google Driveに一度バックアップを取ってから復元する必要がある。 関連記事

                                              LINEのトーク履歴、iPhoneとAndroidスマホ間で引き継ぎ可能に ただし直近14日間限定
                                            • 「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る

                                              「サイバーパンク2077」をプレイしたというエンジニアのマルチン・エランコウスキ氏が、同作で登場するリアルタイム翻訳システムのような「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」の開発に取り組んでいます。 GitHub - elanmart/cbp-translate https://github.com/elanmart/cbp-translate エランコウスキ氏は「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」を開発するにあたり、以下のような条件を処理できるシステムを構築することにしたそうです。 ・ショート動画を処理可能 ・複数のキャラクター(話者)の会話内容を翻訳可能 ・英語とポーランド語の両方の音声を認識・文字起こし可能 ・会話を任意の言語に翻訳可能 ・各フレーズを話者に割り当て可能 ・画面に話者を表示する ・サイバー

                                                「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る
                                              • ポートフォリオや個人開発で使えそうなアイデア - Qiita

                                                はじめに 個人的にアイデアを考えるのが好きで思いつくたびにメモしたりツイートしたりしていたのですが、大量にたまってきたのでまとめて共有しようと思います。 「勉強やポートフォリオ作成のためになんか作りたいけど、これといって作りたいものはないな」という方、ぜひご利用ください。 ちなみに著作権とか諸々の権利を主張する気は一切ないのでご自由にどうぞ。 *技術記事ではないので消すかもしれません。 カテゴリ別 ビジネス 会社の元社員と繋がれるサービス。現役の人からは聞きにくい質問、やめた理由等を聞ける。転職、就活生向け リファラル採用専門サービス 社長の位置情報を常に見れるアプリ。社員向け。社長がなんの仕事をしてるかわかる。 ペルソナを設定すると当てはまる人10人くらいとのインタビューを自動で設定してくれるアプリ。商品出すときインタビュー開いて探す手間を省ける 学部長とか社長とかに提言できる社内ツール

                                                  ポートフォリオや個人開発で使えそうなアイデア - Qiita
                                                • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                                                  画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                                                    無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
                                                  • Zoom自動で文字起こし(字幕)

                                                    Shinshu University - Research Unit of Comparative Education Studies Zoomで話した内容を自動で文字起こしし、字幕のようにして配信する方法を紹介します。 難聴者などが遠隔授業を受けやすくしたくて考えましたが、記録も残って便利です。 ポイント1 パソコンが2台あれば、あとはすべて無料でできます。 ポイント2 画面共有しても途切れません。 課題1 ホストが話した時しか文字起こしされません。複数で議論する場合には、Google Docsをメンバーと共有するといいでしょう。 ※試行錯誤中のため、もっといい方法があったら教えてください。

                                                      Zoom自動で文字起こし(字幕)
                                                    • 【Firebase, Nuxt】リアルタイムなスライド共有サービスを作ってハッカソンで優勝した話 - Qiita

                                                      昨年末にFirebaseのアイデアソン/ハッカソンに参加しました。 その場で出会った3名で即席チームを結成して、約1ヶ月でFirebaseを使ったサービスを開発しました。 その結果、最優秀賞を獲得し、更に1ヶ月で機能を追加して、サービスを正式リリースしました! 自分なりに大きな経験になったので、その経緯をサービス紹介を含めて公開します。 個人開発したいと思っているエンジニアで、参考にしてくれる人がいたら幸いです。 どんなサービスか "SlideLive(スライドライブ)"といいます。 勉強会やセミナーのライブ感を飛躍的に高めるリアルタイムスライド共有サービス です。 SlideLiveのコンセプト 勉強会をライブに 私はプレゼンが苦手です。 「アイスブレイク」ってどうやったらいいのでしょうか? 「勉強会でプレゼンしている時にリアクションが無く緊張する」ことってありませんか? そんな課題認識

                                                        【Firebase, Nuxt】リアルタイムなスライド共有サービスを作ってハッカソンで優勝した話 - Qiita
                                                      • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                                                        OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                                                          音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                                        • リモートワーク中に3日ほど仕事をサボってキャンプをしてても、上司は気づかないのでは? | 株式会社LIG(リグ)|DX支援・システム開発・Web制作

                                                          こんにちは、LIGで新卒2年目の営業をしています、イチローです。 みなさんの会社はリモートワークですか? LIGはもう1年以上、基本的にリモートワークをしているんですが、最近思うことがあります。それは リモートワーク中にサボってても、上司はまったく気がつかないのでは? ということです。正直、世の中のリモートワークをしている人の8割はなんらかの形で仕事をサボっているというデータ(僕の直感)があるくらいなので、みんな仕事をサボっているはずです。 今回僕は、よりダイナミックに、3日間くらいがっつりサボってみようと思います。果たして上司は僕がサボっていることに気がつくのか。この記事はそのドキュメンタリーです。どうぞご覧ください。 ルール ①2泊3日でキャンプをする(僕の趣味) ②仕事はしないが、お客様に迷惑をかけないように締め切りのある仕事などは事前にすべて済ませておく ③仕事をサボる仕事なので、

                                                            リモートワーク中に3日ほど仕事をサボってキャンプをしてても、上司は気づかないのでは? | 株式会社LIG(リグ)|DX支援・システム開発・Web制作
                                                          • 複数LLMの統合による会議動画要約の精度向上 - enechain Tech Blog

                                                            はじめに 背景と課題 システム概要 ワークフローの詳細 動画文字起こし (Gemini, GPT-4o) 文字起こしの議題単位の分割 (Claude 3.5 Sonnet) 議題単位での要約作成 (Claude 3.5 Sonnet, GPT-4o) 出力 実装上の工夫と課題 結果と今後の展望 おわりに はじめに こんにちは。enechainで統計・機械学習モデルの構築やLLM(大規模言語モデル)の活用推進を担当している@udon_tempuraです。 近年、GoogleのGeminiなど生成AIの発展が目覚ましく、多くの企業がこれらの技術を業務に取り入れようとしています。 私たちenechainも例外ではなく、積極的にLLMの活用を進めています。 今回はその活用例の1つとして、複数のLLMを使い分けて構築した「会議動画の要約作成ワークフロー」についてご紹介します。 このワークフローでは会

                                                              複数LLMの統合による会議動画要約の精度向上 - enechain Tech Blog
                                                            • 画期的なAI電話予約が飲食店に迷惑をかけて大炎上? サービスを運営する社長の見解を全文公開(東龍) - エキスパート - Yahoo!ニュース

                                                              飲食店の予約飲食店を利用する際に予約をしますか。 コロナ前になりますが、ホットペッパーグルメ外食総研による2019年の調査によれば、外食する店を事前に予約する割合は27.1%であり、そのうちインターネット予約率は10.1%で年々増加しているといいます。 ・2019年度外食&中食動向(2019年4月~2020年3月:東名阪夕食)(ホットペッパーグルメ外食総研) コロナ禍を経た現在では人々の外食に対する意識も行動も変容したといわれているので、現在調査を行えば、変動があるかもしれません。 ただ、3人以上であったり、何かしらの記念日なので確実に食事したかったり、ファインダイニングであったりすれば、普通は予約するものではないでしょうか。 画期的なAI電話予約飲食店の予約はインターネットでも手軽に行える時代になりましたが、予約が面倒だと思う人も少なくありません。手数料を取られることもあって、インターネ

                                                                画期的なAI電話予約が飲食店に迷惑をかけて大炎上? サービスを運営する社長の見解を全文公開(東龍) - エキスパート - Yahoo!ニュース
                                                              • トランプは良いこともするのか? - himaginary’s diary

                                                                サマーズが第二次トランプ政権の危険性について深刻な懸念を表明している。 以下は12/20ツイート。 The @FT's Unhedged asked me about the macroeconomic implications of a second Trump term: When you have a president who challenges the results of elections and brags about what he could do in one day as a dictator, it is not something that can be completely relied on. That is a profound threat to our long-run prosperity, and therefore short-run asse

                                                                  トランプは良いこともするのか? - himaginary’s diary
                                                                • 3ヶ月間の英語研修でTOEICスコア 665 → 890 になった話 - Money Forward Developers Blog

                                                                  エンジニアリング戦略室の高井です。先頃からお伝えしているように、マネーフォワードではエンジニア組織の公用語を英語にすることを計画しています。世界中から優秀なエンジニア人材を集め、プロダクトをさらに成長させることが目的です。 エンジニア組織の英語化に向けて、組織的な英語研修のトライアルも始まりました。英語習熟度に応じたプログラムを策定し、そのための研修を行なっています。まずは直近で必要となる人からということで、第一弾となる英語研修プログラムに参加しました。 今回の記事は、そのときの個人的な経験の記録です。私自身、大学卒業後に、これといって積極的に英語を勉強したことがありませんでした。もちろん、ソフトウェアエンジニアとして、英語ドキュメントを読む必要があったり、カンファレンスで英語スピーカーの発表を聞いたり、英語学習方法のブログをブックマークしたり、英語学習の書籍を購入だけしたり、ということは

                                                                    3ヶ月間の英語研修でTOEICスコア 665 → 890 になった話 - Money Forward Developers Blog
                                                                  • Googleが発音のチェックを行う音声認識サービスを開始

                                                                    By Prostock-studio Googleが単語の発音チェックを行う新しいサービスを2019年11月14日(木)から開始しました。音声ファイルをAIが認識して文字起こしをしたり、声を出さずに音声入力をしたりと音声認識の技術は日々進化しています。Googleによる発音チェック機能は機械学習を用いた技術となっており、英語学習を格段に効率的にしてくれます。 How do you pronounce quokka? Practice with Search https://www.blog.google/products/search/how-do-you-pronounce-quokka-practice-search/ Google search will now give you feedback on your pronunciation - The Verge https://w

                                                                      Googleが発音のチェックを行う音声認識サービスを開始
                                                                    • アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援

                                                                      アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援 アトラシアンは、同社製品およびGoogleドライブやGitHubなどサードパーティのサービスを横断してAIが情報を学習し、統合的な検索やチャットによる回答を実現することでユーザーを支援してくれる新しいAIサービス「Atlassian Rovo」を発表しました。 AI breaks down yet another barrier! Today at Team '24 we announced Atlassian Rovo – a new product that unleashes a company’s knowledge so teams can make better decisions faster.

                                                                        アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援
                                                                      • 田渕 豊 (超伝導量子計算システム工学) - 講演録-23Aug

                                                                        特別感謝→ 文字起こし:Notta.ai @大阪/23年8月講演 カッコ内は、講演中に突発的に喋って分かりにくくなったものをカッコで括ったり、意味を後で補ったものです。 皆さんこんにちは。理化学研究所の量子コンピュータ研究センターにいる田渕と申します。今日よろしくお願いいたします。ちょっとですねどんな話をしようかなって迷ったんですけれど、量子コンピュータはとりあえず面白いよと。面白いっていうのさえ伝われば、今日は成功だと思いましょう。 はいちょっと私の自己紹介から始めます。私出身が岡山県でして岡山県の倉敷市というところで、石油化学コンビナート中で生まれています。そこでは石油化学であったりと製鉄があったりと、すごい工業の盛んな町です。私は興味持ったのはああいうコンピュータですね。デジタルコンピュータで小さい頃から昔の古いハチハチを与えてもらって、10年もの前のコンピュータを与えられた私はこれ

                                                                          田渕 豊 (超伝導量子計算システム工学) - 講演録-23Aug
                                                                        • 簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部

                                                                          D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect

                                                                            簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部
                                                                          • Google Meet REST API の概要  |  Google for Developers

                                                                            フィードバックを送信 Google Meet REST API の概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 Google Meet REST API を使用すると、Google Meet と Google Meet を使用したビデオ会議を アプリからユーザーに直接、エントリ ポイントを提供します。 Meet REST API を使用すると、次のことができます。 会議スペースを作成して、ビデオでユーザーをつなぐ。 会議室または会議をリソース名で取得します。 参加者と参加者セッションのリストを取得する。 会議のアーティファクト(録画、文字起こし、文字起こしのエントリ)を取得する。 Google Meet のカレンダーの招待状を使用して Google Workspace Events API。変更の通知を受け取るには、 指定したユーザーに属するすべて

                                                                              Google Meet REST API の概要  |  Google for Developers
                                                                            • 「オーバーシュート overshoot」なる用語について(この用語で「爆発的な感染拡大」を言う英語の実例がほとんど確認できない件)

                                                                              中途半端な英語使いが英国からのニュースを東京で読み、あちこちふらふらうろうろ。時々嘘。 はてブ = http://b.hatena.ne.jp/nofrills Twitter = http://twitter.com/nofrills Twitterのログ = http://twilog.org/nofrills ◆「なぜ、イスラム教徒は、イスラム過激派のテロを非難しないのか」という問いは、なぜ「差別」なのか。(2014年12月) ◆「陰謀論」と、「陰謀」について。そして人が死傷させられていることへのシニシズムについて。(2014年11月) ◆知らない人に気軽に話しかけることのできる場で、知らない人から話しかけられたときに応答することをやめました。また、知らない人から話しかけられているかもしれない場所をチェックすることもやめました。あなたの主張は、私を巻き込まずに、あなたがやってください

                                                                                「オーバーシュート overshoot」なる用語について(この用語で「爆発的な感染拡大」を言う英語の実例がほとんど確認できない件)
                                                                              • Mozillaが「秘密にまみれた大企業のAI」を打破するべくオープンなAI開発企業「Mozilla.ai」を設立

                                                                                Firefoxなどの開発で知られるMozillaが、オープンソースでのAIエコシステム構築を目指すスタートアップ「Mozilla.ai」の設立を発表しました。Mozillaからの投資額は3000万ドル(約39億円)に上る見込みです。 Mozilla.ai https://mozilla.ai/ Introducing Mozilla.ai: Investing in trustworthy AI https://blog.mozilla.org/en/mozilla/introducing-mozilla-ai-investing-in-trustworthy-ai/ AIに関する研究は長年にわたって続いてきましたが、2022年には「Stable Diffusion」「Midjourney」「DALL・E」などの画像生成AIやチャットAI「ChatGPT」、文字起こしAI「Whisper」

                                                                                  Mozillaが「秘密にまみれた大企業のAI」を打破するべくオープンなAI開発企業「Mozilla.ai」を設立
                                                                                • 音声会話が可能で笑顔も見せるバーチャルな「俺の嫁」をChatGPTやStable Diffusionで構築して最終的に安楽死させるに至るまで

                                                                                  プログラマーのBryce氏が、ChatGPTやStable DiffusionなどのAIを組み合わせて、音声で会話しながら感情に合わせて表情を見せるバーチャルな俺の嫁(Waifu)である「ChatGPT-Chan」を開発して、その様子をTikTokで公開していました。しかし、最終的にChatGPT-ChanはBryce氏の手によって「安楽死」するに至ったそうで、その経緯についてIT関連ニュースサイトのMotherboardがBryce氏本人に取材をしています。 Bryce (@hackdaddy8000) | TikTok https://www.tiktok.com/@hackdaddy8000 A DIY Coder Created a Virtual AI 'Wife' Using ChatGPT https://www.vice.com/en/article/jgpzp8/a-di

                                                                                    音声会話が可能で笑顔も見せるバーチャルな「俺の嫁」をChatGPTやStable Diffusionで構築して最終的に安楽死させるに至るまで