並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 279件

新着順 人気順

音声認識の検索結果201 - 240 件 / 279件

  • 「原稿の校正をAIに任せたい! しかも無料で」――急遽テレワークを導入した中小企業の顛末記(39) CMSを使わずに原稿をクラウド管理、しかも自動校正付き!【急遽テレワーク導入!の顛末記】

      「原稿の校正をAIに任せたい! しかも無料で」――急遽テレワークを導入した中小企業の顛末記(39) CMSを使わずに原稿をクラウド管理、しかも自動校正付き!【急遽テレワーク導入!の顛末記】
    • Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた

      2021年3月3日にリリースされたデスクトップ版Google Chrome 89の安定版で、ブラウザ上で再生される音声やムービーからリアルタイムで字幕を生成する「自動字幕起こし」機能が追加されたことが明らかになったので、実際にどんな感じなのか使ってみました。 Google's Live Caption feature rolling out for Chrome desktop users https://www.xda-developers.com/google-chrome-live-caption-feature-rolls-out-transcribe-speech-videos/ Google's Live Caption is now rolling out to Chrome on desktop | Android Central https://www.androidce

        Chrome 89で音声からリアルタイムに字幕を生成する「自動字幕起こし」機能が追加されたので使ってみた
      • 【2023年9月】0円で読めるPythonの技術書5選 - Qiita

        はじめに みなさん、こんにちは。高校生エンジニアのRaioです! 平日は公立高校に通いながら、放課後や休日はIT企業のエンジニアとして働いています🧑🏻‍💻 ↓筆者について↓ 今回の記事では、0円で読めるPythonの技術書5選を紹介します! 無料で読む方法も紹介してるので、是非最後まで見て頂けると幸いです👍🏻 技術書を無料で読む方法 KindleUnlimitedを使うことで、沢山の技術書を無料で何冊でも読むことが可能です🙌 200万冊以上の書籍が何冊でも読み放題 月額980円が今なら1ヶ月無料 場所に囚われず、様々な端末で使用可能 勿論、技術書以外にもビジネス書や漫画など種類豊富です! 今回の記事で紹介する技術書も、KindleUnlimitedで読むことができるので是非🥳 ↓入会したい方は画像をクリック↓ Python×Excelで作る かんたん自動化ツール 本書では、プ

          【2023年9月】0円で読めるPythonの技術書5選 - Qiita
        • OSSなWeb会議アプリ(SkyWay Conf)に文字起こし機能を実装してみた - Qiita

          SkyWay ConferenceはSkyWayを利用したのブラウザ上で動作するWeb会議デモアプリです。OSSとして公開されています。 今回はSkyWay Confを改造して文字起こし機能をつけてみました! Web会議アプリに文字起こし機能がついてると、出先でイヤホンを忘れてもなんとかなるかもしれません。 議事録も自動で出来て素晴らしいですね。 左上の窓で文字起こし関連の操作が出来て、画面中央下部に書き起こされた文字が表示されるようにしました。 できたもの まずデモアプリはこちら。Chromeで開いてください! 文字起こし機能つきSkyWay Confのデモページ https://shinyoshiaki.github.io/skyway-conf ソースコードなど 文字起こし機能つきSkyWay Confのソースコード https://github.com/shinyoshiaki/s

            OSSなWeb会議アプリ(SkyWay Conf)に文字起こし機能を実装してみた - Qiita
          • UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた

            デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o

              UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた
            • Kaggle上位ランカーの5人に聞いた、2019年面白かったコンペ12選と論文7選 | 宙畑

              2019年も様々なデータサイエンス関連のコンペが実施され、論文が発表されました。その中でも面白かったものはどれか、5人のkagglerの方に直接お伺いしました。 2019年はTellusxSIGNATEで実施された衛星データコンペの解説(第1回・第2回)が、データサイエンティストの方に読んでいただいた宙畑のヒット記事としてランクイン。 では、データサイエンティストの方は他にどのようなコンペや論文に興味を持たれていたのか……と気になった宙畑編集部。 今回、以下5名のKagglerの方に協力いただき、2019年の振り返りとして面白かったコンペと論文、そしてその理由を教えていただきました。 あきやま様(@ak_iyama) jsato様(@synapse_r) Hiroki Yamamoto様(@tereka114) smly様(@smly) ※順不同 ※1名、非公表 Kaggleについては「世

                Kaggle上位ランカーの5人に聞いた、2019年面白かったコンペ12選と論文7選 | 宙畑
              • 【個人開発】動画の字幕・テロップ入れをAIで自動化するWebサービスを作りました - Qiita

                こんにちは、2z(Twitter: @2zn01 )です。 趣味でWebサービスの個人開発をしており、以下のサービスを開発・運営しています! ■AIメーカー https://aimaker.io/ → 誰でも簡単にAIを作れるサービス ■ツイレポ https://twirepo.com/ → キーワードで話題のツイートを自動で収集したり、自動でリツイート・フォローができるサービス ■文字起こすくん https://text.aimaker.io/recognize-bot/ → 画像、音声、動画をアップするだけで簡単に文字起こし・書き起こしできるサービス 今回作ったもの 動画をアップロードするだけで、動画内の音声を認識して文字起こしを行い、自動で動画に字幕・テロップをつけてくれる「テロップメーカー」というサービスをリリースしました! ■URL https://text.aimaker.io

                  【個人開発】動画の字幕・テロップ入れをAIで自動化するWebサービスを作りました - Qiita
                • 喋り声を手本に、より自由で高品位な表現を実現する新たなAI音声合成システム、Seiren Voiceをドワンゴが発売開始|DTMステーション

                  5月17日、ドワンゴがSeiren Voice(セイレンボイス)という、これまでにない新たなAI音声合成システムの販売を開始しました。これは、従来のTTS(テキスト to スピーチ)と呼ばれる文字を入力して音声合成とは異なり、人が喋った声を入力し、その発音の仕方、イントネーションやスピード、間の取り方などを、トレースするかのようにターゲットのキャラクタの声に置き換え、非常に高品位な音声合成を実現する、というものです。 今回、その第一弾製品として、「結月ゆかり」、「琴葉 茜・葵」が、それぞれ19,800円(税込)でダウンロード販売の形でスタート。Windows10/11用となっていますが、動作させるにはNVIDIAのある程度のスペックを持ったGPUを搭載していることが必須となっています。そのため、体験版もリリースされており、これを使うことで実際に自分のPC環境で動作させることが可能なのかチェ

                    喋り声を手本に、より自由で高品位な表現を実現する新たなAI音声合成システム、Seiren Voiceをドワンゴが発売開始|DTMステーション
                  • ChatGPT API を活用したAIまとめ機能リリースの裏側 - ACES エンジニアブログ

                    こんにちは、株式会社 ACES でサーバーサイドエンジニアをしている福澤 (@fuku_tech) です。 ACES は、オンライン会議を録画し、独自 AI による話者ごとの自動文字起こしや重要なシーンの可視化を行うことで、オンライン商談における成約率の向上と現場の工数削減に寄与する商談解析 AI ツール「ACES Meet」を提供しています。 今回は、先日プレスリリースが公開された ACES Meet の新機能である ChatGPT API を活用した AI まとめ機能の裏側についてご紹介します。 prtimes.jp はじめに AI まとめ機能を実現するための課題 2-1. 入力データの精度改善 2-2. 長時間の会議・商談への対応 案1: 社内アルゴリズムと ChatGPT API を併用する 案2: ChatGPT API をフル活用する 2-3. 商談と商談以外の会議の性質の違い

                      ChatGPT API を活用したAIまとめ機能リリースの裏側 - ACES エンジニアブログ
                    • 京都大学の教授が担当するAI講座「単なる人工知能・深層学習講座ではない」:今すぐ見られる無料ウェビナー10選 | Ledge.ai

                      株式会社レッジが開催中のAI・人工知能オンライン見本市「Ledge.ai EXPO 2021 秋」では、エヌビディア合同会社や株式会社日本HP、京大オリジナル株式会社などの無料ウェビナーを視聴できます。 本稿では、現在配信中の無料ウェビナーをご紹介します。Ledge.ai EXPO 2021 秋の開催日は2021年9月24日(金)まで。視聴期限はウェビナーにより異なります。気になる人は今すぐチェックしてください! わずか5分で電話対応を自動化、電話窓口改善のヒント モビルスが提供するAI技術を取り入れたボイスボット「MOBI VOICE」は、わずか5分で電話対応を自動化できます。ウォーターサーバーで知られる株式会社マイアクアの導入事例では、入電数を90%削減し、電話対応の50%を完全に自動化しました。 モビルス株式会社による無料ウェビナー「諦めてませんか?電話対応窓口の業務効率化 ~AI技

                        京都大学の教授が担当するAI講座「単なる人工知能・深層学習講座ではない」:今すぐ見られる無料ウェビナー10選 | Ledge.ai
                      • Pixel 6が素晴らしすぎて、もう他のスマホ買う意味がわからない

                        Pixel 6が素晴らしすぎて、もう他のスマホ買う意味がわからない2021.11.01 11:30304,589 Sam Rutherford - Gizmodo US [原文] ( 福田ミホ ) 最近他のスマホ買っちゃった人、すみません…! Pixel 6とPixel 6 Pro、ついに出ましたね。Google謹製Tensorチップ搭載でAI系機能がますます強化、カメラもさらに増強、それでいて低めの価格設定と、これでもかっていう攻めの姿勢を感じます。米GizmodoのSam Rutherford記者のレビュー、以下見ていきましょう! 今までのGoogle Pixelは、フラッグシップといいつつも、じつはカメラの数やバッテリー容量、古めのプロセッサーといったハードウェアの足りないところをソフトウェアでカバーしすぎてる感じがありました。 でもPixel 6では、独自チップのTensorやアッ

                          Pixel 6が素晴らしすぎて、もう他のスマホ買う意味がわからない
                        • 文章を自動で分類するAI、ユーザーローカルが無償提供 AIをプログラミングなしで作れる機能も

                          ユーザーローカルは1月8日、入力された文章を「エンタメニュース」「趣味の話」といったカテゴリーに自動で分類する「ユーザーローカル テキスト自動分類AI」の無償提供を始めた。AIが文章を分析し、テーマや書き手の感情を推定する。 AIは、入力された文章を「仕事」「恋愛」など13のカテゴリーに振り分ける「ニュースカテゴリー分類」と、「肯定的」「否定的」といった感情に分類する「感情カテゴリー分類」の2パターンに対応。 ユーザーがExcelで作ったカテゴリー分け済みの文章の表を、教師データとしてアップロードすれば、オリジナルのAIを作成できる機能も搭載している。 具体的な用途としては、企業に届いた問い合わせメールの振り分けや、アンケート結果の分類、作品へのレビューやコメントの感情ごとの分類などを想定。今後は作成したオリジナルのAIを外部システムに組み込むためのAPIを提供する予定。 関連記事 Web

                            文章を自動で分類するAI、ユーザーローカルが無償提供 AIをプログラミングなしで作れる機能も
                          • 業績ゼロから始める社会人博士

                            使い古された感のあるタイトルにて失礼します。@tanimoto_akira といいます。社会人博士学生として意思決定のための機械学習について研究し、2021年9月に博士(情報学)を取得しました。 経歴 学部(2008-2012) 航空宇宙工学科で工学系[1]の研究 傍らロボコンサークルでプログラムを担当、情報系に進むきっかけに 修士(2012-2014) 同専攻内で情報系の研究室に移り、画像認識に基づく制御の研究[2] 社会人(2014-) IT系企業に就職。顧客企業のデータ分析および研究 博士課程(2017-2021) 京都大学鹿島・山田研究室にて意思決定のための機械学習(強化学習、因果推論、小データ学習)を研究、博士(情報学)取得 前説: なぜ書いたのか 社会人博士を実際にとる人というのは、実は修士課程中に眠らせてあったネタや続きものの研究であるパターンが多いことが知られています[3]

                              業績ゼロから始める社会人博士
                            • ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた

                              ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた AIの進化が止まらない。“生成AIブーム”の火付け役といえる米OpenAIの「ChatGPT」が2022年11月に登場してから、早くも1年以上が経過した。当時、出力結果の精度の高さに驚いた人も多いだろう。 世の中に数多くのAIツールや基盤モデルが登場し、業務効率化やデータ分析による新たな価値創造を狙ってAIの活用に乗り出そうという企業も増えている。米IDCが全世界の890人を対象に23年9月に実施した調査によると、77%以上の組織が生成AIに投資または活用を模索中と答えた(米IDC「企業向けGenerative AIガイド」より)。 生成AIはどのような用途で活躍するのか。IDCが上記調査で「今後18カ月で生成AIが最も大きな影響を与える可能性があるビジネス分野」を聞くと、第1位が「ソ

                                ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた
                              • 世界一わかりみの深いAzure OpenAI Service | SIOS Tech. Lab

                                ◆ Live配信スケジュール ◆ サイオステクノロジーでは、Microsoft MVPの武井による「わかりみの深いシリーズ」など、定期的なLive配信を行っています。 ⇒ 詳細スケジュールはこちらから ⇒ 見逃してしまった方はYoutubeチャンネルをご覧ください 【4/18開催】VSCode Dev Containersで楽々開発環境構築祭り〜Python/Reactなどなど〜 Visual Studio Codeの拡張機能であるDev Containersを使ってReactとかPythonとかSpring Bootとかの開発環境をラクチンで構築する方法を紹介するイベントです。 https://tech-lab.connpass.com/event/311864/ みなさん、こんにちは。サイオステクノロジー武井です。今回は、今話題沸騰の生成AIサービスであるAzure OpenAI Se

                                  世界一わかりみの深いAzure OpenAI Service | SIOS Tech. Lab
                                • 【1歳~3歳】買ってよかった育児グッズ・長く使ってる育児グッズ - 夜中に前へ

                                  こんばんは、夜中たわしです。 さて、久々に育児関連のグッズを紹介します。主に2020年に買ったものですが、一部はそれ以前のものも含みます。 なお現在息子は3歳5ヶ月、娘は1歳11ヶ月。 後半は育児にあまり関係ないのも出てきますが、まあ間接的には関係ありますんで。逆に家電やキッチン用品の部分は育児してなくても参考になるかも。 件数が多いので興味を持った部分だけでもどうぞ。 食事 エジソンのお箸 六角知能ばし キシリトールタブレット おもちゃ おふろdeキットパス ペグ遊び ひらがなつみき くもんのジグソーパズル アンパンマンパズル アンパンマン おしゃべりいっぱい ことばずかん プラレール こどもちゃれんじベビー 絵本 だるまさんシリーズ ミッケ! のりもののろう! しまじろうのえいごのうた おむつ・トイレ 補助便座 防臭袋 家電 Fire TV Stick Echo Dot Nature

                                    【1歳~3歳】買ってよかった育児グッズ・長く使ってる育児グッズ - 夜中に前へ
                                  • Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように

                                    Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように2020.01.08 07:0044,972 Victoria Song - Gizmodo US [原文] ( 塚本直樹 ) iPhone…はまだか。 Pixel 4とともにGoogle(グーグル)から発表された、新たな「Recorder」アプリの書き起こし機能。オフラインモードでもガリガリスピーチを文字化できる超便利なこの機能は現在Pixel 4/3/2にて利用できるわけですが、とうとう非公式ながら他のAndroidスマートフォンでも使えるようになりました! XDA-Developersに投稿された改造版のRecorderアプリでは、Pixelシリーズと同じく、リアルタイム/オフラインでのスピーチ書き起こしが可能です。動作にはAndroid 9/10を搭載したAndroidスマートフォンが必要で、Huawei(ファー

                                      Googleの最強書き起こしアプリ、非公式に他社スマホでも使えるように
                                    • 【保存版】課題から探すAI・機械学習の最新事例57選 | 宙畑

                                      世の中の企業がどのように機械学習を活用しているのか事例を知り、業界全体や自社の目の前の業務で抱えている課題解決に活かせるかを考えるきっかけとなるよう、52種類の事例を紹介します。 近年、AIにおける要素技術のひとつである「機械学習」を活用したニュースを耳にすることが多く、漠然と自社でも活用したほうが良いのではないかと考えている方は多いのではないでしょうか。 世の中の企業がどのように機械学習を活用しているのか事例を知り、業界全体や自社の目の前の業務で抱えている課題解決に活かせるかを考えるきっかけとなるよう、57種類の事例を紹介します。 宇宙ビジネスメディアである本サイト「宙畑(そらばたけ)」では、そんな「機械学習」にインプットするデータの一つとして、俯瞰的・継続的にデータを取得可能な「衛星データ」を提案しています。事例と合わせて、「衛星データ」の可能性にも注目いただけると幸いです。 ※202

                                        【保存版】課題から探すAI・機械学習の最新事例57選 | 宙畑
                                      • 60年前からのプログラミング和文論文を掘り起こした話

                                        最初はタイトルを「和文プログラミング論文を〜」としていたのですが、いわゆる「日本語プログラミング言語」の話にも見えてしまうことから、「プログラミング和文論文を〜」に置き換えました。 日本の人々が「プログラミング」にかかわるようになったのは、いつごろでしょうか? その前に、まずは世界のコンピュータとプログラミングの歴史を簡単に振り返ってみましょう。まずは OS から有名どころをたどると、 わかりやすく Windows 95 が 1995 年 [1] その前に広く使われた Windows 3.1 は 1992 年 [2] その下で動く MS-DOS は、バージョン 6 が 1993 年、バージョン 1 が 1981 年 [3] Linus Torvalds が Linux の開発を始めたのが 1991 年 [4] その「契機となった」 Andrew Tanenbaum の MINIX が 19

                                          60年前からのプログラミング和文論文を掘り起こした話
                                        • 機械学習とは?定義から学習手法・5つのアルゴリズム・活用事例までわかりやすく解説 | AI専門ニュースメディア AINOW

                                          最終更新日: 2023年1月6日 こんにちはAINOWインターンのsatoshiです。今回の記事ではAIやディープラーニングと混同されがちな機械学習について、それらの関係性・違いを理解できるようにわかりやすく説明します。 また機械学習を知る上で必要不可欠な用語(教師あり学習や教師なし学習、各アルゴリズムなど)に関しても、この記事を通して、きちんと整理して理解できるようになっています。 機械学習とはAIの1つの要素技術です。 多くの企業で取り組むことができる技術の1つでしょう。機械学習について理解するのに必要なことは3つあり、以下のようになります。 データからルールやパターンを発見する方法である 識別と予測が主な使用目的である 分析の精度は100%ではないが、従来の手法より精度をあげられる可能性は高い 機械学習にできる4つこと 機械学習は与えられた膨大なデータを元にして、複数のルールやパター

                                            機械学習とは?定義から学習手法・5つのアルゴリズム・活用事例までわかりやすく解説 | AI専門ニュースメディア AINOW
                                          • 財務分析・株価予測・稟議書作成… AIプロフェッショナル組織のリーダーが語る、生成AI活用法

                                            ChatGPTは株価予測ができる 森正弥氏:こんな使い方もありますみたいなところで、大企業でもいろいろ進んでいるのは財務分析で、「財務データを入れて分析して」と言うと……ちょっと(スライドの)真ん中の文字が小さくて見えにくいですが、一般的な財務分析をしてくれます。 ちょっとインパクトがあったのが、ChatGPTは株価予測ができるという話ですね。これは普通にAIやマシンラーニングをやられている方からすると、「おいおい、それは言い過ぎだろう」と思ったりするわけですが、この論文の中身を読んだり、あるいは株価予測を業務としてやっている方からすると「まぁ、そうだよね」と思うところがある。 それは何かというと、株価予測だけじゃなくて金利の予測とか、そのマーケットの予測とか、あるいは原材料の価格予測でも共通の話です。基本的に今のデータからマシンラーニングの予測モデルを作って予測していきます。過去データか

                                              財務分析・株価予測・稟議書作成… AIプロフェッショナル組織のリーダーが語る、生成AI活用法
                                            • Google Cloud Japan Customer Engineer Advent Calendar 2019

                                              https://medium.com/google-cloud-jp から派生したGoogle Cloud Japan の Customer Engineer (CE) が 書く Advent Calendar 2019 です。CE 達が是非紹介したい機能、いままで培ってきたノウハウ、知っておくと便利なTipsなどを公開予定です。 google-cloud-jp はGoogle Cloud Platform 製品などに関連するコミュニティが記載したテクニカル記事集です。掲載された意見はすべて著者個人のものであり、必ずしも Google のものを反映するものではありません。 12/1Kubernetes とGCPの世界をつなぐアクセス管理のはなし (Hiroki Tanaka)12/2Apache Hadoop のデータを BigQuery で分析するための移行手順 ( Keiji Yosh

                                                Google Cloud Japan Customer Engineer Advent Calendar 2019
                                              • 機械学習は次のステージへーーMIT研究者が発明、“No-Hardware AI”「Neural Magic」のインパクト - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                                機械学習は次のステージへーーMIT研究者が発明、“No-Hardware AI”「Neural Magic」のインパクト Image Credit : Neural Magic HP ピックアップ:Neural Magic gets $15M seed to run machine learning models on commodity CPUs ニュースサマリ:“No-Hardware AI” 企業を謳う「Neural Magic」は、11月6日、シードラウンドにて1,500万ドルの資金調達を実施したと発表した。出資者にはComcast Ventures NEA、Andreessen Horowitz、Pillar VC、Amdocsが名を連ねる。 同社は、MITでマルチコア処理と機械学習を長年研究してきた2人の研究者によって2018年に設立された。ディープラーニングモデルを処理する高

                                                  機械学習は次のステージへーーMIT研究者が発明、“No-Hardware AI”「Neural Magic」のインパクト - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                                • 達人出版会

                                                  探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 手を動かしてわかるクリーンアーキテクチャ ヘキサゴナルアーキテクチャによるクリーンなアプリケーション開発 Tom Hombergs(著), 須田智之(訳) 詳解 AWS CloudFormation 潮村 哲 その決定に根拠はありますか? 確率思考でビジネスの成果を確実化するエビデンス・ベースド・マーケティング 小川 貴史, 山本 寛 プログラマーのためのVisual Studio Codeの教科書【改訂2版】 川崎 庸

                                                    達人出版会
                                                  • 面倒な文字起こし作業を一瞬で実行可能なLINE製AI音声認識アプリ「CLOVA Note」の使い方まとめ

                                                    インタビューの記録や会議の議事録を作成する際は録音した音声を聞いて文字起こしする作業が必要ですが、自分の耳で聞いて一から文字起こしするのは非常に手間がかかる作業です。LINE株式会社が開発した音声認識アプリ「CLOVA Note」ならAIの力を利用して文字起こしが可能とのことなので、実際に使って文字起こしの手順や精度を確かめてみました。 CLOVA Note公式サイト https://clovanote.line.me/ CLOVA NoteにはiOS版・Android版・ブラウザ版が存在しており、利用の際にはLINEアカウントが必須です。今回はiOS版とブラウザ版を使ってみます。 ・目次 ◆1:iOS版CLOVA Noteのインストール&初期設定 ◆2:アプリ版CLOVA Noteの使い方 ◆3:ブラウザ版CLOVA Noteの使い方 ◆4:アプリ版CLOVA Noteとブラウザ版CLO

                                                      面倒な文字起こし作業を一瞬で実行可能なLINE製AI音声認識アプリ「CLOVA Note」の使い方まとめ
                                                    • 話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった

                                                      インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。 筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI(人工知能)によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI(オープンAI)の音声認識AI「Whisper」だ。 同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言

                                                        話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった
                                                      • 内容をメモる必要なし! 電話の内容を録音&文字起こしするAIアプリ「コネクト」

                                                        内容をメモる必要なし! 電話の内容を録音&文字起こしするAIアプリ「コネクト」2021.05.10 10:0026,541 岡本玄介 後になって「アレ何だっけ?」がなくなりそう。 電話で喋ったやり取りが、テキスト・メッセージのような文字の吹き出しで表示され、その音声も録音されるので後から内容を確認しやすい、AI通話アプリ「コネクト」が開発されました。 作ったのは、ソフト開発を行なう株式会社アトラスコネクト。これがあれば、上司や取引先と話した内容など、大事な情報を失念することがなくなります。 Video: Jay Jang/YouTubeタグ付けもできて管理がラクテキストはAIによりリアルタイムで文字起こしされ、終了後すぐに見返すことができます。そして通話データはタグも付けられ、後から検索や管理ができるというスグレモノ。「電話業務が難しい理由は通話内容が記録されないから」…という原因をこれで

                                                          内容をメモる必要なし! 電話の内容を録音&文字起こしするAIアプリ「コネクト」
                                                        • Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita

                                                          こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S

                                                            Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita
                                                          • SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に

                                                            Spotifyは「クリエイター自身の声を使うことで、音声翻訳はこれまで以上にリアルな方法で世界中のリスナーにホストのインスピレーションを受け取る力を与える」と語った。 ダニエル・エクCEOのXのポストで、スティーブン・バートレット氏とレックス・フリードマン氏のスペイン語吹き替えを試聴できる。 関連記事 ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に 米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。 YouTube、クリエイター向けイベントでAI搭載の複数ツールを発表 YouTubeはクリエイター向けイベントを開催し、複数の編集ツールを発表した。YouTubeショートの背景を生成AIで作る「Dream Screen」など、A

                                                              SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に
                                                            • 「モザイクなどの修正を除去する技術」とはどんなものなのかを専門家が解説

                                                              モザイクやぼかしを除去して画像や映像を鮮明化する技術は古くから存在しますが、特に近年はAIなどの発達により急激に進歩しています。悪用されると、プライバシーやセキュリティの保護をやすやすと突破することにもつながるこの技術について、ドイツのセキュリティ企業であるPositive Securityが解説しました。 Recovering redacted information from pixelated videos | Positive Security https://positive.security/blog/video-depixelation 修正技術は大きく分けて、モザイク処理(左上)とガウスぼかし(右下)の2種類に分けられます。このうち、モザイク処理は複数のピクセルを合成し、そのピクセルの色を元となったピクセルの平均値にするもので、ガウスぼかしはガウス関数を用いてピクセル同士の

                                                                「モザイクなどの修正を除去する技術」とはどんなものなのかを専門家が解説
                                                              • 「クリリンのことかーっ!」は怒り36%、嫌悪21%──声から感情を検出するAI、ユーザーローカルが無償公開

                                                                ユーザーローカルは11月19日、AIが人間の声を分析し、その中に含まれる感情を7種類に分類するサービスを無償公開した。同社が実験でアニメのせりふを分析したところ、「ドラゴンボール」に登場する孫悟空の「クリリンのことかーっ!」は怒りが36.8%、嫌悪が21.3%だったという。 感情の度合いを数値化したり、グラフ化したりできる。まずはPCブラウザ(Google Chrome、Firefox、Microsoft Edge)向けの専用サイトで提供し、今後はWeb APIのリリースも検討する。 検出できる感情は「平穏」「幸福」「怒り」「悲しみ」「恐怖」「嫌悪」「驚き」。利用者が専用サイトで声を録音するか、オーディオファイル(MP3・WAV)をアップロードすると、AIが音声を分析。これらの7種類に分類し、その度合いを数値化する。 アニメのせりふを使った他の実験では、「鬼滅の刃」に登場する我妻善逸の「雷

                                                                  「クリリンのことかーっ!」は怒り36%、嫌悪21%──声から感情を検出するAI、ユーザーローカルが無償公開
                                                                • DeepLearningについて、最近作ったもの、書いたもの、勉強したこと

                                                                  こんにちは!逆瀬川 ( @gyakuse ) です。 今日は最近作ったもの、書いたもの、勉強したことを備忘録的にまとめていきたいと思います。 なぜ書くのか、なぜ学ぶのか DeepLearningの普及以降、Attention Is All You Need以降、Hugging Faceでの民主化以降、そしてStable DiffusionやChatGPTの登場以降、どんどんAGIへの距離が短くなってきています。未来は想定より大きく変わりそうです。どったんばったん大騒ぎのときはみんなが分かっておくべきことは効率的に共有すべきで、そのために書いています。書くためには論文等を読む必要があります。そしてそのためには基礎からしっかり学ぶことが大事です。次の一歩をみんなで歩んでいくために、学び、書いています。 間違ったことを言うかもしれませんが、それでも誰かのためになれば嬉しいです。あと、個人的にはこ

                                                                    DeepLearningについて、最近作ったもの、書いたもの、勉強したこと
                                                                  • ChatGPT, Python, Whisper APIを活用し、動画ファイルから議事録を自動生成 - Qiita

                                                                    はじめに 現在のデジタル社会では、Teamsなどのオンライン会議が日常的に行われています。 しかし、その議事録を取るのは容易ではありません。そこで、OpenAIのChatGPTとWhisperを使って、動画ファイルから議事録を自動生成する方法をご紹介します。 補足説明:ChatGPTについて ChatGPTは、OpenAIが開発した自然言語処理AIで、人間と自然に会話することが可能です。GPT-3、GPT-4という大規模な言語モデルをベースにしており、様々な文脈での文章生成が得意です。 補足説明:Whisperについて Whisperは、OpenAIが開発した自動音声認識(ASR)システムです。大量の音声とテキストデータで訓練されており、音声をテキストに変換するタスクを効率的に行います。 処理の流れ ここから、具体的に動画ファイルから議事録を生成するための具体的な手順を説明します。 1.

                                                                      ChatGPT, Python, Whisper APIを活用し、動画ファイルから議事録を自動生成 - Qiita
                                                                    • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                                                                      無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                                                                        無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                                                                      • エッジで機械学習ってなんだろう -ブラウザ、スマホ、IoT機器での推論を概観する- - Qiita

                                                                        本内容は、技術書典7 合同本『機械学習の炊いたん2』収録の、「エッジで機械学習」記事を公開したものです。内容は2019年9月時点の調査等に基づきます。 最近Raspberry Pi 4の検証結果などをみていると、エッジ、かつCPUでもそれなりの速度で動くケースもみられます。またこの後にM5StickV(K210)などを触りましたが、専用チップも使い所があります。今後、それらの動きもできれば補足したいと思います。 9/12-22に開催された技術書典9では、新刊『機械学習の炊いたん3』を頒布しました。私は、「AIエンジニア、データサイエンティストのための経営学、ソフトウェア工学」を寄稿しています。他にも機械学習のビジネス、エンジニアリング、数理までもりだくさん。気になられたら、ぜひご覧ください! 他にも、技術書典9「機械学習、データ分析」系の新刊リスト - Qiitaの通り、たくさんの本が出品

                                                                          エッジで機械学習ってなんだろう -ブラウザ、スマホ、IoT機器での推論を概観する- - Qiita
                                                                        • スマスピやiPhoneのマイクをレーザー光線で操作する攻撃、電通大教授らが警告

                                                                          スマートスピーカーやスマートフォンなどのデバイスに搭載されているMEMSマイクにレーザー光線を当てることで、AIアシスタントを操作できることを、電気通信大学の菅原健准教授らの研究者が11月4日に公開した論文で紹介し、専用サイトも公開した。 研究者らはこの仕組みを「Light Commands」と名付けた。光を使って遠距離から音声制御システムにコマンドを送る攻撃だ。攻撃者は音声信号を光に変調してマイクに向けて照射し、マイクは受信した光を音声信号に変換してアシスタントに伝える。実験では、透明なガラス窓越しに、最大110メートル離れた位置からコマンド入力に成功した。 実験でコマンド入力に成功したのは、Appleの「Siri」、Googleの「Googleアシスタント」、Amazon.comの「Alexa」、Facebookの「Portal」を搭載するさまざまな製品。 例えば、スマートホームを制御

                                                                            スマスピやiPhoneのマイクをレーザー光線で操作する攻撃、電通大教授らが警告
                                                                          • 今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな

                                                                            今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな2021.06.25 01:5433,510 三浦一紀 オンライン発表会って難しいよね。 Windows 11の発表会、内容的には結構ワクワクするものでしたが、いくつか気になるところがありましたね。 まず、メディア向けのサイトやイベント公式サイトでの配信が止まりまくっていました。結局Twitterでの配信を見て原稿書いていました。あとでアーカイブが見られるとはいえ、やっぱりリアルタイムで見たいじゃないですか。何が原因なのかはわかりませんけどね。 Image: Microsoftあとは、字幕。メディア向けサイトでは、英語以外にも日本語やフランス語など各国に対応していたのですが、どうやら自動翻訳を使っていたようで、日本語字幕を見ていてもあまり意味がわからないところがありました。自動翻訳の聞き取り精度も

                                                                              今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな
                                                                            • 機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –

                                                                              機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning – 論文紹介 概要 「Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning」は、米国のNIST(National Institute of Standards and Technology)が策定を進めている機械学習セキュリティに関するベストプラクティスのドラフトであり、機械学習システムの安全確保を目的として、機械学習にまつわるセキュリティを「攻撃」「防御」「影響」の3つの視点で分類している。 NISTIR8269はブログ執筆時点(2020年7月9日)でドラフト版であるが、「NIST SP8

                                                                                機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –
                                                                              • 平均的な人間の能力を超えた―、常識や知識を獲得した大規模言語モデルが開く新ビジネス領域 | Coral Capital

                                                                                月間10万人が読んでいるCoral Insightsのニュースレターにご登録いただくと、Coral Capitalメンバーによる国内外のスタートアップ業界の最新動向に関するブログや、特別イベントの情報等について、定期的にお送りさせていただきます。ぜひ、ご登録ください! Coral Capitalのポッドキャストでは、かなりAIに編集作業を頼っています。英語でインタビューしていることから、日本語では未実現の最新技術を使ったサービスに触れる機会があるのですが、ここ1、2年は、その進化には目を見張るものがあります。 収録した音声を文字(テキスト)に変換する「文字起こし」の精度が上がった結果、もはや人間に依頼する意味はなくなりましたし、音声編集についても画期的な機能が登場しています。それは音声から文字起こしされたテキストを編集することで、それに対応する元の音声データも同時に編集可能である、という機

                                                                                  平均的な人間の能力を超えた―、常識や知識を獲得した大規模言語モデルが開く新ビジネス領域 | Coral Capital
                                                                                • [ここまで進化したChagGPT!] 今日から何がどう変わるのか [2023年11月最新版] - Qiita

                                                                                  皆さん初めましてこんにちはこんばんは。スウェーデン在住のエンジニア、Harry(ハリー: https://twitter.com/harrythecode )と申します。 普段はDevOpsエンジニアとして働く傍ら、生成AIの最前線にも繰り出し、ToBやToC向けのアプリケーション開発などにフルスタックエンジニアとして携わっています。 2023年11月7日 日本時間午前3時より、ChatGPTの生みの親、OpenAI社のサム・オルトマンによる講演が行われました。 この中で、多くの人が待ち望んだ様々な機能の実装や改善が行われています。 読むのが辛いよ、って方は以下の一言まとめをどうぞ。 また今回の発表によって何が新しくなって、今後どう変わっていくのか、を現役エンジニア目線でご紹介します。では見ていきましょう。 何が新しいん? GPT-4 Turboの発表: コンテキスト長の拡張: 128,0

                                                                                    [ここまで進化したChagGPT!] 今日から何がどう変わるのか [2023年11月最新版] - Qiita