並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 2867件

新着順 人気順

音声認識の検索結果121 - 160 件 / 2867件

  • 【厳選】機械学習の学習におすすめのTwitterアカウント40選 - Qiita

    はじめに 最近、翻訳サービスをリリースしたりしてから、機械学習の勉強をどこでしたらいいのか聞かれることが増えました。 機械学習関連の知識は遷移が激しいので、書籍には限界があります。 ですので、その度に「twitterが一番勉強になる」と答えていました。 が、この回答は聞き手依存な無責任な回答な気もしたので、この際フォローすべき人をまとめておこうと思います。 時折機械学習系でない人も紛れているかもしれません。 とりあえず40アカウントおすすめするだけの記事なので、抜け漏れはあると思いますが、後日補完していこうと思います。 登場するアカウントには何の許可も取っていませんが、独断と偏見でアカウントの特徴をメモしていきます。 (メモとはいえ失礼のないよう書いたつもりです) 0. goto_yuta_ 私です。機械翻訳や、論文のまとめなどの話が多いです。自作の機械翻訳サービスの中身に触れたりします。

      【厳選】機械学習の学習におすすめのTwitterアカウント40選 - Qiita
    • さようならCortana──Copilot登場でMicrosoftがサポート終了へ

      米MicrosoftはサポートページでWindowsでのCortanaのサポート終了を告知した。「2023年後半以降、WindowsではスタンドアロンアプリとしてCortanaはサポートされなくなります」となっている。 2014年に「Windows Phone 8.1」の新機能としてデビューしたCortanaは、米Appleの「Siri」対抗の音声アシスタントと目されていた。その後、Windows 10のタスクバーで利用できるようになったが、Windows 11ではタスクバーから消えていた。 Microsoftが5月に開催したBuild 2023で発表した「Windows Copilot」は、Cortanaよりはるかに高機能なアシスタントなので、Cortanaの役目が終了になっても当然だろう。 MicrosoftはCortanaのWindowsでのサポート終了時期について具体的にはまだ発表

        さようならCortana──Copilot登場でMicrosoftがサポート終了へ
      • GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること

        GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US [原文] ( mayumine ) これは嬉しい進化です。 OpenAIの開発者向けカンファレンス「DevDay」で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました(こちらの記事もどうぞ)。 いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。 さらにGPT-4 Turboでは、JSONモードが実装され、JS

          GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
        • スクエニのAI検証実験プロジェクト『ポートピア連続殺人事件』Steam無料配信スタート。野心的実験ながら、苦渋の“雑談機能削除”が影響残す - AUTOMATON

          スクウェア・エニックスは4月24日、『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を無料配信開始した。Steamストアページより、プレイすることができる。 本作は、『ポートピア連続殺人事件』をベースにした“自然言語理解の体験用ソフトウェア”だ。オリジナル版『ポートピア連続殺人事件』ではプレイヤーが文字列を入力してキャラの行動を決定し、物語を進めるコマンド入力式のシステムが採用されていた。同システムでは自由な文字列を入力してゲームを遊べるものの、すべき行動がわかっているのに適切な文字列がわからないといった事態も起こりえた(ファミリーコンピュータ移植版では、コマンド選択式が採用)。 一方、本作では入力されたテキストの判別に自然言語処理(Natural Language Processing)を採用。大量のテキストデー

            スクエニのAI検証実験プロジェクト『ポートピア連続殺人事件』Steam無料配信スタート。野心的実験ながら、苦渋の“雑談機能削除”が影響残す - AUTOMATON
          • 【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW

            最終更新日: 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。 オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。 一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。 オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。 今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを

              【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW
            • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

              こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

                OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
              • OpenAI API で提供されている モデル まとめ|npaka

                「OpenAI API」で提供されている「モデル」をまとめました。 ・Model - OpenAI API 1. OpenAI API で提供されている モデル「OpenAI API」で提供されている「モデル」は、次のとおりです。 ・GPT-4o : GPT-4よりも安価で高速な、最も先進的なマルチモーダルフラッグシップモデル ・GPT-4 : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル ・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル ・DALL-E : 自然言語から画像を生成および編集できるモデル ・TTS : テキストを自然な音声に変換できるモデル ・Whisper : 音声をテキストに変換できるモデル ・Embedding : テキストをベクトル表現に変換できるモデル ・Moderation : テキストが機密または安全か

                  OpenAI API で提供されている モデル まとめ|npaka
                • 無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita

                  こんにちはkamikawaです 今回は無料で利用できる機械学習、データサイエンスに関するサイトや書籍をまとめました 私自身も機械学習プロジェクトに関わった経験があるのですが、ここに載せたサイトや資料を勉強に使っていました 機械学習エンジニアを目指す人必見です 入門者レベル〜応用・発展レベルまで幅広く載せていますレベルは個人の見解です。(あくまでも参考程度に) 日本語のものと英語のものを紹介します 海外の大学の講義もあるので英語の勉強にも使えます 海外でのキャリアを考えている方も必見です 対象読者 機械学習を学びたいけどお金をかけたくない人 独学で機械学習を身につけたい人 機械学習エンジニアになりたい人 発展的な機械学習を学びたい人 日本語 Python 三重大学奥村教授のサイト 機械学習、様々な分析、スクレイピング、データ可視化、地図データ、CV、統計など幅広い分野を扱っている R編もある

                    無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita
                  • 【初心者向け】無料でPythonの基本文法を5時間で学ぼう! - Qiita

                    はじめに この記事は、AI AcademyのPython文法速習編とPython プログラミング入門編の内容をベースに一部修正を加えたものです。 この記事を読み進めることで、Pythonの基本文法の基礎を学ぶことが出来ます。 Pythonを学び終わった方は、無料(一部のコンテンツのみ有料だが基礎コンテンツはほぼ全て無料)でAI・機械学習が学べるAI Academyも活用ください。 オンライン機械学習スクールはこちら なぜPythonなのか? AI Academyでは人工知能(AI)分野を中心とした学習コンテンツを扱っており、その人工知能分野においてPythonは機械学習・ディープラーニングを容易に扱うことができるからです。 また、The 2018 Top Programming Languagesの記事でも、プログラマーの年収は1位でした。 The 2018 Top Programming

                      【初心者向け】無料でPythonの基本文法を5時間で学ぼう! - Qiita
                    • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                      OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

                        OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                      • Googleの最新AI、読解力も人間超え 驚異の学習法 超人間・万能AI(上) - 日本経済新聞

                        画像認識や音声認識などに続き、文章読解の分野でも人工知能(AI)が人間の平均レベルを超え始めた。米グーグルの新AI技術「BERT(バート)」が壁を突き破った。検索や情報収集などの効率が飛躍的に高まる可能性が出てきた。【次回記事】AIが自らAIつくる もはや開発者すら不要AIに文章読解は不可能――。数年前までこれが常識だった。日本の国立情報学研究所(NII)が2011年に始めた「ロボットは東大に入れるか(東ロボ)」プロジェクトでも、AIは大学入試センター試験の英語試験で長文読解問題や単語の並べ替え問題に全く歯が立たなかった。東ロボのAIが16年にセンター試験の英語問題を解いた際の偏差値は「45.1」。東大合格はとうてい不可能なレベルだった。ところがグーグルが18年10月に発表したBERTで常識が一変した。文章読解問題を人間より高い正答率で解いたからだ。AIが文章の意味を理解可能にBERTは文

                          Googleの最新AI、読解力も人間超え 驚異の学習法 超人間・万能AI(上) - 日本経済新聞
                        • 特許庁の審査官はこち亀好き?-こち亀アイデア関連の特許出願紹介 Vo.3- | Toreru Media

                          1.はじめに:特許発明の審査に漫画を活用 本記事では、筆者が大好きな漫画である「こちら葛飾区亀有公園前派出所(以下、こち亀)」に登場するアイデア関連の特許出願を紹介します。Vo.1、Vo.2 では、「こち亀のコミック発売後に出願された、似たアイデアに関する特許出願 or 実用新案出願」を紹介しました。 今回は少し視点を変えて、「特許出願に関する特許庁の審査において、実際にこち亀が参照された事例」を3つ紹介します。審査においては、多くの場合、過去の特許文献が参照されて審査が行われます。しかし以下3件については特許文献に加えてこち亀も登場しており、知財関係者としては非常に胸熱な状況です。(・・私だけ?) では、紹介していきます。 2.審査事例1:音声入力制御システム 特開2001-343996:三菱電機(出願日:2000年6月1日) 特許文献(J-PlatPat リンク) 1件目は、利用者が適

                            特許庁の審査官はこち亀好き?-こち亀アイデア関連の特許出願紹介 Vo.3- | Toreru Media
                          • Maintainer Month: オープンソースをメンテナンスするコツ

                            週に一度まとめて更新のようなパターンだと、体調が悪いときなどにその週はスキップされ、また次の週も更新しようとして偶然タイミングが合わなかった場合などに、1ヶ月更新が止まるみたいな状態は起きやすいです。 1ヶ月更新を止めてしまうと、そこで更新する習慣が失われて、この書籍でいう逆戻りが起きるのかなと思っています。 そのため、JSer.infoではタスクを細分化して進められる時にやっていけるような形を作っています。 ライブラリのメンテナンスのリズムをツール化する JavaScript周りは顕著ですが、ライブラリが細かく分かれていることが多いため、リポジトリの数も多いです。 そのため、リポジトリのCI設定や依存ライブラリのアップデートなどをメンテナンスするだけで無限の時間がかかります。 このメンテナンス作業を手動で毎回やるととても疲れるので、自分の場合はツール化していることが多いです。 作ったり、

                              Maintainer Month: オープンソースをメンテナンスするコツ
                            • Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB

                              Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル(LLM)として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、動画の理解を含むマルチモーダルタスクでも最先端の性能を示しています。テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成しています。 また、複数のソースからの情報を統合して、より正確で詳細に理解する能力に優れているとのことです。 なお、Ultra、Pro、Nanoの3つのサイズがあり、それぞれ異なる計算要件に特化して設計されています(例えばモバイル向けにはNanoなど)。Ultraは最も高度に複雑なタスクをこなし、研究報告では主にUltraの性能が他モデルと比較されています。 本記事

                                Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB
                              • AWS、アレクサと同様の会話理解力を持つ「Amazon Lex」日本語対応を発表。日本語で会話する音声ボットやチャットボットが開発可能に

                                AWS、アレクサと同様の会話理解力を持つ「Amazon Lex」日本語対応を発表。日本語で会話する音声ボットやチャットボットが開発可能に Amazon Lexを利用することで、「すべてのデベロッパーがAmazon Alexaに採用されている深層学習技術と同じ技術を利用できる」(Amazon Lexの説明文から)とされています。 Amazon Lexは、自動音声認識による音声からテキストへの変換機能と、テキストの内容からその意図を認識する自然言語理解機能を備えています。 つまり、電話やオンライン会議などを経由して日本語の音声をAmazon Lexに入力すると、いわゆる文字起こしのようにその内容をテキストに変換してくれます。 そしてこの音声から変換されたテキストや、Slackなどのテキストチャットなどで入力されたテキストの内容から、Amazon Lexはその意図などを理解し、会話の中から必要な

                                  AWS、アレクサと同様の会話理解力を持つ「Amazon Lex」日本語対応を発表。日本語で会話する音声ボットやチャットボットが開発可能に
                                • なぜネイティブ英語が聞き取れないのか?原因は? 単語耳と英語舌の作り方・外国語認知メカニズム - ポリグロットライフ | 言語まなび∞ラボ

                                  はじめに 今回はなぜネイティブの英語・子音が聞き取れない?その原因や英語耳と英語舌の作り方を解説していきます。まぜ、日本人がネイティブの話す英語や子音を上手く聞き取れないのか?という原因について考えていきながら、外国語の認知メカニズムを明らかにします。まずは、外国語聴解に必要な要素(英語が聞き取れない原因)を整理します。その次は、理解される外国語音声の表出するために意識するべきことを確認します。それらの基礎理論を踏まえ、ネイティブの英語耳・英語舌を作りのための具体的なトレーニング方法を説明していきます。最後に、発音の学び方として、トレーニングにおすすめの教材を紹介していきます。 今回のブログではリスニング力の音声認識・認知メカニズムに焦点をあてています。頭の中で日本語から英語に翻訳してしまうなどの問題に対してはチャンク学習(パターンプラクティス)がおすすめです。 www.sunafuki.

                                    なぜネイティブ英語が聞き取れないのか?原因は? 単語耳と英語舌の作り方・外国語認知メカニズム - ポリグロットライフ | 言語まなび∞ラボ
                                  • 倫理を振りかざすライセンスが好ましくないのは何故か?

                                    オープンソースが社会で受容されるにつれ、コミュニティの中においても一定の倫理が求められる傾向が強まっている。Code of Conduct(行動規範)を定める開発プロジェクトが多くなったのもその流れだろう。しかしながら、ライセンスによって使用者に対して倫理的な行動を求めることは現在に至っても忌避されており、それを悪だと看做す人々も多い。これは何故だろうか? (本稿は「オープンソースとは何か? Open Source Definition逐条解説書」の付録の一つとして収録されている文書である。) 嫌いな奴を排除する 大抵の人には嫌いな人がいるものだ。人間とはそのようなものだろう。その嫌いな人々に自分が開発したソフトウェアを使わせたくないという感情を持つことを中々否定できるものではない。そして、ソフトウェアの開発者には開発したソフトウェアに対する著作権が帰属する。著作権に基づいて第三者に対しソ

                                      倫理を振りかざすライセンスが好ましくないのは何故か?
                                    • 【社内サークル】ロボット部の極秘活動レポート ~ROSで始めるラジコン製作~ - NTT Communications Engineers' Blog

                                      イントロダクション こんにちは、NTTコミュニケーションズ デジタル改革推進部 データドリブンマネジメント部門の有賀唯貴です! 現在、社内の同じ部署の浅野秀平さんと「でじかいロボット部」を立ち上げて同好会として非公式に活動しています! 今回は活動第一弾として、ROS(Robot Operating System)を使ったラジコン製作に取り組んだのでその内容を報告します。 ※ でじかいロボット部は非公式な活動です。ただいま絶賛部員募集中です! ROSとは ROSとは、ロボットシステム構築を効率化するための共通機能を提供するオープンソースの基盤ソフトウエアです。 ロボットを開発するために便利で必要な機能や汎用な実装として モジュール・コンポーネント化のフレームワーク 再利用を重視する開発フレームワークで車輪を再開発しない モジュール間通信による分散処理 センシング、モータ制御、画像処理、経路計

                                        【社内サークル】ロボット部の極秘活動レポート ~ROSで始めるラジコン製作~ - NTT Communications Engineers' Blog
                                      • マイクロソフトが法人向けソフトウェア値上げ 20%アップ

                                        日本マイクロソフトは12月6日、法人向けソフトウェアとクラウドサービスを値上げすると発表した。日本円の為替変動によるもので、2024年4月以降に現行価格から20%引き上げるという。対象サービスは具体的に書かれていないが、一律での値上げになるとみられる。 関連記事 Windows 11にアップグレードできないPC、国内に2000万台 “10サポート終了時”でも1000万台近く残存か 日本マイクロソフトが、「Windows 10」のサポート終了に向けた国内のWindows OSの利用状況を明かした。国内のコンシューマ市場にあるWindows PC約4800万台のうち、現時点で約2000万台が「Windows 11にアップグレードできないPC」だという。2年後の2025年10月にWindows 10のサポート終了が迫る中、PCの買い替えを推進しても“10のままのPC”は多数残りそうだ。 マイクロ

                                          マイクロソフトが法人向けソフトウェア値上げ 20%アップ
                                        • 【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita

                                          AI Academy Bootcamp 6ヶ月35,000円にてチャットで質問し放題の環境で、機械学習やデータ分析が学べるサービスを提供しております。 数十名在籍しているデータサイエンティストや機械学習エンジニアに質問し放題の環境でデータ分析、統計、機械学習、SQL等が学べます。AI人材に必要なスキルを効率よく体系的に身に付けたい方は是非ご検討ください! https://aiacademy.jp/bootcamp この記事の対象者 ・将来Pythonでデータ解析をしたいと考えているが、何から手をつけたら良いか知りたい方 ・将来、人工知能に関連した業務に携わりたいと検討中の初学者の方 ・未経験者からAIエンジニアになりたく、そのためにどのような知識が必要か知りたい方 ・AIプログラミングスクールや専門学校に進学しようか考えているが、独学で勉強できる方法を知りたいという方 対象ではない方 ・既

                                            【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita
                                          • 2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..

                                            2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費(=100万以上するでしょ)を稼ぐと思ったらやる気出ない? ・まずは5日でその本を読む。文字認識しないと言うことだけど、Google翻訳アプリもダメ?無料OCRツールは試した?原書読むより入力するほうが早いなら、最悪手打ちで入力して翻訳にかけたら? ・1日で論文の構成を考える。ここはChatGPTと相談しながらできるでしょ。 ・その翌日、Wordの音声認識を使ってガーっとしゃべっていく。とにかくしゃべる。 ・できた文を直し、切り張り切りはりして、整える。ここに2日かける。 ・時間が余ったら先行研究とかざっとネットで見る。それをちょいちょい引用・追加していく。(ちゃんとそれを残す=アピールポイント) やれたら自信になると思うよ。そして社会人になると、2万字くらいのレポートは1週間ももらえないんだよね。

                                              2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..
                                            • 「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る

                                              「サイバーパンク2077」をプレイしたというエンジニアのマルチン・エランコウスキ氏が、同作で登場するリアルタイム翻訳システムのような「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」の開発に取り組んでいます。 GitHub - elanmart/cbp-translate https://github.com/elanmart/cbp-translate エランコウスキ氏は「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」を開発するにあたり、以下のような条件を処理できるシステムを構築することにしたそうです。 ・ショート動画を処理可能 ・複数のキャラクター(話者)の会話内容を翻訳可能 ・英語とポーランド語の両方の音声を認識・文字起こし可能 ・会話を任意の言語に翻訳可能 ・各フレーズを話者に割り当て可能 ・画面に話者を表示する ・サイバー

                                                「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る
                                              • 連休のお供にいかが? 米Microsoftが「PyTorch」の初学者向け教材を無償公開中

                                                米Microsoftは、機械学習ライブラリ「PyTorch」を使った、初学者向けのディープラーニングの教材を公式Webサイトで無償公開している。対応言語は英語のみだが、4時間13分で機械学習モデルの構築方法や自然言語処理、音声認識の概要などを学べるという。教材の利用に、外部ファイルのインストールは不要。Webページのみで完結する。 PyTorchは、米Facebookが2016年に開発したPython向けのオープンソースの機械学習ライブラリ。Microsoftは、2020年にWindows版PyTorchのメンテナーに就任し、2021年5月には「PyTorch Enterprise」を発表。Microsoft Azure上でPyTorchを使う企業へのサポートサービスの提供を始めていた。 無償公開している教材もMicrosoftとPyTorchが提携して作成しており、今後も企業とユーザー、

                                                  連休のお供にいかが? 米Microsoftが「PyTorch」の初学者向け教材を無償公開中
                                                • 元Googleエンジニアのメンターによる講義を公開 ──トヨタ自動車が実践する「Flutter」研修の内容とは? - TECH PLAY Magazine

                                                  Googleが開発したモバイルアプリ用のフレームワークであり、SDK(Software Development Kit)であるFlutter。トヨタ自動車では、自動車のコックピットのUX/UI設計・開発フローの一部で、同ツールを採用している。今回の「TOYOTA Developers Night」では、GoogleやYouTubeで活躍した講師を招いて実施しているFlutterの研修プログラムや成果を紹介した。 ■登壇者プロフィール 関沢 省吾 氏 トヨタ自動車株式会社 コネクティッドカンパニー コネクティッド先行開発部 デジタルコクピットソフト開発室 グループ長 名古屋大学大学院を修了後、2007年にトヨタへ入社。Lexus LFAをはじめ、各種車両の電子プラットフォーム開発や、TOYOTA LQのAIエージェント開発へ従事。2020年より現職。 Tim Mansfield氏 itali

                                                    元Googleエンジニアのメンターによる講義を公開 ──トヨタ自動車が実践する「Flutter」研修の内容とは? - TECH PLAY Magazine
                                                  • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                                                    画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                                                      無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
                                                    • [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開

                                                      [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開 GitHubは、年次イベント「GitHub Universe 2022」の基調講演で、音声によるGitHubの操作やコーディングを可能にする実験的機能「Hey, GitHub!」をプレビュー公開しました。 'Hey, GitHub!' is an experiment from the GitHub Next team that aims to reduce the need for a keyboard by enabling voice-based interaction with GitHub Copilot. Sign up now to join the waitlist: https://t.co/4YOSuA6cUr — GitHub (@github

                                                        [速報]「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開
                                                      • Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし

                                                        日本音響学会 学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル(と曲名)を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成 AI サービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無い UI と、 ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、 本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。 個人的には Suno AI について、以下のような所見を持っています。 Suno AI は

                                                          Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
                                                        • 「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024

                                                          「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis

                                                            「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024
                                                          • 【Firebase, Nuxt】リアルタイムなスライド共有サービスを作ってハッカソンで優勝した話 - Qiita

                                                            昨年末にFirebaseのアイデアソン/ハッカソンに参加しました。 その場で出会った3名で即席チームを結成して、約1ヶ月でFirebaseを使ったサービスを開発しました。 その結果、最優秀賞を獲得し、更に1ヶ月で機能を追加して、サービスを正式リリースしました! 自分なりに大きな経験になったので、その経緯をサービス紹介を含めて公開します。 個人開発したいと思っているエンジニアで、参考にしてくれる人がいたら幸いです。 どんなサービスか "SlideLive(スライドライブ)"といいます。 勉強会やセミナーのライブ感を飛躍的に高めるリアルタイムスライド共有サービス です。 SlideLiveのコンセプト 勉強会をライブに 私はプレゼンが苦手です。 「アイスブレイク」ってどうやったらいいのでしょうか? 「勉強会でプレゼンしている時にリアクションが無く緊張する」ことってありませんか? そんな課題認識

                                                              【Firebase, Nuxt】リアルタイムなスライド共有サービスを作ってハッカソンで優勝した話 - Qiita
                                                            • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                                                              OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                                                                音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                                              • 超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る

                                                                対話型AIサービス「ChatGPT」で使われている自然言語モデルの核になっている技術が「Transformer」だ。自然言語処理を例に、Transformerの仕組みを解説する。 実は、エンコーダーとデコーダーに用いられている「RNN」(Recurrent Neural Network)には、欠点があります。それは、長い文章が苦手だということです。 なぜ苦手かというと、以下の2つのポイントからそのように言えます。 (1)RNNでは、翻訳元文章全体の特徴を記憶できるサイズが固定されている。そのため、文章が長くなり単語の数が増えるほど、エンコーダーにおいて、文章の前の方で出現した単語の意味が薄まってしまう。 (2)RNNでは、単語を1つずつニューラルネットワークで処理する。そのため、単語の数が多くなればなるほど処理時間がかかってしまう。 ですので、RNNが持つこうした欠点を解消するための仕組み

                                                                  超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る
                                                                • 噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z

                                                                  最近にわかに話題のLLMツール「Dify」を僕も使ってみた。 いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。 特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。 元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言える テンプ

                                                                    噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z
                                                                  • スマホでVtuberになれるアプリ全部試す|九条 林檎

                                                                    (2020年6月2日更新) iPhoneX以降のARKitを使った群雄割拠のフェイストラッキングアプリ全部試してレビューするぞ。 分かりやすさを優先したら池の水抜きそうなタイトルになってしまった。 おっと申し遅れたな。 ごきげんよう、吸血鬼と人間のハイブリッドティーンエイジャー 九条林檎だ。魔界からこの人間界にやってきてVRゴーグルを被ってバーチャルタレントをしている。 前置き我は企業所属の個人としてデビューし、今年個人になったVtuberなので活動のほとんどのことを一人でやっている。有難いことに技術系なんて呼ばれることもあるがなんのことはない、その実様々なツールに助けられているだけだ。 さてそのツールを取り巻く事情がこの二年で急速に変わってきた。 まずVRMという概念の誕生。バーチャルキャスト社のエンジニアMIRO氏が最初に提唱した概念だが、これは3Dモデルの規格で今までてんでばらばらだ

                                                                      スマホでVtuberになれるアプリ全部試す|九条 林檎
                                                                    • 第二言語習得研究から考える効果的な英語学習方法とは!? - ポリグロットライフ | 言語まなび∞ラボ

                                                                      はじめに 今回は第二言語習得研究から考える効果的な英語学習方法について徹底的に考えていきます。具体的には、第二言語習得研究の立場から最適なインプット・アウトプットを説明していきます。 英語学習者は自分の成功体験を他者に振りかざしてしまいがちです。「私は~の方法で学習したので上達した。」という体験談は他人にも果たして有効なのでしょうか?あるいは誰にでも当てはまる、必ず上手くいく英語学習方法はあるのでしょうか?第二言語習得研究者たちは口をそろえてNOと言います。 個人の成功体験を鵜呑みにしてもだめですし、誰にでも当てはまる黄金の英語学習メソッドは残念ながら無いようです。ですが、私達はこれまでの第二言語習得研究の成果を土台に自分に合った最適な学習方略は立てることができます。 インプットには多読がおすすめです↓↓ www.sunafuki.com 英語が話せるようになるに↓↓ www.sunafu

                                                                        第二言語習得研究から考える効果的な英語学習方法とは!? - ポリグロットライフ | 言語まなび∞ラボ
                                                                      • Googleが発音のチェックを行う音声認識サービスを開始

                                                                        By Prostock-studio Googleが単語の発音チェックを行う新しいサービスを2019年11月14日(木)から開始しました。音声ファイルをAIが認識して文字起こしをしたり、声を出さずに音声入力をしたりと音声認識の技術は日々進化しています。Googleによる発音チェック機能は機械学習を用いた技術となっており、英語学習を格段に効率的にしてくれます。 How do you pronounce quokka? Practice with Search https://www.blog.google/products/search/how-do-you-pronounce-quokka-practice-search/ Google search will now give you feedback on your pronunciation - The Verge https://w

                                                                          Googleが発音のチェックを行う音声認識サービスを開始
                                                                        • 天才プログラマー2人が語る、高度IT人材の採用のポイントとは? | ウェブ電通報

                                                                          時価総額10億ドルを超える未上場のベンチャー「ユニコーン企業」。日本に数社しかありませんが、そのうちの一社がPreferred Networksです。同社は、約280人の社員のうち8割がエンジニア・リサーチャー。それも世界レベルのトッププログラマーが多数在籍するという異色企業です。 今回は、競技プログラミングコンテストを開催するAtCoder代表・高橋直大氏とPreferred Networksの執行役員・秋葉拓哉氏との対談が実現。高度IT人材の採用事情や、人材育成のために必要なことについて語っていただきます。88年生まれの同い年で、ともにプログラミング少年だったお二人の対談は大いに盛り上がりました。 最も競争の熾烈なAIの分野で能力を発揮し、社会課題解決に貢献したい 高橋:僕は学生時代に競技プログラミングに熱中し、その後AtCoderを立ち上げました。秋葉さんはどのようにしてPrefer

                                                                            天才プログラマー2人が語る、高度IT人材の採用のポイントとは? | ウェブ電通報
                                                                          • VTuberの動きをオーバーリアクションに自動変換 中の人の表情などをアニメーションに反映

                                                                            Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米パデュー大学の研究チームが開発した「AlterEcho: Loose Avatar-Streamer Coupling for Expressive VTubing」は、バーチャルYouTuber(VTuber)の配信において、ストリーマーの実際の動きよりも表現豊かな動きとして拡張し出力するシステムだ。このシステムは、Webカメラやスマートフォンのカメラで動きを捉える、安価なモーションキャプチャーシステムで使える。 モーションキャプチャーやコンピュータアニメーションなどの技術進歩により、高価な機材をそろえなくてもVTuberとしての配信ができるようになってきた昨今だが、Webカメラやスマ

                                                                              VTuberの動きをオーバーリアクションに自動変換 中の人の表情などをアニメーションに反映
                                                                            • トヨタ、車載OS「アリーン」を既存車種から搭載 次世代EVに先駆けて|自動車メーカー|紙面記事

                                                                              トヨタ自動車は、開発中の車載OS(基本ソフト)「アリーン」を次世代型電気自動車(EV)に先駆けて既存の車両に搭載する方針だ。人工知能(AI)技術を活用した高度な音声認識やレコメンド(推薦)機能、販売後の機能更新サービスなどを顧客にいち早く体験してもらうのが狙い。車両開発でSDV(ソフトウエア・デファインド・ビークル)構想が広がる中、2026年発売…

                                                                                トヨタ、車載OS「アリーン」を既存車種から搭載 次世代EVに先駆けて|自動車メーカー|紙面記事
                                                                              • DeepLを使った大体無料の英語学習サイトを作った

                                                                                作ったもの 経緯 今年の初めにQiitaでこんな記事を見つけた。 基本機能としては、 「ある質問に対して、日本語で意見を書く -> 英語で書いてみる -> 日本語で書いた意見に対するDeepLの回答を見比べる -> DeepLの回答を覚える -> DeepLの回答を自分で書いてみる」 という感じの流れ。日本語で言いたいことを自力で英語で表す時の実力とDeepLのそれなりに正しい英語を見比べることでそのギャップを埋めようという仕組みだ。 よく英作文や英会話を学ぶ時に市販のテキストなどを使って英文暗記をやることがある。英語の基本的な言い回しや表現のストックを増やすのが目的だ。しかしこのやり方だといざ自分が使おうと思った時に暗記したはずの言い回しが使えないことが多くないだろうか。原因は自分の思考から発せられる言葉に基づいた英文暗記ではないからだ。一般に個々人が日常でよく使う言い回しやフレーズには

                                                                                  DeepLを使った大体無料の英語学習サイトを作った
                                                                                • LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始 ~話者を区別した議事録作成も可能/世界3位の性能評価成績を獲得したAI音声認識モデルを採用

                                                                                    LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始 ~話者を区別した議事録作成も可能/世界3位の性能評価成績を獲得したAI音声認識モデルを採用