並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 2182件

新着順 人気順

音声認識の検索結果1 - 40 件 / 2182件

  • 私のセキュリティ情報収集法を整理してみた(2024年版) - Fox on Security

    新年あけましておめでとうございます。毎年この時期に更新している「私の情報収集法(2024年版)」を今年も公開します。 ■はじめに サイバー攻撃は国境を越えて発生するため、ランサムウェア、フィッシング、DDoS攻撃など、近年のサイバー脅威の常連となっている攻撃者(脅威アクター)が主に海外にいることを考えると、世界の脅威動向を理解することが年々重要になっています。 海外から日本の組織が受けるサイバー攻撃の多くでは、国際共同オペレーション等の一部のケースを除き、日本の警察が犯罪活動の協力者(出し子、買い子、送り子)を摘発することはあっても、サイバー攻撃の首謀者(コアメンバー)を逮捕するまで至るケースはほとんどありません。 誤解を恐れずに言えば、日本の組織は海外からの攻撃を受け続けているのに、海外で発生したインシデントや攻撃トレンドの把握が遅れ、対策が後手に回っているケースも多いように感じます。最

      私のセキュリティ情報収集法を整理してみた(2024年版) - Fox on Security
    • 中学生でもわかる深層学習

      第1章 理論編 ・深層学習とは (p.13-) ・ニューラルネットワークとは (p.31-) ・どうやって学習するか: 勾配降下法 (p.57-) ・深層学習の注意点 (p.91-) 第2章 応用編 ・分類問題 (p.110-) ・画像認識 (p.120-) ・音声認識/自然言語処理 (p.151-) ・講演のまとめ (p.167-)

        中学生でもわかる深層学習
      • Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|にょす

        日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました! しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です!(笑) シャべマルの紹介具体的には、、 絵文字で見返せるメモアプリあんまりないですが、良いですよ…!音声入力でメモ内容を作成。かなり高精度な音声認識モデル(Whisper)を用いているので、想像以上にちゃんと文字起こししてくれます! 「今日あったこと」など、日記として利用するのもオススメです。1日を振り返る機会になって、それが後から振り返りできるので、あの時こんなこと考えていたなー、といった発見につながるはずです! そして個人的にここが目玉なのですが、文字起こしされたメモには、「タイトル」「絵文字アイコン」「感情アイコン」「カテゴリ」が自動で紐づきます! これ何が良いかというと、圧倒的に見返しやすくなるんですよね

          Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|にょす
        • 熟練が必要なUIについて、それがよくない理由と、UIの慣性について

          久しぶりに記事を書く。最近マルス端末のUIについてツイートがあった。 この件に関して、UIについてやUXに対して日々やってきている人間は「ダメなUI」という認識の人が多いように思う。一方で、システムの開発者にとってはこれは、その認識でない人間が多いようだ。なので、この辺を私なりに意見を書いておこうと思う。 まぁ、これはいつもなのだが、書いていることが散らかってる。基本的に音声入力のメモなので、読みにくいかもしれないが読んでくれ参考になれば幸いだ。 熟練が必要なUIは基本的によくない まず、基本的に熟練が必要なUIはそもそも良くないって話をしていく。順番に話していこう、まず、熟練が必要なUIが支持される理由を考え、それに対して、批判していき、なぜ熟練が必要なUIはダメかを語ってみよう。 熟練が必要なUIが支持される理由 その前に、こういった熟練のUIが支持される理由についてかいておこう。それ

            熟練が必要なUIについて、それがよくない理由と、UIの慣性について
          • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

            以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

              OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
            • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

              大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
              • Udemyで夏のビッグセール開催! 話題の生成系AIからプロダクトマネジメントまで、新たな得意分野を見つけよう - はてなニュース

                ※夏のビッグセール、およびキャンペーンは終了しました。ご応募ありがとうございました。なお、Udemyの講座修了者を対象とした「学習応援キャンペーン」は9月30日まで実施中です。 オンライン学習プラットフォーム「Udemy」では、2023年8月22日(火)から夏のビッグセールを開催します。対象の講座が1,200円から購入可能と、なかなかチャレンジできなかった新しい領域を学習するにはとってもお得なチャンス。 今回のセール対象講座から、ChatGPTやMidjourneyといった話題の生成系AI、その基礎となる大規模言語モデル(LLM)の入門や実装を扱う講座といった人気のトピックに加えて、アプリケーション開発やプロジェクトマネジメント、さらには英語学習など、ステップアップを目指すITエンジニアにオススメの中級から上級の講座もピックアップして紹介します。 Udemyで勉強を始めたいけれど、いろいろ

                  Udemyで夏のビッグセール開催! 話題の生成系AIからプロダクトマネジメントまで、新たな得意分野を見つけよう - はてなニュース
                • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                  自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                    自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                  • 利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話

                    これはキーボードを筆頭とするインターフェイスが大好きなフリーライターの白石が、昨年10月に利き腕を骨折、そこから片手用キーボード『Froggy』により10000字を書いて、骨折中の期間をどうにかしのいだ10月の記録です。本当に助かったので、片手でキーボードを打つすべての人にこのキーボードを広めたい……! 自己紹介と悲劇の日 改めて、フリーライターの白石です。RealSoundでは主にテクノロジーやライブ・エンターテインメントにまつわるコラムやインタビューを執筆しています。演劇学科を出てからパソコン専門誌の編集者としてキャリアを始めた経歴もあって、ライターとしてはメディア・アートや舞台芸術、音楽ライブのレポート、MacやiPhoneなどのApple製品にまつわる記事などを書くことが多いです。 そんな私が寝ぼけたまま家の近くですっ転んだのは、10月中旬のこと。雨の振り始めた昼過ぎにスロープへ足

                      利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話
                    • GPT-4に日本語特化モデル OpenAI Japan始動会見で発表

                      米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。 関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。 マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応 米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA

                        GPT-4に日本語特化モデル OpenAI Japan始動会見で発表
                      • 培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

                        人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f

                          培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
                        • ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z

                          朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。 暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。 昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。 昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。 他のHMDと違い

                            ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z
                          • オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)

                            今回の発表で強く感じたことは、やはりOpenAIの目指すChatGPTが単なるチャットアプリケーションではないということだ。 従来のオペレーティングシステム(OS)はハードウェアとアプリケーションの架け橋である。だがOpenAIはChatGPTを「言語で命令できるオペレーティングエージェント」と位置付け、人生のあらゆるタッチポイントで新たなゲートキーパーとなろうとしているように思える。 IT競争は手前の取り合い歴史を振り返れば、IT競争の常道とは、ゲートウェイを手前に築くことにあったようだ。PCの争いをOSが無意味化し、OSの争いをブラウザが、ブラウザの争いを検索エンジンがと、そしてそれをスマホとアプリが…このようにITの争いは常に手前を争うものだった。こうして一番手前を抑えた企業は、大きな利益を手に入れた。 今、OpenAIの動きは、このメタゲームに大きな変化を加えつつある。 OpenA

                              オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)
                            • オープンソースとは何か? Open Source Definition逐条解説書 – Shuji Sado

                              オープンソースとは何か? Open Source Definition(オープンソースの定義) 逐条解説書 v1.0, 2024年1月22日 佐渡 秀治 Open Source guy オープンソース(Open Source)とは、米国の公益法人であるOpen Source Initiative(OSI)が策定した「オープンソースの定義」(Open Source Definition)で書かれた条件を満たすライセンス及びそのライセンスが適用されるソフトウェアのことである。このオープンソースという用語は自由ソフトウェア(Free Software)の代替として企図され、広く一般へ自由なソフトウェアを広めるためのキャンペーンのための用語として人為的に策定されたが、その後のオープンソース・ムーブメントと呼ばれる熱狂期を経て、紆余曲折ありながらも現在では世界の様々な領域においてオープンソースは当た

                                オープンソースとは何か? Open Source Definition逐条解説書 – Shuji Sado
                              • GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること

                                GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US [原文] ( mayumine ) これは嬉しい進化です。 OpenAIの開発者向けカンファレンス「DevDay」で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました(こちらの記事もどうぞ)。 いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。 さらにGPT-4 Turboでは、JSONモードが実装され、JS

                                  GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
                                • OpenAI API で提供されている モデル まとめ|npaka

                                  「OpenAI API」で提供されている「モデル」をまとめました。 ・Model - OpenAI API 1. OpenAI API で提供されている モデル「OpenAI API」で提供されている「モデル」は、次のとおりです。 ・GPT-4 / GPT-4 Turbo : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル ・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル ・DALL-E : 自然言語から画像を生成および編集できるモデル ・TTS : テキストを自然な音声に変換できるモデル ・Whisper : 音声をテキストに変換できるモデル ・Embedding : テキストをベクトル表現に変換できるモデル ・Moderation : テキストが機密または安全かどうかを検出できるモデル ・GPT base : ファインチューニング

                                    OpenAI API で提供されている モデル まとめ|npaka
                                  • Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB

                                    Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル(LLM)として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、動画の理解を含むマルチモーダルタスクでも最先端の性能を示しています。テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成しています。 また、複数のソースからの情報を統合して、より正確で詳細に理解する能力に優れているとのことです。 なお、Ultra、Pro、Nanoの3つのサイズがあり、それぞれ異なる計算要件に特化して設計されています(例えばモバイル向けにはNanoなど)。Ultraは最も高度に複雑なタスクをこなし、研究報告では主にUltraの性能が他モデルと比較されています。 本記事

                                      Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB
                                    • 倫理を振りかざすライセンスが好ましくないのは何故か?

                                      オープンソースが社会で受容されるにつれ、コミュニティの中においても一定の倫理が求められる傾向が強まっている。Code of Conduct(行動規範)を定める開発プロジェクトが多くなったのもその流れだろう。しかしながら、ライセンスによって使用者に対して倫理的な行動を求めることは現在に至っても忌避されており、それを悪だと看做す人々も多い。これは何故だろうか? (本稿は「オープンソースとは何か? Open Source Definition逐条解説書」の付録の一つとして収録されている文書である。) 嫌いな奴を排除する 大抵の人には嫌いな人がいるものだ。人間とはそのようなものだろう。その嫌いな人々に自分が開発したソフトウェアを使わせたくないという感情を持つことを中々否定できるものではない。そして、ソフトウェアの開発者には開発したソフトウェアに対する著作権が帰属する。著作権に基づいて第三者に対しソ

                                        倫理を振りかざすライセンスが好ましくないのは何故か?
                                      • マイクロソフトが法人向けソフトウェア値上げ 20%アップ

                                        日本マイクロソフトは12月6日、法人向けソフトウェアとクラウドサービスを値上げすると発表した。日本円の為替変動によるもので、2024年4月以降に現行価格から20%引き上げるという。対象サービスは具体的に書かれていないが、一律での値上げになるとみられる。 関連記事 Windows 11にアップグレードできないPC、国内に2000万台 “10サポート終了時”でも1000万台近く残存か 日本マイクロソフトが、「Windows 10」のサポート終了に向けた国内のWindows OSの利用状況を明かした。国内のコンシューマ市場にあるWindows PC約4800万台のうち、現時点で約2000万台が「Windows 11にアップグレードできないPC」だという。2年後の2025年10月にWindows 10のサポート終了が迫る中、PCの買い替えを推進しても“10のままのPC”は多数残りそうだ。 マイクロ

                                          マイクロソフトが法人向けソフトウェア値上げ 20%アップ
                                        • 2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..

                                          2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費(=100万以上するでしょ)を稼ぐと思ったらやる気出ない? ・まずは5日でその本を読む。文字認識しないと言うことだけど、Google翻訳アプリもダメ?無料OCRツールは試した?原書読むより入力するほうが早いなら、最悪手打ちで入力して翻訳にかけたら? ・1日で論文の構成を考える。ここはChatGPTと相談しながらできるでしょ。 ・その翌日、Wordの音声認識を使ってガーっとしゃべっていく。とにかくしゃべる。 ・できた文を直し、切り張り切りはりして、整える。ここに2日かける。 ・時間が余ったら先行研究とかざっとネットで見る。それをちょいちょい引用・追加していく。(ちゃんとそれを残す=アピールポイント) やれたら自信になると思うよ。そして社会人になると、2万字くらいのレポートは1週間ももらえないんだよね。

                                            2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..
                                          • Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし

                                            日本音響学会 学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル(と曲名)を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成 AI サービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無い UI と、 ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、 本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。 個人的には Suno AI について、以下のような所見を持っています。 Suno AI は

                                              Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
                                            • 「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024

                                              「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis

                                                「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024
                                              • 超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る

                                                対話型AIサービス「ChatGPT」で使われている自然言語モデルの核になっている技術が「Transformer」だ。自然言語処理を例に、Transformerの仕組みを解説する。 実は、エンコーダーとデコーダーに用いられている「RNN」(Recurrent Neural Network)には、欠点があります。それは、長い文章が苦手だということです。 なぜ苦手かというと、以下の2つのポイントからそのように言えます。 (1)RNNでは、翻訳元文章全体の特徴を記憶できるサイズが固定されている。そのため、文章が長くなり単語の数が増えるほど、エンコーダーにおいて、文章の前の方で出現した単語の意味が薄まってしまう。 (2)RNNでは、単語を1つずつニューラルネットワークで処理する。そのため、単語の数が多くなればなるほど処理時間がかかってしまう。 ですので、RNNが持つこうした欠点を解消するための仕組み

                                                  超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る
                                                • 噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z

                                                  最近にわかに話題のLLMツール「Dify」を僕も使ってみた。 いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。 特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。 元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言える テンプ

                                                    噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z
                                                  • トヨタ、車載OS「アリーン」を既存車種から搭載 次世代EVに先駆けて|自動車メーカー|紙面記事

                                                    トヨタ自動車は、開発中の車載OS(基本ソフト)「アリーン」を次世代型電気自動車(EV)に先駆けて既存の車両に搭載する方針だ。人工知能(AI)技術を活用した高度な音声認識やレコメンド(推薦)機能、販売後の機能更新サービスなどを顧客にいち早く体験してもらうのが狙い。車両開発でSDV(ソフトウエア・デファインド・ビークル)構想が広がる中、2026年発売…

                                                      トヨタ、車載OS「アリーン」を既存車種から搭載 次世代EVに先駆けて|自動車メーカー|紙面記事
                                                    • AIで職を失う危機が迫る中で「過去に本当に滅んだ職業」を確認してみた

                                                      AIの進歩に伴って「AIによって人間の仕事の大部分が奪われる」という不安が現実的なものになりつつあります。人類はAIの登場以前から「蒸気機関の発明」「電気の発明」「コンピューターの発明」といった多くの技術革新に直面したわけですが、そのたびに数多くの職業が不要となり消えていきました。そんな「社会情勢の変化によって消えた職業」をまとめたページが英語版Wikipediaに存在しています。 Category:Obsolete occupations - Wikipedia https://en.wikipedia.org/wiki/Category:Obsolete_occupations 英語版Wikipediaの「社会情勢の変化によって消えた職業」をまとめたページには記事作成時点で183件の職業が登録されているので、いくつか興味深いものをピックアップしてみました。 ◆電話交換手 電話の発明から

                                                        AIで職を失う危機が迫る中で「過去に本当に滅んだ職業」を確認してみた
                                                      • 隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術 中国の研究者らが開発

                                                        このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 香港大学や清華大学に所属する研究者らが発表した論文「Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals」は、ミリ波(mmWave)信号から音声を認識するストリーミング自動音声認識(ASR)システムを提案した研究報告である。このシステムは、周囲のノイズに強く、防音対策した部屋の外からでも取得でき、これまでと異なり長い文章をリアルタイムに認識する能力を提供する。 無線センシングの進展に伴い、特にミリ波信号の注目が高まっている。なぜなら、音源のミリメートルレベルの

                                                          隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術 中国の研究者らが開発
                                                        • OpenAI、次世代AIモデル「GPT-4o」を発表

                                                          日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                                                            OpenAI、次世代AIモデル「GPT-4o」を発表
                                                          • 給料は日本の5倍で、世界から集まる優秀な人たちと働ける──日本のエンジニアがアメリカで働くルートとは?

                                                            アメリカで働くことは多くの日本人にとって魅力的な選択肢である。特にシリコンバレーなどは「給与が日本の5倍」「世界中の優秀なエンジニアが集まる」といった印象を持たれており、憧れを抱く人も少なくないはず。Google、IBM Research、旧Facebookで働いた経験を持つ株式会社IVRy(アイブリー)の花木健太郎氏は、2023年12月9日に開催された「Developers CAREER Boost 2023」において、アメリカで働くことの魅力と、日本人がアメリカで働くための3つの方法について語った。 働き方が自由な海外、多くの優秀な人たちと出会える 花木氏は自然言語処理を専門とし、機械学習に10年の経験を持つ。彼はアメリカのミシガン大学で理論物理の博士号を取得した後、分野を転じてニューヨーク大学でデータサイエンスの修士号を取得した。修士課程在籍中には、ゴールドマン・サックスとFaceb

                                                              給料は日本の5倍で、世界から集まる優秀な人たちと働ける──日本のエンジニアがアメリカで働くルートとは?
                                                            • superwhisperでの音声入力を試す

                                                              superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                                                superwhisperでの音声入力を試す
                                                              • 【2024年】AWS全サービスまとめ | DevelopersIO

                                                                こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                                                                  【2024年】AWS全サービスまとめ | DevelopersIO
                                                                • 【2023年9月】0円で読めるPythonの技術書5選 - Qiita

                                                                  はじめに みなさん、こんにちは。高校生エンジニアのRaioです! 平日は公立高校に通いながら、放課後や休日はIT企業のエンジニアとして働いています🧑🏻‍💻 ↓筆者について↓ 今回の記事では、0円で読めるPythonの技術書5選を紹介します! 無料で読む方法も紹介してるので、是非最後まで見て頂けると幸いです👍🏻 技術書を無料で読む方法 KindleUnlimitedを使うことで、沢山の技術書を無料で何冊でも読むことが可能です🙌 200万冊以上の書籍が何冊でも読み放題 月額980円が今なら1ヶ月無料 場所に囚われず、様々な端末で使用可能 勿論、技術書以外にもビジネス書や漫画など種類豊富です! 今回の記事で紹介する技術書も、KindleUnlimitedで読むことができるので是非🥳 ↓入会したい方は画像をクリック↓ Python×Excelで作る かんたん自動化ツール 本書では、プ

                                                                    【2023年9月】0円で読めるPythonの技術書5選 - Qiita
                                                                  • 世界一わかりみの深いAzure OpenAI Service | SIOS Tech. Lab

                                                                    ◆ Live配信スケジュール ◆ サイオステクノロジーでは、Microsoft MVPの武井による「わかりみの深いシリーズ」など、定期的なLive配信を行っています。 ⇒ 詳細スケジュールはこちらから ⇒ 見逃してしまった方はYoutubeチャンネルをご覧ください 【4/18開催】VSCode Dev Containersで楽々開発環境構築祭り〜Python/Reactなどなど〜 Visual Studio Codeの拡張機能であるDev Containersを使ってReactとかPythonとかSpring Bootとかの開発環境をラクチンで構築する方法を紹介するイベントです。 https://tech-lab.connpass.com/event/311864/ みなさん、こんにちは。サイオステクノロジー武井です。今回は、今話題沸騰の生成AIサービスであるAzure OpenAI Se

                                                                      世界一わかりみの深いAzure OpenAI Service | SIOS Tech. Lab
                                                                    • UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた

                                                                      デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o

                                                                        UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた
                                                                      • ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた

                                                                        ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた AIの進化が止まらない。“生成AIブーム”の火付け役といえる米OpenAIの「ChatGPT」が2022年11月に登場してから、早くも1年以上が経過した。当時、出力結果の精度の高さに驚いた人も多いだろう。 世の中に数多くのAIツールや基盤モデルが登場し、業務効率化やデータ分析による新たな価値創造を狙ってAIの活用に乗り出そうという企業も増えている。米IDCが全世界の890人を対象に23年9月に実施した調査によると、77%以上の組織が生成AIに投資または活用を模索中と答えた(米IDC「企業向けGenerative AIガイド」より)。 生成AIはどのような用途で活躍するのか。IDCが上記調査で「今後18カ月で生成AIが最も大きな影響を与える可能性があるビジネス分野」を聞くと、第1位が「ソ

                                                                          ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた
                                                                        • 財務分析・株価予測・稟議書作成… AIプロフェッショナル組織のリーダーが語る、生成AI活用法

                                                                          ChatGPTは株価予測ができる 森正弥氏:こんな使い方もありますみたいなところで、大企業でもいろいろ進んでいるのは財務分析で、「財務データを入れて分析して」と言うと……ちょっと(スライドの)真ん中の文字が小さくて見えにくいですが、一般的な財務分析をしてくれます。 ちょっとインパクトがあったのが、ChatGPTは株価予測ができるという話ですね。これは普通にAIやマシンラーニングをやられている方からすると、「おいおい、それは言い過ぎだろう」と思ったりするわけですが、この論文の中身を読んだり、あるいは株価予測を業務としてやっている方からすると「まぁ、そうだよね」と思うところがある。 それは何かというと、株価予測だけじゃなくて金利の予測とか、そのマーケットの予測とか、あるいは原材料の価格予測でも共通の話です。基本的に今のデータからマシンラーニングの予測モデルを作って予測していきます。過去データか

                                                                            財務分析・株価予測・稟議書作成… AIプロフェッショナル組織のリーダーが語る、生成AI活用法
                                                                          • SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に

                                                                            Spotifyは「クリエイター自身の声を使うことで、音声翻訳はこれまで以上にリアルな方法で世界中のリスナーにホストのインスピレーションを受け取る力を与える」と語った。 ダニエル・エクCEOのXのポストで、スティーブン・バートレット氏とレックス・フリードマン氏のスペイン語吹き替えを試聴できる。 関連記事 ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に 米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。 YouTube、クリエイター向けイベントでAI搭載の複数ツールを発表 YouTubeはクリエイター向けイベントを開催し、複数の編集ツールを発表した。YouTubeショートの背景を生成AIで作る「Dream Screen」など、A

                                                                              SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に
                                                                            • [ここまで進化したChagGPT!] 今日から何がどう変わるのか [2023年11月最新版] - Qiita

                                                                              皆さん初めましてこんにちはこんばんは。スウェーデン在住のエンジニア、Harry(ハリー: https://twitter.com/harrythecode )と申します。 普段はDevOpsエンジニアとして働く傍ら、生成AIの最前線にも繰り出し、ToBやToC向けのアプリケーション開発などにフルスタックエンジニアとして携わっています。 2023年11月7日 日本時間午前3時より、ChatGPTの生みの親、OpenAI社のサム・オルトマンによる講演が行われました。 この中で、多くの人が待ち望んだ様々な機能の実装や改善が行われています。 読むのが辛いよ、って方は以下の一言まとめをどうぞ。 また今回の発表によって何が新しくなって、今後どう変わっていくのか、を現役エンジニア目線でご紹介します。では見ていきましょう。 何が新しいん? GPT-4 Turboの発表: コンテキスト長の拡張: 128,0

                                                                                [ここまで進化したChagGPT!] 今日から何がどう変わるのか [2023年11月最新版] - Qiita
                                                                              • 趣味Rustから業務Rustへ

                                                                                こんにちは!プロダクト開発部の熊谷です。 Fairy Devices(フェアリーデバイセズ) の 入社エントリ を書きます!! 背景 私が Rust に出会ったのが2019年。それまでは C, C# をよく書いていましたが、 Rust の型システムやメモリ安全性、パフォーマンスに魅了され、ますます没頭していきました。 当時学生だったわけですが、新卒時は Rust にこだわらず仕事の安定性を求めて、 SIer 業界に就職しました。 そこで働きつつ、こんなことを思っていました 業務でも Rust を書きたい! 自社製品を開発したい! 5000兆円欲しい! 業務経験も乏しい上に Rust の求人はまだ少なく狭き門になると考え、個人開発や勉強会への参加など頑張っていました。 そんなとき、 Rust.Tokyo で当社の存在を知り、入社に至りました。 何をやっているか mimi®クラウドAI のサー

                                                                                  趣味Rustから業務Rustへ
                                                                                • 文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                                                  2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第19回目は、人気の文字起こしソフト「Whisper」の高速化版、スマホでできるAIボイチェン、プレッシャーをかける感情付きプロンプトをはじめとする、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップOpenAIの文字起こしAI「Whisper」を軽量かつ高速にするモデル「Distil-Whisper」 Hugging Faceが開発 3.2兆以上のトークンで学習された、130億のパラメータを持つオープン大規模言語モデル「Skywork」 テキストや画像から高品質な動画を生成するオープンソースモデル「VideoCrafter1」 中国テンセント含む研

                                                                                    文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge