並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 382件

新着順 人気順

音声認識の検索結果1 - 40 件 / 382件

  • 私のセキュリティ情報収集法を整理してみた(2024年版) - Fox on Security

    新年あけましておめでとうございます。毎年この時期に更新している「私の情報収集法(2024年版)」を今年も公開します。 ■はじめに サイバー攻撃は国境を越えて発生するため、ランサムウェア、フィッシング、DDoS攻撃など、近年のサイバー脅威の常連となっている攻撃者(脅威アクター)が主に海外にいることを考えると、世界の脅威動向を理解することが年々重要になっています。 海外から日本の組織が受けるサイバー攻撃の多くでは、国際共同オペレーション等の一部のケースを除き、日本の警察が犯罪活動の協力者(出し子、買い子、送り子)を摘発することはあっても、サイバー攻撃の首謀者(コアメンバー)を逮捕するまで至るケースはほとんどありません。 誤解を恐れずに言えば、日本の組織は海外からの攻撃を受け続けているのに、海外で発生したインシデントや攻撃トレンドの把握が遅れ、対策が後手に回っているケースも多いように感じます。最

      私のセキュリティ情報収集法を整理してみた(2024年版) - Fox on Security
    • 中学生でもわかる深層学習

      第1章 理論編 ・深層学習とは (p.13-) ・ニューラルネットワークとは (p.31-) ・どうやって学習するか: 勾配降下法 (p.57-) ・深層学習の注意点 (p.91-) 第2章 応用編 ・分類問題 (p.110-) ・画像認識 (p.120-) ・音声認識/自然言語処理…

        中学生でもわかる深層学習
      • 時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす

        みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無

          時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす
        • 「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】

            「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】
          • 可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z

            こういうのが欲しかったんだよ。マジで。 コマンドラインからLLMを呼び出せるgptmeというツールがアツい これは、gptmeコマンドを追加するというもの。 環境変数としてOPENAI_API_KEYとかAnthropicのキーとかを設定しておくと勝手にAPIを呼び出してくれる。もちろん、クラウドに送信するとかけしからんという勢にはローカルLLMでも対応できる。 こいつはコマンドライン版ChatGPTのようなものなので、コマンドラインで動くのだが、その真価は例えばパイプで繋いだ時とかに発揮される。 $ du -d 1|gptme "一番容量を食ってるフォル ダは何Gバイト使ってんの?" Found OpenAI API key, using OpenAI provider [10:13:32] No model specified, using recommended model for

              可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme|shi3z
            • 爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は?/実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】

                爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は?/実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】
              • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

                大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                  RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
                • 熟練が必要なUIについて、それがよくない理由と、UIの慣性について

                  久しぶりに記事を書く。最近マルス端末のUIについてツイートがあった。 この件に関して、UIについてやUXに対して日々やってきている人間は「ダメなUI」という認識の人が多いように思う。一方で、システムの開発者にとってはこれは、その認識でない人間が多いようだ。なので、この辺を私なりに意見を書いておこうと思う。 まぁ、これはいつもなのだが、書いていることが散らかってる。基本的に音声入力のメモなので、読みにくいかもしれないが読んでくれ参考になれば幸いだ。 熟練が必要なUIは基本的によくない まず、基本的に熟練が必要なUIはそもそも良くないって話をしていく。順番に話していこう、まず、熟練が必要なUIが支持される理由を考え、それに対して、批判していき、なぜ熟練が必要なUIはダメかを語ってみよう。 熟練が必要なUIが支持される理由 その前に、こういった熟練のUIが支持される理由についてかいておこう。それ

                    熟練が必要なUIについて、それがよくない理由と、UIの慣性について
                  • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

                    以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

                      OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
                    • ChatGPTのアプリ版すごくね!?

                      モバイルアプリ版に実装されてる音声入出力機能が無課金ユーザーにも開放されたってニュースを見て貧乏人の俺は早速ダウンロードしたわけね。 英会話の練習に使えるみたいなニュースを見てたから興味津々でトライしたわけよ。 そしたらまあ俺の英語力では話すのも聞き取るのもままならず、到底使いこなせる”域”に達してねえなこりゃ、と早々に自分に失望したよ。 はあ、アンインスコするか・・・と思いながら設定ちょろちょろ弄ってたら「Speach」の欄にMain Languageって項目があって、そこがAuto-Detect(自動検出)になってたんよね。 あっこれのせいか!俺の英語力が悪いからじゃなかったんだと思って、Englishに切り替えてもう一回やってみたわけ。 そしたら案の定結果は変わらずさらに落ち込んだ。 で、もうどうでもいいやと思いながら日本語で適当に話しかけたんだよ。 そしたら! なぜか俺が日本語で話

                        ChatGPTのアプリ版すごくね!?
                      • 文字起こしアプリで伝言ゲーム

                        1971年東京生まれ。デイリーポータルZウェブマスター。主にインターネットと世田谷区で活動。 編著書は「死ぬかと思った」(アスペクト)など。イカの沖漬けが世界一うまい食べものだと思ってる。(動画インタビュー) 前の記事:影だけ悪魔の人になりたい > 個人サイト webやぎの目 ルール 肉声で喋る→アプリで文字起こし→その結果をiPhoneで読み上げ→ 別のアプリで文字起こし → また読みあげ → またまた別のアプリで文字起こし …を繰り返す。 そうして文章がずれていくさまを楽しもう。

                          文字起こしアプリで伝言ゲーム
                        • 野沢雅子ら声優の声をAI音声化 青二プロダクション発表で音声ナビなどへ提供「演技の領域に関わるものにはサービスを提供しない」

                          青二プロダクションに所属する声優たちの魅力的な音声データを、CoeFontのAI音声技術で、英語や中国語をはじめとした多言語化への対応を行う。多言語化対応をした高品質なAI音声を、主に音声アシスタント(ex.Amazon Alexa、Google アシスタント)、ロボット・音声ナビゲーション搭載製品(ex.Pepper、医療機器)等への提供・提案を進めていく。 これにより、グローバルな市場における音声認識技術の普及や社会福祉に貢献し、より多くのユーザーに、親しみのある声優の声でサービスを利用してもらうことを目指す。 AI音声技術を活用したグローバル戦略パートナーシップ締結の背景は、昨今、生成AIへの注目度が高まる中、唯一無二の特徴を持っている声優たちとAIの向き合い方が問われており、日本国内外問わず、声優や俳優の音声を不正に学習させるという事件が発生し、ルールメイキングの必要性に迫られてい

                            野沢雅子ら声優の声をAI音声化 青二プロダクション発表で音声ナビなどへ提供「演技の領域に関わるものにはサービスを提供しない」
                          • 利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話

                            これはキーボードを筆頭とするインターフェイスが大好きなフリーライターの白石が、昨年10月に利き腕を骨折、そこから片手用キーボード『Froggy』により10000字を書いて、骨折中の期間をどうにかしのいだ10月の記録です。本当に助かったので、片手でキーボードを打つすべての人にこのキーボードを広めたい……! 自己紹介と悲劇の日 改めて、フリーライターの白石です。RealSoundでは主にテクノロジーやライブ・エンターテインメントにまつわるコラムやインタビューを執筆しています。演劇学科を出てからパソコン専門誌の編集者としてキャリアを始めた経歴もあって、ライターとしてはメディア・アートや舞台芸術、音楽ライブのレポート、MacやiPhoneなどのApple製品にまつわる記事などを書くことが多いです。 そんな私が寝ぼけたまま家の近くですっ転んだのは、10月中旬のこと。雨の振り始めた昼過ぎにスロープへ足

                              利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話
                            • 新・必須ガジェット。テレワークのストレスを全部解決してくれました

                              新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀 もう手放せない。 最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。 さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭

                                新・必須ガジェット。テレワークのストレスを全部解決してくれました
                              • GPT-4に日本語特化モデル OpenAI Japan始動会見で発表

                                米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。 関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。 マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応 米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA

                                  GPT-4に日本語特化モデル OpenAI Japan始動会見で発表
                                • 【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す|shi3z

                                  なぜタヌキなのか? その謎は謎のままだが、とにかく日本語性能がGemini1.5Proに次ぎ、少し前のGPT-4よりも高い上に商用利用可能という太っ腹仕様なので使わない手はない。むしろこれさえあればもう誰もGPTに課金しなくて済む、そんな未来が来るのかもしれない。 しかし、Tanukiは特殊な何かをしてるらしくMLXに簡単にコンバートできずvllmで動かすときもちょっと魔改造したvllmが必要になるという。 最近ローカルづいてる吾輩としてはできればMLXで動かしたいのだがMLXがまだTanukiに対応してない(し、そもそも何をすればTanuki対応にできるのかよくわからない)ので、とりあえず「非推奨」とされてはいるものの、Macでもギリギリ動きそうなGGUF版を動かしてみた。 from llama_cpp import Llama filename = "Tanuki-8B-dpo-v1.

                                    【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す|shi3z
                                  • 培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応

                                    人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f

                                      培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
                                    • OpenAIの文字起こしAI「Whisper」、医療現場での利用に研究者らが警鐘

                                      米OpenAIが2022年に発表した音声テキスト変換AI「Whisper」に、文章の一部または全部を捏造してしまういわゆる「幻覚」による重大な欠陥があると、米Associated Pressは10月26日(現地時間)、多数のエンジニアや研究者へのインタビューに基づいて報じた。 Whisperは、インタビューの翻訳や文字起こし、消費者向け技術でのテキスト生成、動画の字幕作成など、世界中の様々な業界で使用されている。Associated Pressは、医療機関でもWhisperベースのツールが診察の会話の文字起こしで使われ始めていることが、深刻な懸念を引き起こしていると指摘する。 Whisperのトレーニングには、ネット上の膨大な音声データと、それに対応する文字起こしテキストから構成される、68万時間に及ぶ大規模なデータセットが使われたとしているが、トレーニングに使った具体的なソースは明示して

                                        OpenAIの文字起こしAI「Whisper」、医療現場での利用に研究者らが警鐘
                                      • ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z

                                        朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。 暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。 昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。 昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。 他のHMDと違い

                                          ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)|shi3z
                                        • オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)

                                          今回の発表で強く感じたことは、やはりOpenAIの目指すChatGPTが単なるチャットアプリケーションではないということだ。 従来のオペレーティングシステム(OS)はハードウェアとアプリケーションの架け橋である。だがOpenAIはChatGPTを「言語で命令できるオペレーティングエージェント」と位置付け、人生のあらゆるタッチポイントで新たなゲートキーパーとなろうとしているように思える。 IT競争は手前の取り合い歴史を振り返れば、IT競争の常道とは、ゲートウェイを手前に築くことにあったようだ。PCの争いをOSが無意味化し、OSの争いをブラウザが、ブラウザの争いを検索エンジンがと、そしてそれをスマホとアプリが…このようにITの争いは常に手前を争うものだった。こうして一番手前を抑えた企業は、大きな利益を手に入れた。 今、OpenAIの動きは、このメタゲームに大きな変化を加えつつある。 OpenA

                                            オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)
                                          • オープンソースとは何か? Open Source Definition逐条解説書 – Shuji Sado

                                            オープンソースとは何か? Open Source Definition(オープンソースの定義) 逐条解説書 v1.0, 2024年1月22日 佐渡 秀治 Open Source guy オープンソース(Open Source)とは、米国の公益法人であるOpen Source Initiative(OSI)が策定した「オープンソースの定義」(Open Source Definition)で書かれた条件を満たすライセンス及びそのライセンスが適用されるソフトウェアのことである。このオープンソースという用語は自由ソフトウェア(Free Software)の代替として企図され、広く一般へ自由なソフトウェアを広めるためのキャンペーンのための用語として人為的に策定されたが、その後のオープンソース・ムーブメントと呼ばれる熱狂期を経て、紆余曲折ありながらも現在では世界の様々な領域においてオープンソースは当た

                                              オープンソースとは何か? Open Source Definition逐条解説書 – Shuji Sado
                                            • GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること

                                              GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US [原文] ( mayumine ) これは嬉しい進化です。 OpenAIの開発者向けカンファレンス「DevDay」で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました(こちらの記事もどうぞ)。 いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。 さらにGPT-4 Turboでは、JSONモードが実装され、JS

                                                GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
                                              • OpenAI API で提供されている モデル まとめ|npaka

                                                「OpenAI API」で提供されている「モデル」をまとめました。 ・Model - OpenAI API 1. OpenAI API で提供されている モデル「OpenAI API」で提供されている「モデル」は、次のとおりです。 ・GPT-4o : GPT-4よりも安価で高速な、最も先進的なマルチモーダルフラッグシップモデル ・GPT-4 : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル ・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル ・DALL-E : 自然言語から画像を生成および編集できるモデル ・TTS : テキストを自然な音声に変換できるモデル ・Whisper : 音声をテキストに変換できるモデル ・Embedding : テキストをベクトル表現に変換できるモデル ・Moderation : テキストが機密または安全か

                                                  OpenAI API で提供されている モデル まとめ|npaka
                                                • 倫理を振りかざすライセンスが好ましくないのは何故か?

                                                  オープンソースが社会で受容されるにつれ、コミュニティの中においても一定の倫理が求められる傾向が強まっている。Code of Conduct(行動規範)を定める開発プロジェクトが多くなったのもその流れだろう。しかしながら、ライセンスによって使用者に対して倫理的な行動を求めることは現在に至っても忌避されており、それを悪だと看做す人々も多い。これは何故だろうか? (本稿は「オープンソースとは何か? Open Source Definition逐条解説書」の付録の一つとして収録されている文書である。) 嫌いな奴を排除する 大抵の人には嫌いな人がいるものだ。人間とはそのようなものだろう。その嫌いな人々に自分が開発したソフトウェアを使わせたくないという感情を持つことを中々否定できるものではない。そして、ソフトウェアの開発者には開発したソフトウェアに対する著作権が帰属する。著作権に基づいて第三者に対しソ

                                                    倫理を振りかざすライセンスが好ましくないのは何故か?
                                                  • Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB

                                                    Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル(LLM)として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、動画の理解を含むマルチモーダルタスクでも最先端の性能を示しています。テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成しています。 また、複数のソースからの情報を統合して、より正確で詳細に理解する能力に優れているとのことです。 なお、Ultra、Pro、Nanoの3つのサイズがあり、それぞれ異なる計算要件に特化して設計されています(例えばモバイル向けにはNanoなど)。Ultraは最も高度に複雑なタスクをこなし、研究報告では主にUltraの性能が他モデルと比較されています。 本記事

                                                      Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB
                                                    • 2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..

                                                      2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費(=100万以上するでしょ)を稼ぐと思ったらやる気出ない? ・まずは5日でその本を読む。文字認識しないと言うことだけど、Google翻訳アプリもダメ?無料OCRツールは試した?原書読むより入力するほうが早いなら、最悪手打ちで入力して翻訳にかけたら? ・1日で論文の構成を考える。ここはChatGPTと相談しながらできるでしょ。 ・その翌日、Wordの音声認識を使ってガーっとしゃべっていく。とにかくしゃべる。 ・できた文を直し、切り張り切りはりして、整える。ここに2日かける。 ・時間が余ったら先行研究とかざっとネットで見る。それをちょいちょい引用・追加していく。(ちゃんとそれを残す=アピールポイント) やれたら自信になると思うよ。そして社会人になると、2万字くらいのレポートは1週間ももらえないんだよね。

                                                        2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..
                                                      • マイクロソフトが法人向けソフトウェア値上げ 20%アップ

                                                        日本マイクロソフトは12月6日、法人向けソフトウェアとクラウドサービスを値上げすると発表した。日本円の為替変動によるもので、2024年4月以降に現行価格から20%引き上げるという。対象サービスは具体的に書かれていないが、一律での値上げになるとみられる。 関連記事 Windows 11にアップグレードできないPC、国内に2000万台 “10サポート終了時”でも1000万台近く残存か 日本マイクロソフトが、「Windows 10」のサポート終了に向けた国内のWindows OSの利用状況を明かした。国内のコンシューマ市場にあるWindows PC約4800万台のうち、現時点で約2000万台が「Windows 11にアップグレードできないPC」だという。2年後の2025年10月にWindows 10のサポート終了が迫る中、PCの買い替えを推進しても“10のままのPC”は多数残りそうだ。 マイクロ

                                                          マイクロソフトが法人向けソフトウェア値上げ 20%アップ
                                                        • Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし

                                                          日本音響学会 学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル(と曲名)を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成 AI サービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無い UI と、 ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、 本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。 個人的には Suno AI について、以下のような所見を持っています。 Suno AI は

                                                            Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
                                                          • 「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024

                                                            「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,832 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis

                                                              「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024
                                                            • 噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z

                                                              最近にわかに話題のLLMツール「Dify」を僕も使ってみた。 いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。 特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。 元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言える テンプ

                                                                噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z
                                                              • 超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る

                                                                対話型AIサービス「ChatGPT」で使われている自然言語モデルの核になっている技術が「Transformer」だ。自然言語処理を例に、Transformerの仕組みを解説する。 実は、エンコーダーとデコーダーに用いられている「RNN」(Recurrent Neural Network)には、欠点があります。それは、長い文章が苦手だということです。 なぜ苦手かというと、以下の2つのポイントからそのように言えます。 (1)RNNでは、翻訳元文章全体の特徴を記憶できるサイズが固定されている。そのため、文章が長くなり単語の数が増えるほど、エンコーダーにおいて、文章の前の方で出現した単語の意味が薄まってしまう。 (2)RNNでは、単語を1つずつニューラルネットワークで処理する。そのため、単語の数が多くなればなるほど処理時間がかかってしまう。 ですので、RNNが持つこうした欠点を解消するための仕組み

                                                                  超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る
                                                                • Windowsのショートカットキー「Win+H」でタイピングを不要にする【今日のワークハック】 | ライフハッカー・ジャパン

                                                                  メール、企画書、プレゼン原稿、議事録など、ビジネスパーソンには、書く(入力する)仕事がたくさんありますね。 誰もが、「これをスピード・アップできたら」と思いながら、キーボード・マウスを買い替えたり、タイピングを練習したり、たくさん単語登録をしたりと努力しています。 そこで入力作業の速度を上げるために、何よりも決定打となる方法をお伝えします。 今日のワークハック:音声入力機能「Win+H」で文書作成を高速化するそれは音声入力。Windows OSのデフォルト機能ですぐに使える「Windowsキー+Hキー」です。 かつての音声認識精度の低さや、なんとなくの心理的抵抗感から、存在は知っていても利用していないスルーされがちな、音声入力「Win+H」のメリットを解説していきましょう。 「音声入力」は進化し実用できるレベルになったたしかに数年前までの音声入力の精度は、実用とは程遠くフラストレーションが

                                                                    Windowsのショートカットキー「Win+H」でタイピングを不要にする【今日のワークハック】 | ライフハッカー・ジャパン
                                                                  • 2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊 - Qiita

                                                                    2023年版データ分析の100冊 が好評でしたので、2024年版を作りましたよ。 本記事のめあて IT系の技術者の方がデータ分析関連の仕事をするために役立つ本を紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております 本記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・Perl・MySQL)からRで時系列分析→Pythonでデータ分析一般と業務をしてまいりました ですので研究者目的の本はありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせて理論のほかはPython本のみにしています 「本記事のR版のご要望があれば爆裂書きます!」と去年書いたのですが要望0 あはは、Rの本は今回撲滅しました! こういうリストを挙げる奴は大抵読んでいない、と過去にも言われたのですが、未読本は削除しました 最近好著連発なので読んでいる途中だけど挙

                                                                      2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊 - Qiita
                                                                    • AIで職を失う危機が迫る中で「過去に本当に滅んだ職業」を確認してみた

                                                                      AIの進歩に伴って「AIによって人間の仕事の大部分が奪われる」という不安が現実的なものになりつつあります。人類はAIの登場以前から「蒸気機関の発明」「電気の発明」「コンピューターの発明」といった多くの技術革新に直面したわけですが、そのたびに数多くの職業が不要となり消えていきました。そんな「社会情勢の変化によって消えた職業」をまとめたページが英語版Wikipediaに存在しています。 Category:Obsolete occupations - Wikipedia https://en.wikipedia.org/wiki/Category:Obsolete_occupations 英語版Wikipediaの「社会情勢の変化によって消えた職業」をまとめたページには記事作成時点で183件の職業が登録されているので、いくつか興味深いものをピックアップしてみました。 ◆電話交換手 電話の発明から

                                                                        AIで職を失う危機が迫る中で「過去に本当に滅んだ職業」を確認してみた
                                                                      • OpenAI、次世代AIモデル「GPT-4o」を発表

                                                                        日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                                                                          OpenAI、次世代AIモデル「GPT-4o」を発表
                                                                        • 給料は日本の5倍で、世界から集まる優秀な人たちと働ける──日本のエンジニアがアメリカで働くルートとは?

                                                                          アメリカで働くことは多くの日本人にとって魅力的な選択肢である。特にシリコンバレーなどは「給与が日本の5倍」「世界中の優秀なエンジニアが集まる」といった印象を持たれており、憧れを抱く人も少なくないはず。Google、IBM Research、旧Facebookで働いた経験を持つ株式会社IVRy(アイブリー)の花木健太郎氏は、2023年12月9日に開催された「Developers CAREER Boost 2023」において、アメリカで働くことの魅力と、日本人がアメリカで働くための3つの方法について語った。 働き方が自由な海外、多くの優秀な人たちと出会える 花木氏は自然言語処理を専門とし、機械学習に10年の経験を持つ。彼はアメリカのミシガン大学で理論物理の博士号を取得した後、分野を転じてニューヨーク大学でデータサイエンスの修士号を取得した。修士課程在籍中には、ゴールドマン・サックスとFaceb

                                                                            給料は日本の5倍で、世界から集まる優秀な人たちと働ける──日本のエンジニアがアメリカで働くルートとは?
                                                                          • superwhisperでの音声入力を試す

                                                                            superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                                                              superwhisperでの音声入力を試す
                                                                            • 【2024年】AWS全サービスまとめ | DevelopersIO

                                                                              こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。 こんにちは。サービス開発室の武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個 です。 まとめるにあ

                                                                                【2024年】AWS全サービスまとめ | DevelopersIO
                                                                              • UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた

                                                                                デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o

                                                                                  UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた
                                                                                • ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた

                                                                                  ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた AIの進化が止まらない。“生成AIブーム”の火付け役といえる米OpenAIの「ChatGPT」が2022年11月に登場してから、早くも1年以上が経過した。当時、出力結果の精度の高さに驚いた人も多いだろう。 世の中に数多くのAIツールや基盤モデルが登場し、業務効率化やデータ分析による新たな価値創造を狙ってAIの活用に乗り出そうという企業も増えている。米IDCが全世界の890人を対象に23年9月に実施した調査によると、77%以上の組織が生成AIに投資または活用を模索中と答えた(米IDC「企業向けGenerative AIガイド」より)。 生成AIはどのような用途で活躍するのか。IDCが上記調査で「今後18カ月で生成AIが最も大きな影響を与える可能性があるビジネス分野」を聞くと、第1位が「ソ

                                                                                    ChatGPTで「業務アプリ」作成に挑戦 プログラミングの工数削減につながるか? 新機能を使い倒してみた