「音声認識」を検索 - はてなブックマーク

1 - 40 件 / 48件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

音声認識の検索結果1 - 40 件 / 48件

ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
- 896 users
- togetter.com
- テクノロジー
- 2023/09/28
チキン＠ライター @HeroofChickens フリーランスのライター4年目。リストラがきっかけ。Kindle出版1位、Kindleプロデュースで1位・ベストセラー取得。商業出版のブックライティング中（2024年の5月ごろ出版かな？） webwhiter-skill.com/job/
- ChatGPT
- AI
- あとで読む
- togetter
- 人工知能
- 技術
- 音声
- technology
- 文章生成AI
- 文章
私のセキュリティ情報収集法を整理してみた（2024年版） - Fox on Security
- 868 users
- foxsecurity.hatenablog.com
- テクノロジー
- 2024/01/03
新年あけましておめでとうございます。毎年この時期に更新している「私の情報収集法(2024年版）」を今年も公開します。 ■はじめにサイバー攻撃は国境を越えて発生するため、ランサムウェア、フィッシング、DDoS攻撃など、近年のサイバー脅威の常連となっている攻撃者（脅威アクター）が主に海外にいることを考えると、世界の脅威動向を理解することが年々重要になっています。海外から日本の組織が受けるサイバー攻撃の多くでは、国際共同オペレーション等の一部のケースを除き、日本の警察が犯罪活動の協力者（出し子、買い子、送り子）を摘発することはあっても、サイバー攻撃の首謀者（コアメンバー）を逮捕するまで至るケースはほとんどありません。誤解を恐れずに言えば、日本の組織は海外からの攻撃を受け続けているのに、海外で発生したインシデントや攻撃トレンドの把握が遅れ、対策が後手に回っているケースも多いように感じます。最
- セキュリティ
- あとで読む
- security
- 情報
- ニュース
- 仕事
- サイト
- まとめ
- IT
- 技術
中学生でもわかる深層学習
- 560 users
- speakerdeck.com/e869120
- テクノロジー
- 2024/03/29
第1章　理論編・深層学習とは (p.13-) ・ニューラルネットワークとは (p.31-) ・どうやって学習するか: 勾配降下法 (p.57-) ・深層学習の注意点 (p.91-) 第2章　応用編・分類問題 (p.110-) ・画像認識 (p.120-) ・音声認識／自然言語処理 (p.151-) ・講演のまとめ (p.167-)
- 機械学習
- あとで読む
- AI
- deeplearning
- 勉強
- 学習
- 人工知能
- 言語
- 深層学習
- study
「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記（173）【急遽テレワーク導入！の顛末記】
- 392 users
- internet.watch.impress.co.jp
- テクノロジー
- 2024/01/29
- AI
- あとで読む
- 文字起こし
- ツール
- tool
- webサービス
- データ
- 無料
- 音声認識
- 仕事
Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び｜にょす
- 332 users
- note.com/nyosubro
- テクノロジー
- 2023/08/19
日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました！しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です！（笑）シャべマルの紹介具体的には、、絵文字で見返せるメモアプリあんまりないですが、良いですよ…！音声入力でメモ内容を作成。かなり高精度な音声認識モデル（Whisper）を用いているので、想像以上にちゃんと文字起こししてくれます！「今日あったこと」など、日記として利用するのもオススメです。1日を振り返る機会になって、それが後から振り返りできるので、あの時こんなこと考えていたなー、といった発見につながるはずです！そして個人的にここが目玉なのですが、文字起こしされたメモには、「タイトル」「絵文字アイコン」「感情アイコン」「カテゴリ」が自動で紐づきます！これ何が良いかというと、圧倒的に見返しやすくなるんですよね
- ChatGPT
- あとで読む
- アプリ
- AI
- メモ
- 開発
- Whisper
- function
- 記録
- webサービス
熟練が必要なUIについて、それがよくない理由と、UIの慣性について
- 276 users
- zenn.dev/nobkz
- テクノロジー
- 2024/06/06
久しぶりに記事を書く。最近マルス端末のUIについてツイートがあった。この件に関して、UIについてやUXに対して日々やってきている人間は「ダメなUI」という認識の人が多いように思う。一方で、システムの開発者にとってはこれは、その認識でない人間が多いようだ。なので、この辺を私なりに意見を書いておこうと思う。まぁ、これはいつもなのだが、書いていることが散らかってる。基本的に音声入力のメモなので、読みにくいかもしれないが読んでくれ参考になれば幸いだ。熟練が必要なUIは基本的によくないまず、基本的に熟練が必要なUIはそもそも良くないって話をしていく。順番に話していこう、まず、熟練が必要なUIが支持される理由を考え、それに対して、批判していき、なぜ熟練が必要なUIはダメかを語ってみよう。熟練が必要なUIが支持される理由その前に、こういった熟練のUIが支持される理由についてかいておこう。それ
OpenAI DevDay で発表された新モデルと新開発ツールまとめ｜npaka
- 269 users
- note.com/npaka
- テクノロジー
- 2023/11/07
以下の記事が面白かったので、かるくまとめました。・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造
- ChatGPT
- あとで読む
- AI
- OpenAI
- GPT
- 開発
- 人工知能
- API
- LLM
- まとめ
ChatGPTのアプリ版すごくね！？
- 268 users
- anond.hatelabo.jp
- テクノロジー
- 2023/11/22
モバイルアプリ版に実装されてる音声入出力機能が無課金ユーザーにも開放されたってニュースを見て貧乏人の俺は早速ダウンロードしたわけね。英会話の練習に使えるみたいなニュースを見てたから興味津々でトライしたわけよ。そしたらまあ俺の英語力では話すのも聞き取るのもままならず、到底使いこなせる”域”に達してねえなこりゃ、と早々に自分に失望したよ。はあ、アンインスコするか・・・と思いながら設定ちょろちょろ弄ってたら「Speach」の欄にMain Languageって項目があって、そこがAuto-Detect（自動検出）になってたんよね。あっこれのせいか！俺の英語力が悪いからじゃなかったんだと思って、Englishに切り替えてもう一回やってみたわけ。そしたら案の定結果は変わらずさらに落ち込んだ。で、もうどうでもいいやと思いながら日本語で適当に話しかけたんだよ。そしたら！なぜか俺が日本語で話
- ChatGPT
- あとで読む
- AI
- 英語
- 増田
- アプリ
- 人工知能
- 言語
- 翻訳
- 日本語
RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
- 265 users
- sue124.hatenablog.com
- テクノロジー
- 2024/07/03
大規模言語モデル (LLM) の学習データに含まれない知識（各社の特有の書類など）を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。そのような問題への対応としてRAGが使われます。「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に
- RAG
- LLM
- AI
- あとで読む
- 論文
- 検索
- 自然言語処理
- 技術
Udemyで夏のビッグセール開催！話題の生成系AIからプロダクトマネジメントまで、新たな得意分野を見つけよう - はてなニュース
- 241 users
- hatenanews.com
- テクノロジー
- 2023/08/22
※夏のビッグセール、およびキャンペーンは終了しました。ご応募ありがとうございました。なお、Udemyの講座修了者を対象とした「学習応援キャンペーン」は9月30日まで実施中です。オンライン学習プラットフォーム「Udemy」では、2023年8月22日（火）から夏のビッグセールを開催します。対象の講座が1,200円から購入可能と、なかなかチャレンジできなかった新しい領域を学習するにはとってもお得なチャンス。今回のセール対象講座から、ChatGPTやMidjourneyといった話題の生成系AI、その基礎となる大規模言語モデル（LLM）の入門や実装を扱う講座といった人気のトピックに加えて、アプリケーション開発やプロジェクトマネジメント、さらには英語学習など、ステップアップを目指すITエンジニアにオススメの中級から上級の講座もピックアップして紹介します。 Udemyで勉強を始めたいけれど、いろいろ
文字起こしアプリで伝言ゲーム
- 227 users
- dailyportalz.jp
- おもしろ
- 2024/01/25
1971年東京生まれ。デイリーポータルZウェブマスター。主にインターネットと世田谷区で活動。編著書は「死ぬかと思った」（アスペクト）など。イカの沖漬けが世界一うまい食べものだと思ってる。（動画インタビュー）前の記事：影だけ悪魔の人になりたい＞個人サイト webやぎの目ルール肉声で喋る→アプリで文字起こし→その結果をiPhoneで読み上げ→ 別のアプリで文字起こし → また読みあげ → またまた別のアプリで文字起こし …を繰り返す。そうして文章がずれていくさまを楽しもう。
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
- 206 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/20
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみたはじめに今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。ストリーミングとバッチ処理のどちらでも文字起こしが可能です。攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び
- AI
- あとで読む
- aws
- API
- 人工知能
- OpenAI
- APIエコノミー
- Amazon Web Services
- techfeed
利き腕を骨折した専業ライターが片手用キーボード『Froggy』で苦境をしのいだ話
- 192 users
- realsound.jp
- テクノロジー
- 2024/01/12
これはキーボードを筆頭とするインターフェイスが大好きなフリーライターの白石が、昨年10月に利き腕を骨折、そこから片手用キーボード『Froggy』により10000字を書いて、骨折中の期間をどうにかしのいだ10月の記録です。本当に助かったので、片手でキーボードを打つすべての人にこのキーボードを広めたい……！自己紹介と悲劇の日改めて、フリーライターの白石です。RealSoundでは主にテクノロジーやライブ・エンターテインメントにまつわるコラムやインタビューを執筆しています。演劇学科を出てからパソコン専門誌の編集者としてキャリアを始めた経歴もあって、ライターとしてはメディア・アートや舞台芸術、音楽ライブのレポート、MacやiPhoneなどのApple製品にまつわる記事などを書くことが多いです。そんな私が寝ぼけたまま家の近くですっ転んだのは、10月中旬のこと。雨の振り始めた昼過ぎにスロープへ足
- キーボード
- PC
- あとで読む
- keyboard
- 生活
- gadget
- 工作
- 技術
- コンピュータ
新・必須ガジェット。テレワークのストレスを全部解決してくれました
- 189 users
- www.gizmodo.jp
- テクノロジー
- 2024/03/28
新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀もう手放せない。最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭
GPT-4に日本語特化モデル　OpenAI Japan始動会見で発表
- 184 users
- www.itmedia.co.jp
- テクノロジー
- 2024/04/15
米OpenAIは4月15日、大規模言語モデル「GPT-4」について、日本語に最適化したカスタムモデルを発表した。日本語のテキストを記述する能力が向上しており、「GPT-4 Turbo」より最大3倍高速とうたっている。今後数カ月以内にAPIをリリースするという。関連記事 OpenAI、“怠けにくい”「GPT-4 Turbo」プレビューリリースや値下げを発表 OpenAIは、11月に発表した「GPT-4 Turbo」のプレビュー版をリリースすると発表した。「GPT-4」が怠け者になってきたという苦情を受け、怠けにくくしたという。公式版は数カ月中にリリースする計画だ。マイクロソフト提供の“社内GPT基盤”もGPT-4 Turboなどに対応米Microsoftが、大規模言語モデル「GPT-4」などのAPIをクラウドサービス「Microsoft Azure」経由で使える「Azure OpenA
- AI
- あとで読む
- ChatGPT
- GPT
- OpenAI
- 日本語
- 人工知能
- 技術
- 言語
- techfeed
培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
- 183 users
- gigazine.net
- テクノロジー
- 2023/12/12
人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f
- 脳
- 研究
- AI
- あとで読む
- 人工知能
- 科学
- science
- technology
- 技術
- computer
ごめんVisionPro誤解してた (๑˃̵ᴗ˂̵)｜shi3z
- 178 users
- note.com/shi3zblog
- テクノロジー
- 2024/02/11
朝起きて、「うーんまだ布団から出たくないな」と思ったとき、おもむろにVisionProを被ってみた。暗い部屋では認識が格段に悪くなるが、なぜPSVRではこういう使い方をしなかったのかわかった。後頭部だ。 PSVRは後頭部にゴツい部品があって、それで寝ながらVRを見るということが少し難しくなってる。VisionProの標準のバンドはこういうときにちょうどいい。 VisionProでTerminalを動かして、継之助の様子を見る。今日も元気に学習しているようだ。昨日寝落ちした Amazon Primeの「沈黙の艦隊」第五話と六話を見る。音がいい。空間オーディオに対する長年の研究が結実してる感じ。しかもすごくいい音なのだ。昨日、路上で歩きながら使ってみた(技適の特例申請には移動経路を申告済み)。路上で使うと思わぬ欠点というか盲点にぶちあたる。ウィンドウがついてこないのだ。他のHMDと違い
- apple
- VR
- Vision Pro
- あとで読む
- mac
- HMD
- XR
- ar
オペレーティング・システムから、オペレーティング・エージェントへ｜深津貴之 (fladdict)
- 171 users
- note.com/fladdict
- テクノロジー
- 2023/11/07
今回の発表で強く感じたことは、やはりOpenAIの目指すChatGPTが単なるチャットアプリケーションではないということだ。従来のオペレーティングシステム（OS）はハードウェアとアプリケーションの架け橋である。だがOpenAIはChatGPTを「言語で命令できるオペレーティングエージェント」と位置付け、人生のあらゆるタッチポイントで新たなゲートキーパーとなろうとしているように思える。 IT競争は手前の取り合い歴史を振り返れば、IT競争の常道とは、ゲートウェイを手前に築くことにあったようだ。PCの争いをOSが無意味化し、OSの争いをブラウザが、ブラウザの争いを検索エンジンがと、そしてそれをスマホとアプリが…このようにITの争いは常に手前を争うものだった。こうして一番手前を抑えた企業は、大きな利益を手に入れた。今、OpenAIの動きは、このメタゲームに大きな変化を加えつつある。 OpenA
- AI
- ChatGPT
- OpenAI
- あとで読む
- 人工知能
- システム
- サービス
オープンソースとは何か？ Open Source Definition逐条解説書 – Shuji Sado
- 163 users
- shujisado.com
- テクノロジー
- 2024/01/22
オープンソースとは何か？ Open Source Definition(オープンソースの定義) 逐条解説書 v1.0, 2024年1月22日佐渡秀治 Open Source guy オープンソース(Open Source)とは、米国の公益法人であるOpen Source Initiative(OSI)が策定した「オープンソースの定義」(Open Source Definition)で書かれた条件を満たすライセンス及びそのライセンスが適用されるソフトウェアのことである。このオープンソースという用語は自由ソフトウェア(Free Software)の代替として企図され、広く一般へ自由なソフトウェアを広めるためのキャンペーンのための用語として人為的に策定されたが、その後のオープンソース・ムーブメントと呼ばれる熱狂期を経て、紆余曲折ありながらも現在では世界の様々な領域においてオープンソースは当た
GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
- 131 users
- www.gizmodo.jp
- テクノロジー
- 2023/11/08
GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US ［原文］（ mayumine ）これは嬉しい進化です。 OpenAIの開発者向けカンファレンス｢DevDay｣で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました（こちらの記事もどうぞ）。いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。さらにGPT-4 Turboでは、JSONモードが実装され、JS
- AI
- あとで読む
- ChatGPT
- 人工知能
- 文章
- techfeed
OpenAI API で提供されているモデルまとめ｜npaka
- 123 users
- note.com/npaka
- テクノロジー
- 2023/11/09
「OpenAI API」で提供されている「モデル」をまとめました。・Model - OpenAI API 1. OpenAI API で提供されているモデル「OpenAI API」で提供されている「モデル」は、次のとおりです。・GPT-4 / GPT-4 Turbo : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル・DALL-E : 自然言語から画像を生成および編集できるモデル・TTS : テキストを自然な音声に変換できるモデル・Whisper : 音声をテキストに変換できるモデル・Embedding　: テキストをベクトル表現に変換できるモデル・Moderation : テキストが機密または安全かどうかを検出できるモデル・GPT base : ファインチューニング
- ChatGPT
- AI
- API
- OpenAI
- あとで読む
- APIエコノミー
- 学習
- まとめ
- 人工知能
- 言語
Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB
- 112 users
- ai-data-base.com
- テクノロジー
- 2023/12/07
Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル（LLM）として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU（多領域の学術ベンチマーク）をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、動画の理解を含むマルチモーダルタスクでも最先端の性能を示しています。テストに使用された20のマルチモーダルベンチマーク全てで最高の水準を達成しています。また、複数のソースからの情報を統合して、より正確で詳細に理解する能力に優れているとのことです。なお、Ultra、Pro、Nanoの3つのサイズがあり、それぞれ異なる計算要件に特化して設計されています（例えばモバイル向けにはNanoなど）。Ultraは最も高度に複雑なタスクをこなし、研究報告では主にUltraの性能が他モデルと比較されています。本記事
- AI
- google
- あとで読む
- 人工知能
- 人間
倫理を振りかざすライセンスが好ましくないのは何故か？
- 110 users
- shujisado.com
- 学び
- 2024/01/19
オープンソースが社会で受容されるにつれ、コミュニティの中においても一定の倫理が求められる傾向が強まっている。Code of Conduct(行動規範)を定める開発プロジェクトが多くなったのもその流れだろう。しかしながら、ライセンスによって使用者に対して倫理的な行動を求めることは現在に至っても忌避されており、それを悪だと看做す人々も多い。これは何故だろうか？ (本稿は「オープンソースとは何か？ Open Source Definition逐条解説書」の付録の一つとして収録されている文書である。) 嫌いな奴を排除する大抵の人には嫌いな人がいるものだ。人間とはそのようなものだろう。その嫌いな人々に自分が開発したソフトウェアを使わせたくないという感情を持つことを中々否定できるものではない。そして、ソフトウェアの開発者には開発したソフトウェアに対する著作権が帰属する。著作権に基づいて第三者に対しソ
マイクロソフトが法人向けソフトウェア値上げ　20％アップ
- 108 users
- www.itmedia.co.jp
- テクノロジー
- 2023/12/06
日本マイクロソフトは12月6日、法人向けソフトウェアとクラウドサービスを値上げすると発表した。日本円の為替変動によるもので、2024年4月以降に現行価格から20％引き上げるという。対象サービスは具体的に書かれていないが、一律での値上げになるとみられる。関連記事 Windows 11にアップグレードできないPC、国内に2000万台　“10サポート終了時”でも1000万台近く残存か日本マイクロソフトが、「Windows 10」のサポート終了に向けた国内のWindows OSの利用状況を明かした。国内のコンシューマ市場にあるWindows PC約4800万台のうち、現時点で約2000万台が「Windows 11にアップグレードできないPC」だという。2年後の2025年10月にWindows 10のサポート終了が迫る中、PCの買い替えを推進しても“10のままのPC”は多数残りそうだ。マイクロ
2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..
- 107 users
- anond.hatelabo.jp
- テクノロジー
- 2024/01/05
2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費（＝100万以上するでしょ）を稼ぐと思ったらやる気出ない？・まずは5日でその本を読む。文字認識しないと言うことだけど、Google翻訳アプリもダメ？無料OCRツールは試した？原書読むより入力するほうが早いなら、最悪手打ちで入力して翻訳にかけたら？・1日で論文の構成を考える。ここはChatGPTと相談しながらできるでしょ。・その翌日、Wordの音声認識を使ってガーっとしゃべっていく。とにかくしゃべる。・できた文を直し、切り張り切りはりして、整える。ここに2日かける。・時間が余ったら先行研究とかざっとネットで見る。それをちょいちょい引用・追加していく。（ちゃんとそれを残す＝アピールポイント）やれたら自信になると思うよ。そして社会人になると、2万字くらいのレポートは1週間ももらえないんだよね。
- 文章
- 増田
- chatGPT
- あとで読む
- 教育
- 大学
- 仕事
Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
- 103 users
- yukara-ikemiya.github.io
- テクノロジー
- 2023/12/25
日本音響学会学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル（と曲名）を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成 AI サービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無い UI と、ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。個人的には Suno AI について、以下のような所見を持っています。 Suno AI は
- AI
- あとで読む
- 学習
- 人工知能
- 技術
- エンジニア
- データ
- 音楽
- 情報
｢お尻洗って｣と、ウォシュレットに話しかける時代が来た #CES2024
- 103 users
- www.gizmodo.jp
- テクノロジー
- 2024/01/19
｢お尻洗って｣と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US ［原文］（湯木進悟）これぞベスト機能では？ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の｢CES 2024｣では、意外なる新機能がデビューを果たしていましたよ。音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり？ Kohlerは、そんな願いをかなえる｢PureWash Bidet Seat｣を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis
超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る
- 94 users
- xtech.nikkei.com
- テクノロジー
- 2024/06/26
対話型AIサービス「ChatGPT」で使われている自然言語モデルの核になっている技術が「Transformer」だ。自然言語処理を例に、Transformerの仕組みを解説する。実は、エンコーダーとデコーダーに用いられている「RNN」（Recurrent Neural Network）には、欠点があります。それは、長い文章が苦手だということです。なぜ苦手かというと、以下の2つのポイントからそのように言えます。（1）RNNでは、翻訳元文章全体の特徴を記憶できるサイズが固定されている。そのため、文章が長くなり単語の数が増えるほど、エンコーダーにおいて、文章の前の方で出現した単語の意味が薄まってしまう。（2）RNNでは、単語を1つずつニューラルネットワークで処理する。そのため、単語の数が多くなればなるほど処理時間がかかってしまう。ですので、RNNが持つこうした欠点を解消するための仕組み
- AI
- あとで読む
- GPT
- technology
- 技術
- 文章
- 言語
- *あとで読む
噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想｜shi3z
- 94 users
- note.com/shi3zblog
- テクノロジー
- 2024/05/08
最近にわかに話題のLLMツール「Dify」を僕も使ってみた。いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言えるテンプ
- AI
- Dify
- LLM
- あとで読む
トヨタ、車載OS「アリーン」を既存車種から搭載　次世代EVに先駆けて｜自動車メーカー｜紙面記事
- 87 users
- www.netdenjd.com
- 政治と経済
- 2023/09/07
トヨタ自動車は、開発中の車載ＯＳ（基本ソフト）「アリーン」を次世代型電気自動車（ＥＶ）に先駆けて既存の車両に搭載する方針だ。人工知能（ＡＩ）技術を活用した高度な音声認識やレコメンド（推薦）機能、販売後の機能更新サービスなどを顧客にいち早く体験してもらうのが狙い。車両開発でＳＤＶ（ソフトウエア・デファインド・ビークル）構想が広がる中、２０２６年発売…
- car
- あとで読む
- 自動車
- tech
AIで職を失う危機が迫る中で「過去に本当に滅んだ職業」を確認してみた
- 81 users
- gigazine.net
- テクノロジー
- 2024/03/06
AIの進歩に伴って「AIによって人間の仕事の大部分が奪われる」という不安が現実的なものになりつつあります。人類はAIの登場以前から「蒸気機関の発明」「電気の発明」「コンピューターの発明」といった多くの技術革新に直面したわけですが、そのたびに数多くの職業が不要となり消えていきました。そんな「社会情勢の変化によって消えた職業」をまとめたページが英語版Wikipediaに存在しています。 Category:Obsolete occupations - Wikipedia https://en.wikipedia.org/wiki/Category:Obsolete_occupations 英語版Wikipediaの「社会情勢の変化によって消えた職業」をまとめたページには記事作成時点で183件の職業が登録されているので、いくつか興味深いものをピックアップしてみました。 ◆電話交換手電話の発明から
- 人工知能
- あとで読む
- GIGAZINE
- techfeed
- AI
- *
- technology
隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術　中国の研究者らが開発
- 75 users
- www.itmedia.co.jp
- テクノロジー
- 2023/09/01
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 香港大学や清華大学に所属する研究者らが発表した論文「Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals」は、ミリ波（mmWave）信号から音声を認識するストリーミング自動音声認識（ASR）システムを提案した研究報告である。このシステムは、周囲のノイズに強く、防音対策した部屋の外からでも取得でき、これまでと異なり長い文章をリアルタイムに認識する能力を提供する。無線センシングの進展に伴い、特にミリ波信号の注目が高まっている。なぜなら、音源のミリメートルレベルの
OpenAI、次世代AIモデル「GPT-4o」を発表
- 74 users
- zenn.dev/ml_bear
- テクノロジー
- 2024/05/14
日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。「GPT-4o」の主な特徴を以下にまとめました。他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた
- ChatGPT
- OpenAI
- AI
- あとで読む
- 人工知能
給料は日本の5倍で、世界から集まる優秀な人たちと働ける──日本のエンジニアがアメリカで働くルートとは？
- 73 users
- codezine.jp
- テクノロジー
- 2024/02/03
アメリカで働くことは多くの日本人にとって魅力的な選択肢である。特にシリコンバレーなどは「給与が日本の5倍」「世界中の優秀なエンジニアが集まる」といった印象を持たれており、憧れを抱く人も少なくないはず。Google、IBM Research、旧Facebookで働いた経験を持つ株式会社IVRy（アイブリー）の花木健太郎氏は、2023年12月9日に開催された「Developers CAREER Boost 2023」において、アメリカで働くことの魅力と、日本人がアメリカで働くための3つの方法について語った。働き方が自由な海外、多くの優秀な人たちと出会える花木氏は自然言語処理を専門とし、機械学習に10年の経験を持つ。彼はアメリカのミシガン大学で理論物理の博士号を取得した後、分野を転じてニューヨーク大学でデータサイエンスの修士号を取得した。修士課程在籍中には、ゴールドマン・サックスとFaceb
- IT
- あとで読む
- エンジニア
- AI
- 労働
- アメリカ
- life
superwhisperでの音声入力を試す
- 72 users
- efcl.info
- テクノロジー
- 2024/01/17
superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。特徴 Whisperの認識精度が高いかなり早く喋っても認識してくれる日本語も認識してくれるモデルがある日本語で喋って英語に翻訳してくれる機能もあるオフライン対応有料: サブスクと買い切りの2種類のプランがある無料で15分のトライアル、その後は選べるモデルが制限される公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり
- mac
- 音声認識
- voice
- macOS
- software
- あとで読む
【2024年】AWS全サービスまとめ | DevelopersIO
- 69 users
- dev.classmethod.jp
- テクノロジー
- 2024/01/12
こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個です。まとめるにあ
- aws
- あとで読む
- まとめ
- techfeed
- サービス
- システム
- 技術
【2023年9月】0円で読めるPythonの技術書5選 - Qiita
- 66 users
- qiita.com/Raio14f
- テクノロジー
- 2023/09/16
はじめにみなさん、こんにちは。高校生エンジニアのRaioです！平日は公立高校に通いながら、放課後や休日はIT企業のエンジニアとして働いています🧑🏻‍💻 ↓筆者について↓ 今回の記事では、0円で読めるPythonの技術書5選を紹介します！無料で読む方法も紹介してるので、是非最後まで見て頂けると幸いです👍🏻 技術書を無料で読む方法 KindleUnlimitedを使うことで、沢山の技術書を無料で何冊でも読むことが可能です🙌 200万冊以上の書籍が何冊でも読み放題月額980円が今なら1ヶ月無料場所に囚われず、様々な端末で使用可能勿論、技術書以外にもビジネス書や漫画など種類豊富です！今回の記事で紹介する技術書も、KindleUnlimitedで読むことができるので是非🥳 ↓入会したい方は画像をクリック↓ Python×Excelで作るかんたん自動化ツール本書では、プ
- Python
- あとで読む
- アルゴリズム
- 学習
- 技術
- HotEntry
- study
- ツール
- 資料
UIUXデザイナーが「GPT4o」を活用してウェブサイトをつくってみた
- 65 users
- creatorzine.jp
- テクノロジー
- 2024/06/07
デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。こんにちは！株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト（LP）を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o
世界一わかりみの深いAzure OpenAI Service | SIOS Tech. Lab
- 65 users
- tech-lab.sios.jp
- テクノロジー
- 2023/10/25
◆ Live配信スケジュール ◆ サイオステクノロジーでは、Microsoft MVPの武井による「わかりみの深いシリーズ」など、定期的なLive配信を行っています。 ⇒ 詳細スケジュールはこちらから ⇒ 見逃してしまった方はYoutubeチャンネルをご覧ください【4/18開催】VSCode Dev Containersで楽々開発環境構築祭り〜Python/Reactなどなど〜 Visual Studio Codeの拡張機能であるDev Containersを使ってReactとかPythonとかSpring Bootとかの開発環境をラクチンで構築する方法を紹介するイベントです。 https://tech-lab.connpass.com/event/311864/ みなさん、こんにちは。サイオステクノロジー武井です。今回は、今話題沸騰の生成AIサービスであるAzure OpenAI Se
- Azure
- OpenAI
- AI
- あとで読む
- Microsoft Azure
- ChatGPT
- 人工知能
- techfeed
- API
ChatGPTで「業務アプリ」作成に挑戦　プログラミングの工数削減につながるか？　新機能を使い倒してみた
- 63 users
- www.itmedia.co.jp
- テクノロジー
- 2023/12/20
ChatGPTで「業務アプリ」作成に挑戦　プログラミングの工数削減につながるか？　新機能を使い倒してみた AIの進化が止まらない。“生成AIブーム”の火付け役といえる米OpenAIの「ChatGPT」が2022年11月に登場してから、早くも1年以上が経過した。当時、出力結果の精度の高さに驚いた人も多いだろう。世の中に数多くのAIツールや基盤モデルが登場し、業務効率化やデータ分析による新たな価値創造を狙ってAIの活用に乗り出そうという企業も増えている。米IDCが全世界の890人を対象に23年9月に実施した調査によると、77％以上の組織が生成AIに投資または活用を模索中と答えた（米IDC「企業向けGenerative AIガイド」より）。生成AIはどのような用途で活躍するのか。IDCが上記調査で「今後18カ月で生成AIが最も大きな影響を与える可能性があるビジネス分野」を聞くと、第1位が「ソ