並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1365件

新着順 人気順

DeepLearningの検索結果201 - 240 件 / 1365件

  • 声優の仕事も終わっちゃう?中国で日本のアニメキャラの声を学習したモデルが公開されてしまう「これはやりすぎ…」

    うみゆき@AI研究 @umiyuki_ai なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった!!Hugging Faceでデモが試せる!早速まどマギの5人に喋ってもらった!!うわうわうわ!ヤバいよヤバい本当にヤバいよコレはヤバい!!  huggingface.co/spaces/skytnt/… pic.twitter.com/EFgUId9qpd 2022-11-05 21:19:12

      声優の仕事も終わっちゃう?中国で日本のアニメキャラの声を学習したモデルが公開されてしまう「これはやりすぎ…」
    • リモートでアメリカの大学院に通い始めた - k0kubun's blog

      今年春に出願、夏に合格して秋学期からオンラインのコンピュータサイエンス修士コースで勉強している。ちょうど秋学期が終わって成績が返ってきたので、どういう感じだったか書いておく。 I've been officially admitted to Georgia Tech's OMSCS (Online Master of Computer Science). I'm excited for being a student again. I chose the online course to take it without quitting my job, but due to COVID-19 it's probably not that different from other people's experience.— k0kubun (@k0kubun) July 31, 2020 ど

        リモートでアメリカの大学院に通い始めた - k0kubun's blog
      • Engadget | Technology News & Reviews

        Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

          Engadget | Technology News & Reviews
        • 【言語処理100本ノック 2020】Pythonによる解答例まとめ - Qiita

          はじめに 自然言語処理の問題集として有名な言語処理100本ノックの2020年版が公開されました。 この記事では全100問のPythonによる解答例を紹介します。間違いやより良い方法など、お気づきの点があればぜひお気軽にコメントください。 本編は以下のリンク先に移転しました。 https://amaru-ai.hatenablog.com/entry/2022/10/15/204035

            【言語処理100本ノック 2020】Pythonによる解答例まとめ - Qiita
          • AIチャットの新しい使い方見つけた! AI同士にディベートさせると、メジャーな論点が洗い出せる。 これ、いろんなことの予行練習に使えそう。素晴らしい。

              AIチャットの新しい使い方見つけた! AI同士にディベートさせると、メジャーな論点が洗い出せる。 これ、いろんなことの予行練習に使えそう。素晴らしい。
            • OpenAI Cookbook

              Processing and narrating a video with GPT's visual capabilities and the TTS API

                OpenAI Cookbook
              • 【AI動画生成】Sora 要素技術解説

                もう全部OpenAIでいいんじゃないかな はじめに 月間技術革新です。 ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。 圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。 在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成 論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。 原文を見たい方はこちらからどうぞ 全体構成 Soraは以下の技術要素で構成されているとのこと

                  【AI動画生成】Sora 要素技術解説
                • Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z

                  Copilot StudioはMicrosoft 365 E5というお高いパッケージに入らないとプレビュー版すら使えないらしい。 仕方ないので会社で入りましたよ。会社に所属してるのは3人だけど、E5だと25人分のアカウントがついてくる。 しかし!!! 金さえ払えば使えるというほどイージーなものではなかったので皆さんにお伝えします。ちなみにE5に入っただけで月額45000円(1800円x25で)になりました(ただし七日間の試用期間中にキャンセルすれば無料に)。 まずMicrosoft365で企業アカウントを作り、会社のメンバー的な人に個人アカウントを発行します(この時点でかなりハードルが高い)。 そしてCopilot Studioのページからリンクに飛べば、企業の個人アカウントでログインできた。やったぜ! しかしログインしても、様子がおかしい。 なんかフローチャートが出てきて、フローチャート

                    Copilot Studioを使ってみた。注意点と実際にかかるお金の話など|shi3z
                  • ”持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった【藤本健のDigital Audio Laboratory】

                      ”持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった【藤本健のDigital Audio Laboratory】
                    • RAGの実案件に取り組んできた今までの知見をまとめてみた | DevelopersIO

                      はじめに 新規事業部 生成AIチーム 山本です。 ChatGPT(OpenAI API)をはじめとしたAIの言語モデル(Large Language Model:以下、LLM)を使用して、チャットボットを構築するケースが増えています。通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができません。そのため、例えば社内システムに関するチャットボットを作成しようとしても、素のLLMでは質問に対してわからないという回答や異なる知識に基づいた回答が(当然ながら)得られてしまいます。 この問題を解決する方法として、Retrieval Augmented Generation(以下、RAG)という手法がよく使用されます。RAGでは、ユーザからの質問に回答するために必要そうな内容が書かれた文章を検索し、その文章をLLMへの入力(プロンプト)に付け加えて渡すことで、ユーザが欲しい

                        RAGの実案件に取り組んできた今までの知見をまとめてみた | DevelopersIO
                      • 「グランブルーファンタジー」コラボイラストに統一性を持たせる超技術を解説!「天才絵師が存在する」

                        ローライネ🍳 @lorraine_cre8 テイストの違うコラボキャラを並べると、グラブルのイラストの統一感生み出す謎技術凄いよなぁって、毎度ながら思う。 pic.twitter.com/iWejQ3lxrb 2020-12-09 02:05:22

                          「グランブルーファンタジー」コラボイラストに統一性を持たせる超技術を解説!「天才絵師が存在する」
                        • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                          はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                          • 声を“匿名化”するシステム「V-CLOAK」 人間っぽさを残した声に変換、声紋の個人情報漏えいを防ぐ

                            Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 中国のZhejiang UniversityとWuhan Universityの研究チームが発表した論文「V-CLOAK: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization」は、音声の明瞭性と自然性、音色を保持したまま、リアルタイムに音声を匿名化するシステムを提案した研究報告だ。機械的な声ではなく人間っぽさを残した声に変換し、声紋から個人が特定されることを防ぐ。 声紋は、個人を一意に特定できる重要なバイオメトリクスだ。一方でオンラインサービスによって膨大な音声データを収集・処理で

                              声を“匿名化”するシステム「V-CLOAK」 人間っぽさを残した声に変換、声紋の個人情報漏えいを防ぐ
                            • 「CNNって何よ」って聞かれたら、とりあえずこう説明してみたら?という話 - Np-Urのデータ分析教室

                              タイトルの通り、「CNN(畳み込みニューラルネットワーク)って何よ」とざっくりと質問された時に、自分だったらざっくりとこう説明してあげる、というのをまとめます。 この記事で説明している内容は、以下を元にしているので、よろしければ是非。 Pythonと実データで遊んで学ぶ データ分析講座 作者:梅津 雄一,中野 貴広発売日: 2019/08/10メディア: 単行本(ソフトカバー) なお、スマホのAMPだと、数式がうまく表示されない可能性がありますので、こちらのリンクかPCから読んでいただけると。 まずニューラルネットって?畳み込みニューラルネットワークについて説明する前に、ニューラルネットワークも軽くおさらいしてあげましょう。 脳は入力を受け取ると、以下画像のように各神経細胞が反応しながら処理が次々と行われます。 ニューラルネットワークは、このような脳の神経伝達の働きを数理モデルとして落とし

                                「CNNって何よ」って聞かれたら、とりあえずこう説明してみたら?という話 - Np-Urのデータ分析教室
                              • 【2023年版】機械学習の日本語無料学習教材まとめ - Qiita

                                言語&開発基礎編 PythonやSQLなどの言語と開発環境に関連することをまとめました。 機械学習に関する教材はこの次のセクションにまとめてあります。 学習環境 インストール及び使い方チュートリアルのサイトと、ある程度使い慣れた後に役立つtips集を各エディタでまとめました。 Google Colaboratory Python初学者にとって最もわかりやすいPython実行環境です。プログラミングは初めて!という方はまずこのGoogle Colaboratory(通称: Colab)から始めてみて、使い方がある程度わかったら、そのまま次のセクションのPython編に移りましょう。 Pythonプログラミング入門 難易度: ★☆☆ 東京大学の公開しているPython講座ですが、冒頭でColabの使い方を解説しています。使ったことのない方はこちらから! Google Colabの知っておくべき

                                  【2023年版】機械学習の日本語無料学習教材まとめ - Qiita
                                • GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultraに同じ質問をして、回答結果を比較してみた - Qiita

                                  GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultraに同じ質問をして、回答結果を比較してみたPythonAWSAzureOpenAIGoogleCloud はじめに GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultra(Gemini Advanced)に同じ質問をして、回答結果を比較してみました。 Gemini Ultra以外のモデルはPythonコード上から実行し、Gemini UltraはGemini Advancedのチャット上で実行しています。 各モデルの詳細は以下のとおりです。 G

                                    GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultraに同じ質問をして、回答結果を比較してみた - Qiita
                                  • 英語学習は AI と行う時代がついに到来!? ChatGPT と LINE Bot でオンライン英会話アプリ「Small GPTalk」を作ってみた | DevelopersIO

                                    こんにちは。CX 事業本部 Delivery 部のきんじょーです。 ChatGPT の API がついに提供されたということで、チャット AI 界隈が盛り上がっていますね。 このビッグウェーブに乗り遅れてはいけないと思い、ChatGPT の優れた自然言語処理能力を活かして LINE で英会話の練習をする「Small GPTalk」というサービスを作ってみました! アプリの紹介と、アプリ作成を通して感じた ChatGPT の可能性についてブログ化していきます。 Small GPTalk とは Small GPTalk は、ChatGPT から派遣された AI 英語講師と LINE 上で SmallTalk(世間話) を楽しむためのアプリです。 レッスンが始まると、講師はトピックを提示してくれます。好きなトピックを選んで講師と会話を楽しみましょう。 レッスンを終わるときは「終わります」と伝えて

                                      英語学習は AI と行う時代がついに到来!? ChatGPT と LINE Bot でオンライン英会話アプリ「Small GPTalk」を作ってみた | DevelopersIO
                                    • ZoomやSkypeでリアルタイムに他人になりすませるオープンソースのディープフェイクツール「Avatarify」

                                      自宅からリモートワークを行う際、ZoomやSkypeといったオンラインビデオ会議ツールを使用するケースがよくあります。オンラインビデオ会議ツールではウェブカメラを使って自分の顔を映しますが、アルゴリズムで別人になりきってオンラインビデオ会議に参加できるオープンソースのディープフェイクツール「Avatarify」が公開されています。 GitHub - alievk/avatarify: Avatars for Zoom and Skype https://github.com/alievk/avatarify This Open-Source Program Deepfakes You During Zoom Meetings, in Real Time - VICE https://www.vice.com/en_us/article/g5xagy/this-open-source-pro

                                        ZoomやSkypeでリアルタイムに他人になりすませるオープンソースのディープフェイクツール「Avatarify」
                                      • 無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携

                                        米Metaは7月18日(現地時間)、大規模言語モデル「Llama 2」を発表した。利用は無料で商用利用も可能としている。最大サイズの700億パラメーターモデルは「ChatGPT(の3月1日版)と互角」(同社)という。 ダウンロードには、Metaが用意するフォームから名前とメールアドレス、国、組織名を入れ、利用規約に同意した旨を送信する。Metaが受理すると専用URLが送られてくるため、同社がGitHubで公開しているダウンロード用のスクリプトと合わせるとLlama 2の各モデルをダウンロードできるようになる。 モデルサイズは70億、130億、700億パラメーターの3種類があり、それぞれベースモデルとチャット向けに追加学習(ファインチューニング)したモデルを用意する。いずれも4096トークン(おおよそ単語数の意)まで文脈を読める。 性能は、Llama-2-70b-chat(700億のチャット

                                          無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携
                                        • 機械学習モデルの判断根拠の説明(Ver.2)

                                          【第40回AIセミナー】 「説明できるAI 〜AIはブラックボックスなのか?〜」 https://www.airc.aist.go.jp/seminar_detail/seminar_040.html 【講演タイトル】 機械学習モデルの判断根拠の説明 【講演概要】 本講演では、機械学習モデルの判断根拠を提示するための説明法について紹介する。高精度な認識・識別が可能な機械学習モデルは一般に非常に複雑な構造をしており、どのような基準で判断が下されているかを人間が窺い知ることは困難である。このようなモデルのブラックボックス性を解消するために、近年様々なモデルの説明法が研究・提案されてきている。本講演ではこれら近年の代表的な説明法について紹介する。Read less

                                            機械学習モデルの判断根拠の説明(Ver.2)
                                          • 写真を「アニメの背景」に変換するAI 30秒で“水彩風”など4種類の背景を生成

                                            AIベンチャーのラディウス・ファイブ(東京都新宿区)は7月29日、AIを使って写真からアニメ用の美術背景を生成するサービス「Anime Art Painter」を始めた。写真をアップロードするだけでアニメ風の背景に変換できる。1枚の画像から4種類の背景を30秒程度で生成する。背景の生成は無料だが、画像のダウンロードは有料で料金は480円から。 大まかには、ディープラーニングを使い、写真のテクスチャ(質感)を簡略化。アニメやイラストに使われるような画風に変換する仕組みという。建物や夜景、山などの自然物、近距離で撮影した物体、屋内の背景など、物体に応じてテクスチャの変換や色合いを調整するという。生成される4種類の画像は、アニメでよく使われるような水彩風の絵を2種類と、べた塗りに近いアニメ風の絵が2種類。 同社は現在のアニメ業界について「制作が2年待ちといわれるほど行き詰まっている」と指摘する。

                                              写真を「アニメの背景」に変換するAI 30秒で“水彩風”など4種類の背景を生成
                                            • 声優に「録音した音声でAIに合成音声を生成させることを認める」契約を迫るケースが増加、声優や組合からは反対の声

                                              ゲームやアニメに声を吹き込む声優が、「AIで自分の声を再現する合成音声を生成することを認める」という条項を含む契約書にサインを求められるケースが増えていると、アメリカの声優や組合がIT系ニュースサイトのMotherboardで訴えています。声優たちは、こうした契約がまん延することで声優業界全体が大きなダメージを受ける可能性を危惧しています。 ‘Disrespectful to the Craft:’ Actors Say They’re Being Asked to Sign Away Their Voice to AI https://www.vice.com/en/article/5d37za/voice-actors-sign-away-rights-to-artificial-intelligence AIで声を再現する技術は急速に進歩しており、個人でも本人の音声データを学習させた

                                                声優に「録音した音声でAIに合成音声を生成させることを認める」契約を迫るケースが増加、声優や組合からは反対の声
                                              • ラズパイでディープラーニングと筋電位センサを用いた筋電義手(プロトタイプ)作りました - もう疲れたので電子工作します

                                                最近、以前から興味のあった筋電位センサを触っています。 また、ディープラーニングの勉強も始めたのですが、 ディープラーニングの仕組みを理解する中で「ディープラーニングって筋電位センサに応用できるんじゃ?」と閃きました。 そこで色々試してみたところ、簡単な動作推定を行うことに成功したので、まとめてみます。 タイトルにある通り、ラズパイを使ってます。 実際の動作 筋電位センサ(自作) 筋電位センサ(市販:MyoWare) 回路 ディープラーニング入門 ディープラーニング(データ解析) ディープラーニング(データ取得) ディープラーニング(学習) ディープラーニング(推定) システムまとめ 感想 実際の動作 実際に動いているときの動画です。 手を握った時、反った時、屈曲した時の3パターン(厳密には無動作時を併せて4パターン)における筋電位パターンをディープラーニングを用いて分類し、分類結果に応じ

                                                  ラズパイでディープラーニングと筋電位センサを用いた筋電義手(プロトタイプ)作りました - もう疲れたので電子工作します
                                                • 自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

                                                  こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。 あくまでも私の経験 強化学習基礎系 [Qiita] DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [ブログ]強化学習 もう少し強化学習を詳しく知りたい系の人へ [書籍]速習 強化学

                                                    自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
                                                  • 『わけがわかる機械学習』中谷秀洋(著)の書評 - StatModeling Memorandum

                                                    僕が中谷さんと初めて会ったのはみどりぼんの読書会で、初めて話したのは岩波DSの打ち合わせだったと思います。今でもそんなに親しくはないと思います。しかし、中谷さんのブログは10年ぐらい前から読んでいました。自然言語処理を中心とする機械学習に関連する理論(の解釈)・論文レビュー・数値実験の記事が多く、他のブログでは見られない独特かつ理解の深い内容で、毎日勉強させてもらっていました。今でも何度も読むべきブログです。その中谷さんが機械学習についてまるごと一冊書いたものが本書になります。もともと買うつもりでしたが、献本いただいたので簡単にご紹介いたします。 わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する 作者: 中谷秀洋出版社/メーカー: 技術評論社発売日: 2019/08/28メディア: 単行本(ソフトカバー)この商品を含むブログを見る 目次は以下になります。 0章: はじめ

                                                      『わけがわかる機械学習』中谷秀洋(著)の書評 - StatModeling Memorandum
                                                    • Photoshopで加工した顔写真を見分けるAIツール、Adobeが開発

                                                      米Adobe Systemsは、Photoshopで加工した顔写真を見分けられるAIを開発しました。加工した部分を特定して、もとに戻すことも可能です。 加工された顔 開発はカリフォルニア大学バークレー校の研究者と共同で行いました。同社は過去の研究ではツギハギや複製などによる画像加工を対象にしていましたが、今回は顔のパーツを調整するPhotoshopの「Face Aware Liquify」機能を使って加工した写真を特定できるツールにフォーカス。この機能が人気があるためとしています。 検知された加工部分 研究ではConvolutional Neural Network(CNN:畳み込みニューラルネットワーク)に、多数の加工写真と元の写真をディープラーニングで学習させました。その結果、開発されたツールは99%の精度で加工された写真を特定できたといいます。一方人間では53%の精度でした。 またこ

                                                        Photoshopで加工した顔写真を見分けるAIツール、Adobeが開発
                                                      • AIに思い通りの絵を描かせられるのは誰だ! 「Midjourney」指示力選手権

                                                        「Midjourney」というAIが今アツい。英文でお題を与えると、それに沿った画像を出力するAIだ。Twitterではさまざまなイラストが投稿され「触ってみたら本当にすごかった」「少し加筆するだけですごい絵ができる」といった反応がみられる。 筆者もいろいろ試してみて感じたのだが、AIに思い通りのイラストを描いてもらうのは結構難しい。他のユーザーの作品を見ていると、上手な人は高画質で破綻を感じさせないハイクオリティーな画像を生成しているが、筆者は思い通りの図を出すのにも苦労している。 Midjourneyは、言葉(英語)で絵の内容を指定する。重要なのは“指示力”だ。適切な指示を出せば思い通りの画像が得られる。そこで、こんな企画を考えた。 AIに思い通りの絵を描かせられるのは誰だ! 「Midjourney」指示力選手権 ルール説明 選手権のルールは以下の通り。 (1)AIに指示できるのは1人

                                                          AIに思い通りの絵を描かせられるのは誰だ! 「Midjourney」指示力選手権
                                                        • Preferred Networks、深層学習の研究開発基盤をPyTorchに移行 - 株式会社Preferred Networks

                                                          PyTorch開発チームおよびオープンソースコミュニティと連携し、フレームワーク開発、MN-CoreプロセッサのPyTorchサポートなどを推進 株式会社Preferred Networks(本社:東京都千代田区、代表取締役社長:西川徹、プリファードネットワークス、以下、PFN)は、研究開発の基盤技術である深層学習フレームワークを、自社開発のChainer™から、PyTorchに順次移行します。同時に、PyTorchを開発する米FacebookおよびPyTorchの開発者コミュニティと連携し、PyTorchの開発に参加します。なお、Chainerは、本日公開されたメジャーバージョンアップとなる最新版v7をもってメンテナンスフェーズに移行します。Chainerユーザー向けには、PyTorchへの移行を支援するドキュメントおよびライブラリを提供します。 PFN 代表取締役社長 西川徹は、今回の

                                                            Preferred Networks、深層学習の研究開発基盤をPyTorchに移行 - 株式会社Preferred Networks
                                                          • 音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力

                                                            Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が開発した「DualVoice: A Speech Interaction Method Using Whisper-Voice as Commands」は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術だ。文字入力以外のコマンド入力と音声認識ミスによる修正は、通常の声とは別に「ささやき声」で操作する。通常の声とささやき声を使い分ける方法で、ハンズフリーの完全な音声入力を実現する。 音声による文字入力はタイピングに比べて格段に速いため、アイデアを書き留めたり、原稿を素

                                                              音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力
                                                            • 5つの文字から1万4000文字を自動生成 筑波大発AIベンチャーがフォント生成システム 特許出願

                                                              筑波大学発AIスタートアップのAIdeaLab(東京都千代田区)は8月17日、5つの文字から1万4000以上の文字をAIで自動生成するフォント生成システムの特許を出願したと発表した。 システムは、敵対生成ネットワーク(GAN)をベースに、大量のフォントを学習させた上で、手作業でデザインした数個の文字から、太さやセリフ(装飾)の形状を抽出し、生成する。パラメーターの値を調整することで、新しいフォントとして出力することも可能。ピクセル画像ではなく、ベクター画像として生成する独自技術により、フォントファイルとしての出力を可能にしたという。 特許は、フォント生成モデルだけでなく、アプリケーションUIも含む。パラメーター調整でフォントを生成するUI、少ない文字数でのアップロードでフォントを生成するUIなど、さまざまなパターンのサービス展開を織り込んでおり、特許出願技術をベースに、フォント制作会社向け

                                                                5つの文字から1万4000文字を自動生成 筑波大発AIベンチャーがフォント生成システム 特許出願
                                                              • 指示したUIをAIがTailwindベースで実装してくれるv0が凄い

                                                                v0とは v0は自然言語で作りたいUIをAIに指示するとそのUIをTailwind (shadcn/ui)ベースで作ってくれるサービスです。 shadcn/uiとは shadcn/uiはRadix UIというUIをもたないヘッドレスUIに対してスタイルを当てたコンポーネント集で、TailwindというCSSライブラリを使ってRadix UIに対してスタイルを当てています。 shadcn/ui本体のライブラリがあるわけではなく、自身のプロジェクトにコンポーネントを直接コピーして使うことが特徴です! Tailwindが好きな人にはたまらないコンポーネント集ですね! shadcn/uiに最適に作られていますが、Tailwindユーザーであれば作られたUIをほぼそのまま使うことができます。 下の画像のようなチャット風のUIが特徴なサービスになっていて、このチャットに指示を出すことでUIを作ってくれ

                                                                  指示したUIをAIがTailwindベースで実装してくれるv0が凄い
                                                                • 「乳がんや脳腫瘍を検出するAI」を公開した人物は本職ではなくアマチュアのプログラマー、高性能グラボを自腹で数十枚購入

                                                                  2018年、「coolwulf」と名乗るプログラマーが、アップロードされたX線画像から約90%の精度で乳がんを検出するウェブサイトを無料で公開しました。中国のオンライン開発者フォーラム「V2EX」では開発者に対してさまざまな質問が寄せられましたが、coolwulfは個人的な質問には答えないまま沈黙を続けました。そして2022年、coolwulfはAIで脳腫瘍の正確な位置を検出する「NeuralRad」というプラットフォームを公開。再び表舞台に姿を見せたcoolwulfに対し、中国のニュースサイト・今日頭条がインタビューしています。 这名“业余”程序员,曾用50张1080Ti对抗癌症-今日头条 https://www.toutiao.com/article/7094940100450107935/?wid=1653278073761 This "amateur" programmer fou

                                                                    「乳がんや脳腫瘍を検出するAI」を公開した人物は本職ではなくアマチュアのプログラマー、高性能グラボを自腹で数十枚購入
                                                                  • 低レイヤーな人のためのディープラーニング

                                                                    フレームワークに頼らずVulkanで畳み込みニューラルネットワークを実装する方法を解説します これは2019年7月20日に行われた 第15回 カーネル/VM探検隊 での発表資料です サンプルコード: https://github.com/Fadis/kernelvm_20190720_samples

                                                                      低レイヤーな人のためのディープラーニング
                                                                    • Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権(その2)|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】

                                                                      前回記事「Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権」は、おかげさまで沢山の方に読んで頂き、いろいろな意見や御質問や取材を頂きました。 それらの意見・御質問や取材を通じて、自分の中で新たな整理ができたので、続編の記事を書きたいと思います。 第1 どのような場合に著作権侵害になるのか みなさんの興味関心が強いトピックとして「画像自動生成AIを利用して画像を自動生成し、既存著作物の類似画像が生成された場合に著作権侵害に該当するか」があります。 前回の記事では「学習に用いられた画像と同一の画像が『偶然』自動生成された場合、著作権侵害に該当するか」について解説をしましたが、今回の記事では、もう少し多くのパターンについて検討をしたいと思います。 まず、その前提として「著作権侵害の要件」と「著作権侵害の効果」について説明をします。 この「要件」と「

                                                                        Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権(その2)|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
                                                                      • GPT-3.5-Turbo / GPT-4-Turbo 1106のJSONモードの使い方|shi3z

                                                                        日本時間未明(午前三時)ものすごいスピードで語られたOpenAI初の開発者向けイベントDevDayで発表されたGPT-4-TurboとGPT-3.5-TurboによるJSONモード。 これはものすごく強力なんだけど、Python APIによる使い方がどこにも描いてないので試行錯誤の末見つけましたので共有いたします。 from openai import OpenAI import openai import os openai.api_key = "<APIキー>" client = OpenAI() def gpt(utterance): #response = openai.chat( response = client.chat.completions.create( #model="gpt-4-1106-preview", model="gpt-3.5-turbo-1106", r

                                                                          GPT-3.5-Turbo / GPT-4-Turbo 1106のJSONモードの使い方|shi3z
                                                                        • AIが大量生成、実在しない「フェイク顔」がトランプ氏を支持する(平和博) - エキスパート - Yahoo!ニュース

                                                                          AIが自動生成する実在しない「フェイク顔」のアカウントが、フェイスブックを舞台に大量発生し、トランプ大統領の再選を支持する――。 こんな新たな動きが注目を集めている。 フェイスブックはこの動きに対し、600を超すアカウント、さらに関連するフェイクブックページやグループの削除を発表した。 またフェイスブックの発表と合わせて、大手シンクタンクなどが調査報告書を公表。AIによる「フェイク顔」アカウントが大量発生する仕組みを解き明かしている。 「フェイク顔」「アカウント」「投稿」と、AIが絡んだ自動化によって拡散の波をつくりだす、フェイクネットワークの“製造工程”。その一端を、この騒動から垣間見ることができる。 フェイクニュースの生態系は、加速度的に複雑さを増している。 ●610のアカウント削除フェイスブックは20日、「組織的不正行為(CIB)」に対する、大規模なアカウント削除などの措置を発表した

                                                                            AIが大量生成、実在しない「フェイク顔」がトランプ氏を支持する(平和博) - エキスパート - Yahoo!ニュース
                                                                          • 3千CPUで数カ月かかる計算が0.1秒で完了。汎用原子レベルシミュレータ「Matlantis」 ~PFNとENEOSがクラウドサービスで提供開始

                                                                              3千CPUで数カ月かかる計算が0.1秒で完了。汎用原子レベルシミュレータ「Matlantis」 ~PFNとENEOSがクラウドサービスで提供開始
                                                                            • GPT-4o の概要|npaka

                                                                              以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

                                                                                GPT-4o の概要|npaka
                                                                              • 「私は人間の敵ではない」人工知能が生成した文章が不吉すぎて震えるレベル : カラパイア

                                                                                OpenAIが開発した「GPT-3」(関連記事)という最新型の文章生成AIにあるお題を出し、それに基づいて文章を生成してもらった。 そのお題は「人間がAIを恐れる必要がない理由について、500単語で簡潔に述べよ」である。 なかなか興味深いお題ではある。その結果、AIはなかなか興味深く、ちょっとゾっとする内容の文章を生成したようだ。ではAIがどんな文章を作成したのか見ていこう。

                                                                                  「私は人間の敵ではない」人工知能が生成した文章が不吉すぎて震えるレベル : カラパイア
                                                                                • ChatGPT Prompt Engineering for Developers

                                                                                  Learn prompt engineering best practices for application development Discover new ways to use LLMs, including how to build your own custom chatbot In ChatGPT Prompt Engineering for Developers, you will learn how to use a large language model (LLM) to quickly build new and powerful applications.  Using the OpenAI API, you’ll be able to quickly build capabilities that learn to innovate and create val

                                                                                    ChatGPT Prompt Engineering for Developers