グーグルは「テキストの説明文から忠実度の高い音楽を生成する」という新しいAIモデル「MusicLM」を公開しています。 説明によると、MusicLMは「数分間一貫性を保つ24 kHzの音楽を生成」し、MusicLMは「音質とテキスト説明の順守の両方において、従来のシステムを凌駕している」という。さらに、MusicLMはテキストとメロディの両方を条件とすることができるとのこと。 以下はMusicLMで生成された音楽の説明文の一例 「アーケードゲームのメインサウンドトラック。テンポが速くアップビートで、キャッチーなエレキギターのリフが特徴。音楽は反復的で覚えやすいが、シンバルのクラッシュやドラムロールなど、意外性のある音も入っている」 「レゲトンとエレクトロニック・ダンス・ミュージックを融合させた、スペイシーで別世界のようなサウンド。宇宙に迷い込んだような体験を誘発し、驚きと畏敬の念を呼び起こ
定義とプロセス DeepFloyd IFは、モジュール化、カスケード化された、ピクセルdiffusion モデルです。ここでは、それぞれの記述子の定義を分解して説明します。 Modular: DeepFloyd IFは、複数のニューラルモジュール(テキストプロンプトからの画像生成やアップスケーリングなど、独立したタスクを解決できるニューラルネットワーク)で構成されており、1つのアーキテクチャでの相互作用により相乗効果が生まれます。 Cascaded: DeepFloyd IFは、異なる解像度で個別にトレーニングされた一連のモデルを使用して、カスケード方式で高解像度データをモデル化しています。このプロセスは、ユニークな低解像度サンプル(「プレーヤー」)を生成するベースモデルから始まり、連続する超解像度モデル(「アンプリファイア」)によってアップサンプリングされて、高解像度画像が生成されます。
Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米Google Researchと米カリフォルニア大学バークレー校の研究チームが開発した「Zero-Shot Text-Guided Object Generation with Dream Fields」は、自然言語の記述のみからデジタル3Dオブジェクトを生成するZero-shot learningを使ったアプローチだ。従来の手法とは異なり、3Dの学習データを必要とせず、自然言語によるプロンプトのみを使用し、形状や色、スタイルを柔軟に制御する。 以下の画像では、いくつかの出力結果の例を示している。例えば、画像上段は「bouquet of flowers sitting in a clea
オルツテクノロジーズは、会議議事録を自動で文字起こしを行う「AI GIJIROKU(AI議事録)」の提供を開始した。 「AI GIJIROKU」とは、同社のグループ企業であるオルツの研究チームによるAI要素技術を駆使し、録音音声の書き起こしや手書きメモを再度手入力することが基本であった会議の議事録を、リアルタイムにテキストデータ化するサービス。 会議参加者の音声を自動で録音・記録し、音声認識によりリアルタイムで会議内容をテキスト化し、精度の高い話者分離機能を搭載しているため、会議参加者が増えた場合でもはっきりと発言者を判断するという。 会議終了後には、テキストデータを共有することも可能。 また、音声認識にミスがあった場合、その都度入力し直しの手間が発生していたが、「AI GIJIROKU」では、話者の音声データを蓄積し、機械学習の学習素材とすることで、オルツ研究チームの成果である、「パーソ
このところNHK関係者から漏れ聞こえてくるのは、各ニュースサイトが廃止に向かって動いているとの情報だ。NHKは2015年に「公共放送から公共メディアへ」をスローガンに掲げ、NEWS WEBに限らず「政治マガジン」「事件記者取材note」などを開設したり、放送したテーマをその後も追って、視聴者からの情報も取り入れてネットで成果を提供するなど次々にニュースサイトを充実させてきた。これらを一気に廃止するのなら、もはや「公共メディア」の目標を取り下げたも同然だ。 「NHKプラス」をめぐる受信料問題 NHKは今は任意業務であるネット業務の必須業務化をめざしている。必須業務化で、現在は放送契約者のみが利用できる番組配信サービス「NHKプラス」を、テレビを持っていない人でもネット単独で契約できるようにしたいらしい。放送だけでは受信料収入を若い世代から取れなくなるのが目に見えているため、少しでも収入を増や
生成AI 大進化 生成AIブームに火を付けた「ChatGPT」の登場から約2年。技術進化は止まらず、最新モデルの実力は人間の博士号レベルを超えたと報告された。ソフトウエアやアプリに組み込まれ、実用的な存在になりつつある生成AIの市場は、2027年には1200億ドル規模と急成長が見込まれる。社会を変革する生成AIの覇権争いの行方と、達人たちのAI活用術に迫る。 バックナンバー一覧 対話形式で人間の質問に回答するChatGPTのほかにも、画像や動画、音声など、さまざまなコンテンツを生成できるAIが実用化されている。いまやあらゆるものが自動ででき、しかも日々進化中だ。特集『生成AI大進化』(全19回)の最終回では、その代表的な26サービスを特徴と共にまとめた。 画像、動画、音声、プログラム… いまやなんでもAIで作れる 10月初旬、AIが作った80年代風Jポップの曲の完成度があまりに高いとSNS
この記事は新野淳一氏のブログ「Publickey」に掲載された「AWS、API経由でジェネレーティブAIを利用する新サービス「Amazon Bedrock」を発表し、ジェネレーティブAIに本格参入。テキスト生成、文章要約、画像生成など」(2023年4月14日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 米Amazon Web Services(AWS)は、ジェネレーティブAIをAPI経由で利用できる新サービス「Amazon Bedrock」を発表し、ChatGPTに代表されるジェネレーティブAI市場に本格参入することを明らかにしました。 合わせて、Amazonの20年にわたる機械学習の経験を基に開発されたとされる、人間と自然言語で対話し質問に回答でき、要求に応じた文章の生成や要約などが可能で、不適切な入力や出力を検出し拒否するように設定された大規模言語モデル「A
【前書き】・筆者について初めまして。しいなと申します。 普段はTwitchやPeerCast等の動画配信サイトでアスカTAをしています。 先日RTAinJapanWinter2022の裏白蛇TAレースに走者として参加しました。 良い機会なのでアスカ見参のTAについて調べてみたのですが、資料や文献があまり見当たらず、この度自分で書いてみることにしました。 思いついたことを逐次追記していきますので、乱筆乱文ですがご容赦いただければ幸いです。 参考までに筆者の裏白蛇TAの最高記録です。 ・店主バグ有り:1時間13分41秒 ・店主バグ無し:1時間19分42秒 ・オープニングローグライクは知識と経験が非常に大事です。 知識があれば、深層でも1ターン後に何が起きるかをほぼ想定できます。 経験があれば、数十フロア先を見越した取捨選択を考えることができます。 ただ不思議のダンジョンでは、想像以上の理不尽や
by Carles Escrig i Royo AI開発スタートアップのVirtuals Protocolが、テキストを入力することで「スーパーマリオブラザーズ」のゲームプレイ映像を生成できるAIモデル「MarioVGG」を開発したと発表しました。MarioVGGは約73万フレームに及ぶ「スーパーマリオブラザーズ」のゲームプレイ動画で学習しています。 MarioVGG https://virtual-protocol.github.io/mario-videogamegen/ New AI model “learns” how to simulate Super Mario Bros. from video footage | Ars Technica https://arstechnica.com/ai/2024/09/new-ai-model-learns-how-to-simulat
お正月なのですがAIは待ってはくれないので毎日「デイリーAIニュース」だけは続けている今日この頃。 中国のテンセントがとんでもないオープンソースをぶっ込んできた。 https://crypto-code.github.io/M2UGen-Demo/ 動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、しかもベースはllama-7Bということで、V100 32GB一つで推論可能(CPUのRAMは49GB以上必要)どころか学習も可能。ホントかよ!! しかもしれっと日本語でも命令できるし。 ほんとにテクノっぽい音楽が流れるなんかこの研究の名前はかなり控えめに「音楽理解できるマルチモーダルモデル」みたいに書いてあるんだけど、とんでもない。実際にはこれは「どんな情報も入力できるマルチモーダルモデル」のプロトタイプである。 MU2GENのモデル構造図音声、画像、動画とい
『Mount & Blade II: Bannerlord』向けに「NPCと自由に会話できる」機能を開発したユーザーが現れた。ChatGPTが用いられているといい、定型文ではなく入力したテキストに対して世界観に沿った返答が生成。NPCとの自然な会話を楽しめる様子だ。国内ではTwitterユーザーのたばたの雑感(メモ)氏などが紹介している。 Image Credit: Bloc on YouTube 『Mount & Blade II: Bannerlord』は、中世を舞台としたアクションRPG『Mount & Blade』の続編。対応プラットフォームはPCおよびPS4/PS5/Xbox One/Xbox Series X|S。プレイヤーはカルラディアと呼ばれる広大な世界で、自由に暮らす。攻城兵器を用いて要塞を攻めたり、権力を求め熾烈な戦いに身を投じたり、さらには犯罪組織を設立したりと、自分
画像生成AI「Stable Diffusion」を開発するStability AIが、テキストや画像から高解像度の動画を生成できる潜在動画拡散モデル「Stable Video Diffusion」を公開しました。 Stable Video Diffusion のご紹介 — Stability AI Japan https://ja.stability.ai/blog/stable-video-diffusion Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets — Stability AI https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-lar
ゲームでキャラクターの名前をつける時やゲーム内チャットなど、ゲームパッドから操作する文字入力方法は、「PCのキーボードよりもコンパクト」というメリットがある一方で、「入力が遅い」という欠点があります。この欠点を克服するため、テキスト入力に最適化されたゲームパッドの入力方式およびキー配置の作成手順をエンジニアのクリス・フリス氏が公開しています。 Touch typing on a gamepad | darkshadow https://darkshadow.io/2020/07/07/touch-typing-on-a-gamepad.html ◆スティック入力の最適化 フリス氏はゲームパッドに適したタイピングシステムの構築にあたり、まずゲームパッドのスティック入力の最適化を行いました。以下の図はゲームパッドの左右それぞれスティックがどう入力されたかを可視化したもので、左側は左スティックを
PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを1つにまとめるプログラムなどがすぐに作れます。 しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日本語や帳票であればもっと難易度が上がります。 この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。 本記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra
使い方pip install -e . でインストール 上記のようなモデルを生成するには、次のノートブックを参照してください。: sample_text_to_3d.ipynb - テキスト プロンプトで条件付けされた 3D モデルのサンプル sample_image_to_3d.ipynb - 合成ビュー画像で調整された 3D モデルをサンプリングします encode_model.ipynb - 3D モデルまたはトリメッシュをロードし、マルチビュー レンダリングとポイント クラウドのバッチを作成し、それらを潜在的にエンコードして、レンダリングし直します。これを機能させるには、Blender バージョン 3.3.1 以降をインストールし、環境変数BLENDER_PATHを Blender 実行可能ファイルのパスに設定します。 テキストから3Dモデルを生成するimport torch fr
いまスマホゲームは、かつての「週刊漫画」になっている──現代の最先端テキストメディア「スマホゲームのシナリオ」は、どう作られている? 大手のシナリオディレクターに聞く 学生の時、スマホゲームは、本当に「共通の話題」の中心だった。 これは、2023年時点で20代の筆者より上の世代の方には、かなり伝わりづらい感覚かもしれない。だが、私が中学~高校の頃、本当にスマホゲームは話題の中心だった。もちろんマンガも読んでいた。もちろんアニメも見ていた。もちろん3DSやPS4で遊んだりもした。けれど、その中でも「スマホゲーム」の存在感はすごく大きかった。 あくまで「筆者の周囲」でしかないので、全国規模でそうとは言えないかもしれない。だけれど、少なくともそんな状況だった世界が、間違いなくそこにあったのだ。 この記事のタイトルにも書かれている通り、今回の対談は「なぜスマホゲームは、今テキストメディアの最前線に
こんにちは。最近の猛暑に生存の危機を感じています、コーポレートデザインチームのmewmo(@mewmoppel)です。 突然ですがみなさん、alt属性ってご存知ですか? alt属性とは、HTML文書においてimg要素に付随する属性のひとつで、画像によって伝えたい内容を説明するための代替テキストを提供します。最近ではTwitterやInstagramといったSNSでも代替テキストを用意できるようになり、より私たちの生活にとって身近なものになっているのではないでしょうか。 そんなalt属性について、最近私がやってしまった失敗とその改善から学んだことをこの場で紹介したいと思います。 alt属性はなぜ必要なの? alt属性のここがよくわかっていなかった! 代替テキストを適切に書くためのコツ 1. 画像をなくしてもページの文意が同等レベルで伝わる 2. スクリーンリーダーで読み上げたときに何の画像な
「お手ごろなテキストアドベンチャーゲーム」という戦い方の勝ち筋とは? 『パラノマサイト』石山貴也に『マーダーミステリーパラドクス』塩川洋介が訊く 「テキストアドベンチャーゲームは売れない」とゲーム業界では言われ続けている。 少人数でも作りやすいことから、作家性やテーマ性が色濃く出るジャンルでもあるため好みが分散されやすい。おそらく「テキストアドベンチャーゲームならどんなテーマでも好き」という人は多くはないだろう。 しかしそんななか、近年のテキストアドベンチャーゲーム界に彗星のごとく現れ、ユーザーから圧倒的な支持を得ているゲームがある。それが、スクウェア・エニックスの『パラノマサイト FILE23 本所七不思議』(以下、『パラノマサイト』)だ。 『パラノマサイト FILE23 本所七不思議』オカルトノベルゲームかと思いきや、突然 “呪殺能力バトル” が始まるという尖りに尖った内容で、シナリオ
コンバートされた flac ファイルをダウンロード 自分のパソコン等に test.flac をダウンロードしておきます。 GCP の初期設定 Cloud Console で Project を作成 Cloud Speech-to-Text API を有効に(検索窓より、Speech-to-Textで検索) Google Cloud Storage(GCS)に、flac ファイルをアップロード GCS でバケットを作成(フォルダのようなもの。今回は0228-speech というバケットを作成しました。)バケットを作成する際にいくつか聞かれますが、バケットの名前だけいれて、後は、続行 ➡️ 続行 ➡️ 続行 ➡️ 続行 ➡️ 作成で進めてください。 test.flac ファイルをアップロード flac ファイルをテキスト化 Cloud Console から、[Cloud Shell を有効にす
どうも、株式会社ナレッジワークのざわきんといいます。 最近よく mermaid というテキストベースの図作成ツールを使っていて、ChatGPTやGitHub CopilotのようなLLMを活用したツールとめちゃくちゃ親和性が高いなと思い、居ても立っても居られないので記事にしました。 TL;DR LLM(Large Language Model)の普及により、テキストベースの図作成ツール(例:mermaid)はますます普及していくと思うので、ガンガン使っていこうぜ!という記事です。 はじめに 言葉によるコミュニケーションの難しさ 突然ですが、言葉によるコミュニケーションって難しいですよね。 頭の中にある構造を言葉だけで相手に正確に伝えることって、なかなか難しいです。 例えば、インフラ構成を説明する場合 例えば、インフラ構成を他の人に説明する場合を考えてみましょう。 ChatGPT に出力して
テキストや画像、フォルダの比較が可能なMac用diffツール「Kaleidoscope」が2年ぶりにアップデートし、Appleの公証取得やRetinaディスプレイでの不具合を修正したと発表しています。詳細は以下から。 過去にTwitter for MacやMac/iOS用RSSリーダーNetNewsWireを開発していた米シアトルのソフトウェア会社Black Pixelは現地時間2020年02月21日、同社が開発&販売しているMac用diffツール「Kaleidoscope」を約2年ぶりにv2.3へアップデートし、macOS 10.15 Catalinaとの互換性を向上させ、Appleの公証を取得したと発表しています。 Kaleidoscope v2.3 Improved macOS Catalina compatibility Notarized builds for improved
【理科】~尿素の結晶作り 第1実験~モコモコの正体は? 親が失敗 テキストに予想や観察記録を書き込みながら実験 第2実験~材質によって結晶の形が変わる実験 第3の実験~水性ペンと油性ペン、どちらも結晶に色がつく? 総合診断テスト用の新たな実験課題も 【社会】~お年寄りについて学ぶ 【算数】~これまでに勉強したことを実生活に 【自分づくり】は自分の名前を使って自分を紹介! 【国語】~新聞を読み取り事件の謎を解く問題! 考える力・プラス講座はテキストも実験も楽しかった 子どもが受講している進研ゼミ小学講座チャレンジ3年生のオプション講座、<考える力・プラス講座>3月号の実験セットは【結晶作りセット】でした。 いつもは1回で終わる実験なのですが、今回は3回に分けて実験するという、時間がかかるものでした。春休み用なんでしょうね。 科目はいつも通り【国・算・理・社・自分作り(道徳的なもの)】。 【理
マーク・ザッカーバーグは7月5日(米国時間)、Instagramチームが開発した、テキスト共有アプリ「Threads(スレッズ)」の初期バージョンを発表しました。クリエイターでも、気軽に投稿したい人でも、リアルタイムの近況や他の利用者との会話を楽しめる新しい場を提供します。今後、オープンで相互運用可能なソーシャルネットワークがインターネットの未来を形作ると考えており、Threadsもそのような互換性を持つようになる予定です。 Threadsについて: Instagramチームが開発した新しいアプリで、テキストで近況を共有したり、他の利用者との会話に参加したりすることができます Instagramアカウントを使ってログインすることができ、最大500文字で投稿可能。リンク、写真、最長5分の動画も投稿することができます 今後、オープンで相互運用可能なソーシャルネットワークがインターネットの未来を
著者Justin Pot – Lifehacker US [原文]翻訳ライフハッカー・ジャパン編集部 2024.11.02 lastupdate AIの活用方法を見つけるのに苦労しています。 もちろん、やる気がないわけではありません。新しい技術を試して、その有用な使い方を指摘するのが私の仕事だからです。 しかし、AIができることのなかで、ほかのツールを使って私自身より速く、より正確にできるものと出会うことはほとんどありません。 しかし今回、状況が変わりました。 最近、複数の飛行機の乗り換えを含む長旅をしたのですが、それらのフライトをカレンダーに追加したいと思いました。 しかし、航空会社はそんな機能を提供しておらず、iCalendarのダウンロードすらありません。 提供されたのはフライト時間のリストだけ。そこで、AIを試してみることにしました。 Claudeでサクッと指定のファイルを作成フラ
くもん出版は2020年10月28日、渋谷ソラスタコンファレンスにて「くもんが考えるこれからのプログラミング教育~なぜ、いま小学校教育にプログラミングが必要なのか?」をテーマに記者発表会を開催した。 関連画像を見る くもん出版では、2020年5月にプログラミング教育の第一人者である小金井市立前原小学校前校長の松田孝氏著「学校を変えた最強のプログラミング教育」を発刊。松田氏の考えを土台に、未就学児から小学生向けの玩具・教材・書籍をラインアップし、Society 5.0の時代を生きる子どもたちの学びを支援していく。 9月には4歳からプログラミングが学べるSETAM&プログラミング玩具「matatalab(マタタラボ)」シリーズを発売し、10月には子どもパソコン「IchigoJam(イチゴジャム)」を使った、初学者(小学中学年~)向けテキストプログラミングワークブック「くもんのプログラミングワーク
GNUは米国時間2020年8月10日、GNU Emacs 27.1をリリースした。前バージョンのリリースが2019年8月28日のため、約1年ぶりのメジャーバージョンアップ。ソースコードはGNUのメインFTPやミラーFTP、近くのミラーFTPからダウンロードできる。 Linux上で動作するGNU Emacs 27.1 GNU Emacs 27.1では、任意サイズの整数やHarfBuzzを使用したテキストのシェーピング、JSONパースのサポートが加わった。また、フリーの2Dグラフィックスライブラリ「cairo」の描画強化やポータブルダンプ出力の見直し、ImageMagickを使用せずに画像サイズの変更や回転機能も追加した。より詳細な変更点はChangelogを確認してほしい。 GNU Emacsは1976年から開発を続けており、古参テキストエディターの一角を担う。幅広いカスタマイズ性でUNIX
児童発達支援士と発達障害コミュニケーションサポーター、二つの資格を取得したお笑い芸人・俳優の鳥居みゆきさん。久しぶりの勉強が「本当に楽しかった!」と語る鳥居さんに「大人になってから学ぶこと」について感じたことを聞きました。※後編<鳥居みゆきが「発達障害」を勉強して気づいたこと 「子どもに『やってはだめ』と決めつけないようになった」>に続く 【写真】文字がびっしり!鳥居みゆきさんが書きこんだノートはこちら 資格の取得より「学ぶ」「知る」ことが目的でした 2月に、児童発達支援士、次いで発達障害コミュニケーションサポーターの資格をとりました。いずれも発達障害の子どもたちのサポートと自立へ導くことを目指す民間資格です。 この資格をとろうと決めたのは、今出演している番組「でこぼこポン!」(NHK Eテレ)が大きなきっかけです。パイロット版の時期を含めると、もう4年目になります。 「でこぼこポン!」は
前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transformer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに 本記事では Google の T5(Text-to-Text Transfer Transformer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います
2020年が始まりました。「2020」という数字列を見ると何か見えてきませんか。そう、半角スペースですね。そこで今回は2020年にちなんで、テキストファイルに半角スペースを用いて暗号文を埋め込む方法を紹介しましょう。 テキストファイルにメッセージを埋め込める「stegsnow」 半角スペースはASCIIコードで「0x20」となります[1]。UTF-8な文化圏で生活している一般的なユーザーであれば、適当なファイルやストレージをバイナリダンプした際に、適度な間隔で「0x20」が登場するデータを見ることで「ここはなんか英文っぽいな」と判断することがよくあるでしょう[2]。hdコマンドやhexdumpコマンドを使う場合はASCIIの印字可能な文字もセットでダンプするので、英文ぐらいなら一発でわかるのですが、そういうことができないケースもあるのです。 結果として「0x20」もしくはプレフィック
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く