ノンプログラマーな自分が、大規模言語モデル(LLM)の助力で、初めてまともに動くプログラムを完成させることができました。
ノンプログラマーな自分が、大規模言語モデル(LLM)の助力で、初めてまともに動くプログラムを完成させることができました。
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発 医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発 大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた? AIカンニング問題を指摘した研究 一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」 高精度なニューラ
米国のAIスタートアップSunoは、自社のAI作曲サービスである「Suno」をV3にバージョンアップしました。3月20日より、3からのカウントダウンをスタートしていましたが、日本時間の22日2時に、正式公開されました。 V3では、1回で作成できる曲の長さを従来バージョンであるV2の1分20秒をV3では2分までに伸ばし、インストゥルメンタル曲の指定、高音質化、多ジャンルへの対応など、多くの機能強化を行なっています。 これまではProおよびPremierの有償ユーザーのみがアルファ版を使えていましたが、正式版になったことで、無料ユーザーも1日10回、1回で2曲が同時に生成されるので、1日当たり最大20曲まで利用できることになります。 無料ユーザーアカウントで試してみましたが、V3がデフォルトとなっている他に、V3 Alpha版との大きな違いはありません(V2も選択できるようになっています)。
そこで調子に乗って、このアルバムリリース直後に、バンドメンバーに日本の音楽誌がインタビューしたという想定で、ChatGPTに受け答えしてもらいました。その結果がこちら。 The Midnight Odyssey - 「The Odyssey of Echoes」リリース直後のインタビューインタビュアー: 鷹野隼人(Cosmic Prog Chronicles) ――まずは、素晴らしいアルバム「The Odyssey of Echoes」のリリースおめでとうございます。このアルバムを通じて表現したかった主なテーマは何ですか? ジェイク・ハーパー (リードボーカル & ギター)ありがとうございます。このアルバムでは、時間と空間を超えた旅、そして内面の探求をテーマにしています。私たちは、聴き手に音楽を通じて冒険を体験してもらいたいと考えています。 アルバム「The Odyssey of Echo
OpenAIが、かねてから予告していたGPT Store をようやく開設しました。 個人や企業が作ったカスタム版ChatGPTであるGPTsを分野ごとにブラウズ・検索して利用でき、自分が作ったGPTを公開することもできます。 現状では有料プランのChatGPT Plus加入ユーザーのみ、メニューの「Explore GPTs」から利用可能です。 ストアといっても利用に別途料金が必要なGPTsは今のところありませんが※、OpenAIは今四半期のうちにも、GPTsが利用された回数に応じて制作者に収益を分配するレベニューシェアを開始予定です。 (※ サードパーティーと接続したGPTsなどでは、チャットの過程で有料サービスに案内されることはあります。) 開設されたばかりのGPT Store でトップにフィーチャーされているのは、 AllTrails 世界中のトレッキングコースやアウトドア体験を場所・
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの論文をお届けします。 生成AI論文ピックアップ複数の自律AIエージェントが過去の経験を共有して未知のタスクを処理するモデル「Experiential Co-Learning」 画像から動く3Dシーンを生成する新モデル「DreamGaussian4D」 大規模言語モデルの返答が向上する「プロンプト26の原則」が公開。「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など 220以上の生成タスクが実
Stability AIは11月17日、「Japanese Stable Diffusion XL」(JSDXL)を公開しました。 JSDXLは、テキストで記述されたプロンプトに応じて画像を出力するText-to-Imageモデルの最新版であるStable Diffusion XL(SDXL)を日本向けに特化させたAIモデル。 日本語を翻訳ではなく直接扱うことができるため、日本語特有の表現を認識し、日本の伝統的なものから現代的なものまで文化やアートを反映した高品質の画像を生成できるとしています。 ▲男子高校生のプロフィール写真(左: DALLE-3, 中央: 翻訳+SDXL, 右: JSDXL) ▲海岸沿いを走るライダー(左: DALLE-3, 中央: 翻訳+SDXL, 右: JSDXL) なお、JSDXLの学習データは、クリエイターから要求のあったオプトアウト、robots.txtや利用
IT系海外速報を書いたり、翻訳を請け負ったりしています。初めてのスマートフォンはHTC Desire。その後はNexus 5からずっとGoogleさんオリジナルモデルを使っています。 AI一色だった5月のGoogle I/Oで発表された新サービスの中でも、一般ユーザーが手軽に使えそうだと期待したのが「Search Generative Experience」(以下「SGE」)でした。まずは米国でのみの提供でしたが、これが8月30日に日本とインドでも使えるようになりました。米国以外で使えるようになったのは、今のところこの2カ国のみだそうです。 SGEは、Microsoftの「新しいBing」のような、Web検索を生成AIチャットボットとのやりとりで行うというサービスです。全収入に占める広告収入の割合がごくわずかなMicrosoftと違い、GoogleにとってのGoogle検索(の広告)は重要
都市部を中心に品質が大きく低下していたドコモのネットワークですが、同社は4月に対応策を発表。7月28日には、つながりにくさ・遅さの象徴とも言えるスポットだった東京の渋谷、新宿、池袋、新橋での改善状況が明かされました。 以前、この連載でも取り上げたように、人流の戻りや地形の変化などがその原因。単純に言えば、増加したトラフィックを混雑エリアでさばききれなくなったということです。 ▲ドコモは、7月28日に4月に予告していた通信品質改善のチューニングが一部完了したと発表したただし、上記4エリアでも依然として通信品質が低下したままの場所は残っています。代表例として、基地局の撤去されてしまったJRの渋谷駅ホームが挙げられていますが、筆者が簡単に調べた限りでも、まだまだ完璧とは言いがたい状況。 上記4エリア以外でも通信品質の大幅な低下は報告されており、チューニングの継続が求められます。 ▲改善発表後も、
高精度でリアルタイム処理も可能なAI声質変換ソフト(ボイスチェンジャー)「RVC」の記事が大変な反響を呼びました。Stable DiffusionやChatGPTなど生成系AIがメジャー化する中、世間からはそれほど大きな注目を浴びているわけではありませんが、音声AIも驚くべき速度で進化を遂げています。 AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge 記事中でデモとしてお聞かせしたのは、筆者の妻の歌声を高精度に再現するもので、それはこのソフトのおそらく最大の特徴を生かしたものではありません。そこで、また実験をしてみることにしました。 今回は、ポッドキャストbackspace.fmを10年近く一緒にやっている友人であるドリキンのAIモデルをRVCで作ってみました。 backsp
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 コンピューターはプログラムコードで動作しますが、このコードは人間が記述している以上、どうしてもエラーを含んでしまうことが避けられません。 しかし、最近は大規模言語モデルを使ったGPTなどジェネレーティブAIの急速な進歩により、目的とする処理を文章として渡すだけで、AIがある程度プログラムコードを出力できるようになってきました。 そして、BioBootloaderと名乗る開発者による新しい試みでは、プログラム開発の際にどうしても必要となるデバッグ作業を、GPT-4をベースとするAIで行うことを可能にしました。このツールは、プログラムを自動修正することから、似た能力を持つアメコミヒーローにちなんで「Wolveri
このChatGPT機能、もっと早く出ていたらだいぶ楽だったのに……。 そんなAIサービスが今日リリースされました。昨今話題の生成系AI、チャットAIを使いやすくするサービスです。 筆者が他界した妻の写真をAIで生成していることに対してさまざまなご意見を頂戴し、それに対する考えを記事にしたのが1月6日。SNSなどから拾ったコメントを分類し、いろいろな立場からの異論・反論・オブジェクションに対して回答していったのですが、非常に骨の折れる作業でした。もちろん、記事を書いたことによる成果は非常に大きく、その後はほとんど反論らしい反論は見かけなくなったのですが、事前にこうした反響をシミュレーションできていれば、記事内に予防線を張っておけたかもしれません。 そうしたセンシティブな話題のときの反響をある程度推定し、対策できるようなサービスが出ました。 清水亮さんが開発・運営している画像生成AIサービス「
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 オハイオ州クリーブランドのメディア企業Futuriが、ラジオ放送用コンテンツ自動生成AI「RadioGPT」を開発、発表しました。 FutiriはRadioGPTを「世界初のAI駆動型ローカライズラジオコンテンツソリューション、RafioGPTの立ち上げにより、オーディオ業界に革命を起こしている」と鼻息も荒く紹介しています。 それがどんなものか、をざっくりと言えば「GPT-3技術とAI駆動型ターゲットストーリー発見およびソーシャルコンテンツ生成技術 TopicPulse 、AI音声技術を組み合わせ、あらゆる市場やあらゆるフォーマットに合わせこんだラジオ放送エクスペリエンスを提供する」一連のシステムとのこと。
パスワードマネージャー大手の1Passwordが、パスワードなしで利用可能になる方針を発表をしました。今夏には新方式のパスキー(passkey)のみで1Passwordにアクセスできるようになります。 AppleがiOS 16でサポートしたことで知名度が一気に上がったパスキーは、パスワードレス認証の普及を目指すFIDOアライアンスが策定したWebAuth APIを利用する、真にパスワードレスな認証規格。 仕組みとしては、アカウント作成時に公開鍵と秘密鍵のペアを作成し、公開鍵をサーバー側に、秘密鍵をデバイス側に保管します。ログインする場合には、サーバー側から認証要求を行い、ユーザー側はデバイスに保管した秘密鍵を使って署名を送信。 この際、デバイス上ではユーザー認証としてFace IDなどの生体認証を利用します。サーバー側は公開鍵を使って署名を検証することで、正規ユーザーかどうかの確認を行いま
GoogleのCEOサンダー・ピチャイが、自然な文章で質問に回答するAIサービス『Bard』と、Google検索への組込みを発表しました。 ピチャイ氏によると、BardはGoogleが以前から研究してきたLaMDA (会話アプリケーションのための言語モデル)を元にした「実験的会話型AIサービス」。 Google検索にBardを組み込むことで、複雑なトピックについて文章で概要を答えたり、2つのものを比較したり、複雑な条件にあう答えを返すなど、従来の検索では難しかった答えが出せるようになります。 例のひとつでは、「ジェイムズ・ウェッブ宇宙望遠鏡(JWST)の新発見について、9歳児に話すならどんな内容にすべき?」という問いに対して、 「2023年、JWSTは「グリンピース」という愛称の銀河系を発見しました。小さく、丸く、豆のように緑色だったのでこの名前がつけられました」 「ジェイムズ・ウェッブ宇
スマホについて世界中を飛び回って取材し、Webや雑誌などで執筆しています。週刊メルマガ「スマホ業界新聞」を配信中です。 KDDIが7月2日未明から大規模な通信障害を起こした。7月4日午後には落ち着いたものの、それまでデータ通信や音声通話が使えないという前代未聞のトラブルだ。 そんななか、7月3日午前11時からKDDIは通信障害に関する記者会見を開催。まだ、完全復旧していない中での会見で、具体的な原因なども特定されていなかった。 そのため、「会見、やる必要なかったのでは」「いやいや開催した意味はある」とネットで賛否両論、真っ二つとなっている。 通常、この手の通信障害はすべて復旧し、原因を究明した後、数週間後に行われるというのが通例であった。 この5年を振り返ってみると、2018年にソフトバンクが通信障害を起こしているのだが、このときは「ソフトバンクが上場を控えているため、やりたくても記者会見
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く