
はじめに Googleが2025年3月14日に発表したGemini-2.0と、続けてOpenAIが2025年3月26日に発表したGPT-4oの画像生成能力は、これまでの画像生成AIでは到達しえないレベルの制御性・品質での画像生成を実現しました。 ここ1年半ほど画像生成AIいじりを仕事にしてきた者としては、これまで積み上げてきた成果や進捗がすべて無に帰すレベルでの進化が突然起き、巨人にすべてを蹴散らされたという感じです。別のスキルを身につけたほうがいいかな… しかし一方で、この進化は決して1日にして為されたものではなく、これまでの研究成果が地道に蓄積された結果です。本記事では、その驚異的な画像生成能力、ひいてはAny-to-Anyの生成能力の裏にある技術的な背景を、分かる範囲でサクッと解説していきます。 これまでの画像生成AI TL;DR: これまで広く利用されてきた画像生成AIは、拡散モデ
今年の課題のひとつに「AIとの付き合い方を、私なりに探してみる」というのがあったんだけど、AIに課金して以来、あまりに面白い&便利&将来性を感じてしまって夢中になっていた。使い始めて間もないAIを、私は「かなり疲れるツール」だと感じている。AIがなんでも手伝ってくれるのはありがたい。だけど、そのお手伝いに私自身がついていけていない。 AI無しでは30分かかっていたことが、5分ほどで終わってしまうスピード感。AI無しではできなかったことができた時の驚き。そしてAIをとおして深まっていくテーマや問い。そういうことと2時間ほど付き合うと、もうへとへとになってしまう。この疲労は、AIに慣れるほど軽くなるのだろうか? それともAIに慣れて一層効率性が高くなると一層重くなるのだろうか? どちらにしても、開けてはいけない扉を開けてしまった、と私は感じた。2025年を境に、私はAIに支援された生活を始める
sponsored ヤリ手ビジネスマンになりたければビッグローブ光10ギガタイプを選べ! ベテラン編集者が新人営業マンに教える高速回線の重要性 sponsored ”モンハンワイルズ”を遊べる!インテル Arc B580ならOS込み15万円でゲーミングPCを作れる sponsored Backlog World 2024の運営ではチームワークマネジメントを実践していた 「解散が寂しくなる」ような居心地のいいチーム作りはどうやって実現するのか? sponsored 積み上がる課題とタスクをチームで前向きにさばくためのBacklog活用 メンバーのやる気をMAXにするチーム組成術 コミュニティイベントから学ぶ sponsored 驚くほど広くて高解像度のノートがほしい!? それなら14型+14型の2画面ノート「Zenbook DUO UX8406CA」だ sponsored 究極のデジタルライ
AI技術は急速に進歩しており、高度な問題に回答したりかなり自然な会話ができたりと、高い能力を発揮できます。一方で、「中国語の部屋」という思考実験に代表されるように、「AIは思考しているのか、それとも思考しているように見えるだけなのか」という疑問は常に存在しています。オンラインメディアのVoxが、AIに思考が可能かという議論についてまとめています。 From OpenAI to DeepSeek, companies say AI can “reason” now. Is it true? | Vox https://www.vox.com/future-perfect/400531/ai-reasoning-models-openai-deepseek OpenAI o1やDeepSeek r1などの大規模言語モデルは、大きな問題を小さな問題に分解し段階的に解決する「思考連鎖推論」によって
GitHub CopilotやCursorなど、コーディングを補助してくれるAIツールの登場で、プログラミングの敷居は劇的に低くなりつつあります。しかし、Cursorでレーシングゲームを開発していたエンジニアが、AIがコードを書くのを拒否し、「プログラミングを学ぶように」とアドバイスしてきたことを報告しました。 Cursor told me I should learn coding instead of asking it to generate it + limit of 800 locs - Bug Reports - Cursor - Community Forum https://forum.cursor.com/t/cursor-told-me-i-should-learn-coding-instead-of-asking-it-to-generate-it-limit-of-
近年、AIを用いた検索ツールの人気は急速に高まっており、多くのユーザーが従来の検索エンジンの代わりにインターネットをクロールして最新の関連情報を提供するAI検索エンジンを使用しています。しかし、ChatGPT searchやPerplexity、DeepSeek Searchなど8つのAI検索エンジンを対象とした調査の結果、多くのAI検索エンジンが誤った回答をユーザーに提供することが報告されました。 AI Search Has A Citation Problem - Columbia Journalism Review https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php 従来の検索エンジンは一般的に、ユーザーをニュースサイトやその他の質の高
この数日でバズっていた一連の記事を読んで自分も試してみることにした。 【発端】音声入力とAIの組み合わせが強力だという骨しゃぶり氏の記事 https://honeshabri.hatenablog.com/entry/talk2ai 【音声入力】SuperWhisperが良いよというお話 https://umiyosh.hatenablog.com/entry/2025/02/26/215102 【テキストエディター】Cursorはコード書くだけじゃなく、AIを使った文章作成にもいいよというお話 https://ascii.jp/elem/000/004/253/4253872/ 結論から言うと骨しゃぶり氏の言ってることがよくわかった。めっちゃ便利というかちょっとしたイノベーション感じてる。 音声入力自体は以前にも試したことあるけど、そこから先が人力編集なのと、間にAIをかますのとではまっ
Google が Gemini Code Assist を個人ユーザー向けに無料で提供。月18万件の補完 2025 2/25 Googleは、個人開発者向けに AI コーディングツール Gemini Code Assist の無料版のパブリックプレビューを発表しました。 Gemini Code Assist は、コードスニペットの作成、デバッグ、既存コードの修正などを支援し、開発者が複数のプラットフォーム間を行き来することなく作業を完了できるよう設計されています。無料版は学生や趣味のプログラマー、フリーランサー、スタートアップなどを対象としており、最新の AI 技術を活用した高度なコーディング支援を提供します。 今回、無料版として個人ユーザーに提供される Gemini Code Assist は、月間最大18万回のコード補完が可能であり、Google によれば、これは他の無料のコーディング
Appleは今春に向け、OSのアップデートを準備中だ。アップデート時期は4月初旬と見られており、主軸となるのは「Apple Intelligence」の言語対応拡大だ。その中には日本語も含まれる。米国から5カ月遅れでいよいよ世界中へと拡大する。 その結果としてどのような機能が使えるようになるのか? それを解説していこう。 なお、画面の多くは、デベロッパー向けに公開が始まった「デベロッパーベータ版」を使ったものだ。一般向けに、日常利用を前提に公開されたものではなく、重大な不具合が存在する場合もある。 また、リリースで紹介されているものの、まだ実装されていないように見える機能や、調整中と思われる部分も多い。そのため、現段階では精度の評価などは差し控える。 今回は報道目的に許諾を得てスクリーンショットを利用している。 Apple Intelligence向けの「新機能」に注目。 今回Appleが
Anthropicが「Claude 3.7 Sonnet」を発表しました。Anthropicによれば、Claude 3.7 Sonnetは「市場初のハイブリッド推論モデル」で、ベンチマークではOpenAIのo1やo3-mini、DeepSeek-R1を超える性能を見せたとのことです。 Claude 3.7 Sonnet and Claude Code \ Anthropic https://www.anthropic.com/news/claude-3-7-sonnet Claude's extended thinking \ Anthropic https://www.anthropic.com/research/visible-extended-thinking Anthropicのいう「ハイブリッド推論モデル」とは、質問に対してすぐに答える「リアルタイムの回答」と、より推論を重ねた「
長ったらしい動画は「Gemini」が代わりに見て、ポイント教えてくれるよ2025.02.11 13:0018,721 satomi アーティスト「Rol3er」の読み方が知りたいだけなんだが、ヒットしたのは2時間の長ったらしい動画。Geminiに聞いたら2秒で教えてくれた。 Geminiよりスクショ 倍速で見る暇もないときには、もうこれでいいじゃん。 前置きと宣伝と自己紹介が長い動画は思わず飛ばして観てるってアナタ。GoogleのAI「Gemini」最新版を使えば、前置きが終わる前にもうAIがチャチャッと全部見てポイント教えてくれますよ。 利用は無料。WebでもモバイルでもGeminiの画面でだれでも使えます。 YouTubeの要点を文字でまとめてもらうには?Gemini Flash 2.0が先日リリースされて実装された機能みたいですねー。いつの間にか便利になったもんや。手順はかんたん。
プレゼンテーションや配布資料がPDFで共有されることがありますが、このPDFをテキストベースのデータに変換することは、大規模言語モデル(LLM)の出力を最適化するプロセスである検索拡張生成(RAG)にとって頭痛の種です。PDFをテキストベースのデータに変換してRAGで利用できるようにするためのソリューションにはさまざまなものが存在しますが、精度・拡張性・コスト効率を考慮すると微妙な選択肢が多い模様。しかし、Googleの「Gemini 2.0 Flash」を使えばこの作業が劇的に楽になると、Matrisk.aiのCTOを務めるデータサイエンティストのセルゲイ・フィリモノフ氏が解説しています。 Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything - Sergey's Blog https://www.sergey.
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、OpenAIが1月31日(現地時間)に発表した「o3-mini」を取り上げます。 o3-miniは2024年12月にプレビューされており、o1の進化版になります。今回リリースされたのはminiという軽量版で、「o3」は今後登場予定としています。 o3-miniはすぐに回答せず、いろいろ考えてから出力する思考過程を生成するモデルで、科学、数学、コーディングなどで優れた性能を発揮します。画像には未対応で文章のみです。 o3-miniには推論レベルを高く設定した「o3-m
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 OpenAIは、中国DeepSeekが同社のAIモデルを強化するために、OpenAIのデータを「抽出(Distrill)」した証拠を掴んだと主張しています。 AIモデルは、その強化に膨大な量のデータを使って強化学習させる必要があり、その性能を向上に伴い必要になるエネルギー消費やコストは莫大になっています。そのせいで、主要なAI関連企業は専用の原子力発電所を建設する計画を打ち出しているほどです。 しかし、突如出現したDeepSeekのAIモデル「R1」は、はるかに少ないコストやリソースしか使っていないにもかかわらず、OpenAIやGoogleなどの大手企業と同等の成果を達成したように見えました。そして、そのせい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く