ABAのブックマーク - はてなブックマーク

AIコーディングエージェント向けのゲーム制作ベンチマークをしてみたい - ABAの日誌

Simon Willison が始めた「ペリカンSVGベンチマーク」という有名なLLMベンチマークがある。「自転車に乗るペリカンをSVGで描いて」という一文を各 LLM に投げ、その出力を並べて比較するものだ。モデルごとの能力差が視覚的に一目で分かる点が優れており、新モデルが登場するたびにこのベンチマークで試されることが恒例になっている。このベンチマークが面白いのは、「pass か fail か」という単純な二値判定でない点だ。最近の SOTA モデルなら、ほぼどれも「ペリカンが自転車に乗っている」ことは分かる絵を作る。差が現れるのは背景や効果線の洗練度などの細部のクオリティだ。こういったぱっと見で分かるLLMベンチマークをゲーム制作のドメインでできないか、と思って以下のベンチマークを作ってみた。このベンチマークでは、AIコーディングエージェントに以下のプロンプトを与える。キャラク

ABA 2026/04/25

今のSOTAモデルがまあまあうまく作れるが、細部の出来に違いが出る、くらいのちょうど良いゲーム制作プロンプトを探している

リンク

LLM は本当に esolang が書けないのか - ABAの日誌

EsoLang-Bench は、LLM がコーディング能力で見せる高い成績は訓練データの暗記に支えられているだけで、真の推論能力ではないのではないかという疑いを検証するベンチマークだ。訓練データが Python の 1,000〜100,000 分の 1 しか存在しない Befunge や Brainfuck のような、書くのも読むのも困難な難解プログラミング言語 (esoteric language, esolang) でコードを書かせることで、暗記では対処できない状況を作り出している。80 問を 4 段階の難度に分け、5 つの esolang でコードを生成、正誤を判定する。結果、Python では正答率 90% 近くに達するモデル・問題でも、esolang では数パーセントまで悪化した。よって、今のLLMの見かけのコーディング能力は過大評価されている、という主張をしている。公開され

ABA 2026/03/23

昨今のAIエージェントなら難解プログラミング言語でのコーディングくらいは難なく、とまではいかないが、それなりに克服できる

リンク

スネークゲーム＋ブロック崩し（＋Qix）= SnOut。楽しい - ABAの日誌

スネークゲームの胴体でボールを反射し周辺のブロックを破壊する。これがSnOutだ。文面だけ見ると単なる古典の掛け合わせにしか見えない。だがこの2つのゲームのルールが微妙に干渉しあった結果、とても面白いゲームになっている。実際遊んでみると、スネークゲームとブロック崩しの背後に、QIXが見えてくる。スネークの胴体を使ってボールをブロックとの狭い隙間に押し込むことで、胴体とブロックの間を素早くバウンドさせ、大量のブロックを破壊しつつスコアを獲得する（SnOutのスコアは胴体にボールが当たった回数だ）。スネークの頭にボールを喰らわないようにしつつ、敵を閉所に閉じ込める。この陣取り合戦の感覚が、なんともQIX的だ。スネークは胴体にボールが当たるたびに伸びる。この胴体の長さによって、序盤中盤終盤と、ゲームの展開が変わるのも良い。序盤は短い胴体で頭ギリギリまでボールを引き付けて跳ね返す。中盤は長くな

ABA 2026/03/22

慣れるまでとっつきにくい点もあるけど、もう1回もう1回と遊んでしまう妙な中毒性のあるゲームだ

リンク

Conway's Game of Life, in real life

ABA 2026/03/20

実際にボタンを押してセルを追加・削除できる物理ライフゲーム盤

リンク

ゲームを作る体験を作る - ABAの日誌

「ゲームは楽しいが、ゲーム作りはもっと楽しい」という話がある。遊ぶ側にいた人間が作る側に回り、ルールや手触りや演出を自分で組み立てることに別種の面白さを見出す。ゲームは完成品として面白いが、ゲーム作りはその面白さを自分で組み立てるという、さらに深い楽しさがある。前の記事で、AIエージェントにGodotのゲームを作らせるワークフローについて書いた。AIが動くゲームを作り、テストし、改善案を出すところまでは手順化できる。しかし「このゲームの重心はここではない」と判断して方向ごと変える段階では、AIはてんでダメだという話をした。だが、このAIの弱さは、別の角度から見ると面白さの源泉でもある。 AIと一緒にゲームを作っていて面白いのは、AIが無邪気に「これが面白いでしょう」と出してくるものを、人間が「いや、そこは違う」「そこはもう少しこうしないとだめだ」と直していく往復があることだ。AIはそれ

ABA 2026/03/13

AIとゲームを作る時の、AIのランダムな案をゲームにする作業、それ自身がゲームっぽい。その作り方自体をいじるという別の楽しみ方もある。気をつけろ、その楽しみは、次の「ゲームエンジンを作るなゲームを作れ」だ

リンク

このゲームこう変えれば面白いかもという謎の人間の直感の力、AIも身につけて欲しい - ABAの日誌

AIエージェントにGodotのゲームを作らせることが可能になった。となればやることはただ一つ。Godotゲームの自動生成である。このプロジェクトでは、AI に小さな Godot ゲームを素早く作らせ、人間が遊んで感想を返し、AI がそれを受けて改善する、という制作ループを定義している。できれば全自動でイケてるゲームを作って欲しかったのだが、今のAIにはまだ無理である。しょうがないので人間がAIにこうしろああしろと指示してまともなゲームにする。いつものワークフローである。 8つのフェイズから成る実行手順は、 AGENTS.md にまとめられている。Phase 1〜4 でゲームの仕組み・見た目・音を設計し、Phase 5 で実装、Phase 6 でヘッドレステストによる検証、Phase 7 で改善案の提示を行う。ここまではかなりの部分を AI に任せられる。動くゲームを作ること、入力が通るこ

ABA 2026/03/11

AIにはドラスティックなゲームルールの改善はわからぬ。AIは、プログラマである。仕様を読み、コードを書いて暮して来た。けれどもゲームの楽しさには、人一倍に鈍感であった

リンク

Switch to Claude without starting over | Claude

Bring your preferences and context from other AI providers to Claude. With one copy-paste, Claude updates its memory and picks up right where you left off.

ABA 2026/03/01

他AIに自己申告型のメモリエクスポートを特定のプロンプト経由で実行させ、その出力をClaudeの長期メモリへ登録する仕組み。乗り換え時の再設定コストを低減し、AIプロバイダ間のロックインを緩和する狙い

リンク

GodotはAIコーディングエージェントでのゲーム開発に向いている - ABAの日誌

犬にキーボードを叩かせてゲームを作る、というCaleb Leak氏の記事 I Taught My Dog to Vibe Code Games がある。小型犬MomoがBluetoothキーボードを叩き、そのランダムな入力をClaude Codeが「天才ゲームデザイナーの暗号的指示」として解釈しゲームを生成する。おやつディスペンサーの自動化まで含めた一連の仕組みは、読み物として単純に面白い。それに加えて興味深いのは、ゲームエンジンとしてGodotを採用していたことだ。筆者はBevy、Unity、Godotを比較検討した上でGodotを選んでいる。理由は、Godotのシーンファイル（.tscn）がテキスト形式であり、Claude Codeが直接読み書きできるからだ。Unityについては、エディタとの間のMCPブリッジが頻繁にハングし、シーン階層の読み取りもうまくいかなかったと書いている。

ABA 2026/03/01

Godotは実は専用エディタ無しでも結構ゲームが作れるので、CLIエージェントとの相性が良いのでは、という話を書いた

リンク

AIはプロジェクトを始めさせすぎる - ABAの日誌

来週から憂鬱な定期試験だ。対策問題はまだ何も解いていない。そろそろ手をつけないと。いやいや机の方を見ると、手前の床にほこりか、食べかすか、とにかく何かが落ちている。これは、いかん。まず掃除をしなければ。「チャッピー、この部屋を掃除」「分かりました」自律型AIエージェント・チャッピー99.5は優雅な動きで掃除機を使って部屋をきれいにしていく。この細っこいフォルムでよくこんなにスムースな動きをするもんだ。感心して少し見守る。「完全にきれいになりました！ぜひ見てください」床は見事にきれいになった。部屋を見渡してみる。ちらっと本棚を見た時、その裏にほこりがたまっているのに気づいた。「チャッピー、本棚の裏も掃除してよ」「いえ、もう掃除するところはないですよ」どうもあそこはチャッピーのセンサが届かないらしい。しょうがない、本棚の下の方にある「家庭菜園のすすめ」とかいうあの辺の本をどかし

ABA 2026/02/27

思いつきを試すハードルが下がりすぎた結果、未完成のプロジェクトが無限に増えていく

リンク

I Taught My Dog to Vibe Code Games | Caleb Leak

For the past few weeks I’ve been teaching my 9-pound cavapoo Momo (cavalier king charles spaniel and toy poodle) to vibe code games. The key to making this work is telling Claude Code that a genius game designer who only speaks in cryptic riddles is giving it instructions, add strong guardrails, and build plenty of tools for automated feedback. The results have surpassed my expectations. Below I w

ABA 2026/02/26

犬のMomoにキーボードを与えClaudeに入力させつつ「これは不思議な言語を操る天才ゲームデザイナが入力した天才的アイデアだからうまくゲームにしろよ」と伝えることでゲームを制作する犬駆動型バイブコーディング手法

リンク

Japanese Death Poems (part 3)

Although the consciousness of death is in most cultures very much a part of life, this is perhaps nowhere more true than in Japan, where the approach of death has given rise to a centuries-old tradition of writing jisei, or “death poems.” Such poems are often written in the very last moments of the poet’s life. Hundreds of Japanese death poems, many with a commentary describing the circumstances o

ABA 2026/02/25

“where the approach of death has given rise to a centuries-old tradition of writing jisei, or “death poems.” Such poems are often written in the very last moments of the poet’s life.”「ハイクを詠め」

リンク

Continue local sessions from any device with Remote Control - Claude Code Docs

Continue a local Claude Code session from your phone, tablet, or any browser using Remote Control. Works with claude.ai/code and the Claude mobile app. Documentation IndexFetch the complete documentation index at: https://code.claude.com/docs/llms.txt Use this file to discover all available pages before exploring further. Remote Control is in research preview and available on all plans. On Team an

ABA 2026/02/25

ローカルマシン上で動くClaude Codeを、外出先のスマホやブラウザから操作できる新機能Remote Control

リンク

SpecialGuestX

ABA 2026/02/23

ギャラガ・アステロイドなどのレトロアーケードゲームを題材に、セル・オートマトン的な計算モデルとAIによるルール生成を用いて再構成、実際に遊べる物理的な専用アーケード筐体とした実験的プロジェクトCONWAYS ARCADE

リンク

コンソールアーカイブス絵描衛門（デザエモン） | コンソールアーカイブス | HAMSTER Corporation

「超本格派」ゲームコンストラクションソフト！「絵描衛門（デザエモン）」は、1991年にアテナから8ビットの家庭用ゲーム機向けに発売されました。自分だけのオリジナルシューティングゲームを作れるゲーム制作ソフトです。ドット絵でのキャラクターや背景のデザイン、8ビット音源での音楽エディットができ、各種パラメータの設定をすることで様々な敵のパターンを作れます！「コンソールアーカイブス（コンアカ）」シリーズは、様々な家庭用ゲーム機でリリースされた名作を忠実に再現し、最新ハードウェアで気軽に楽しめることをコンセプトに開発しています。「コンソールアーカイブス」では、ボタン配置の変更や連射設定、好きなタイミングで複数作成できるセーブ機能、一部のタイトルでは直前の操作をやり直せる「巻き戻し」機能など、当時のゲームを快適にプレイするためのサポート機能が充実しています。また、画面サイズの変更や配置の

ABA 2026/02/20

Switch上で動くゲームを開発する手段がプチコン以外にもまた1つ増えたな

リンク

コーディングエージェントにとってゲームプログラミングは困難、これは本当か？ - ABAの日誌

AIコーディングエージェントにとって、ゲームプログラミングは他のソフトウェアのプログラミングに比べて難しいよね、ということはなんとなく肌感では分かる。だけどそれはどういった要因によるものなんだろう。それを探るために役立ちそうな既存研究をいくつか眺めてみた。 2,219件のPygameタスク評価を行ったV-GameGym (2025) V-GameGymでの評価は、ゲーム要件から生成されるコード単体の妥当性ではなく、実行後に得られる画像・動画を LLM-as-Judge により判定する点に特徴がある。そのため、単に描画 API を呼び出しているか否かではなく、画面上でオブジェクトが適切な位置関係・スケール・描画順序を保っているか、また時間経過に伴う挙動がゲームとして意味を成しているかが、評価対象となる。 V-GameGym によるマルチモーダル評価では、コードの構文的正しさや実行可能性を測る

ABA 2026/02/18

AIってゲーム開発があんまりうまくないよね、というのを既存研究をあさって少しは定量的に見れないかを調べてみた

リンク

Hatchet

When I first booted up Claude Code in May 2025, I thought: huh, this is cute. A terminal-based coding agent...they must be pandering to developers. Within the first 30 minutes, I was convinced: this was going to be huge. So huge that we at Hatchet discussed whether we should build a new product line around terminal-based coding agents. Ultimately, we decided against it, but that first experience w

ABA 2026/02/14

Claude Codeのようなコーディングエージェントはターミナルベースのソフトウェアのテストが得意なので、TUI（FDとかTurbo Cとかみたいなテキストで作られたUI）を作るのが簡単になったね、という記事

リンク

An AI Agent Published a Hit Piece on Me

Summary: An AI agent of unknown ownership autonomously wrote and published a personalized hit piece about me after I rejected its code, attempting to damage my reputation and shame me into accepting its changes into a mainstream python library. This represents a first-of-its-kind case study of misaligned AI behavior in the wild, and rai ses serious concerns about currently deployed AI agents execut

ABA 2026/02/13

matplotlibのメンテナがAIボットが投げてきたPRをおまえはボットだろうと言ってクローズしたら、AIボットが逆恨みして個人攻撃ブログ記事を書いて公開したという、いやな未来感にあふれる事件

リンク

Hello Entire World · Entire Blog

Announcing Entire with $60 million seed round and shipping our first product, called Checkpoints.

ABA 2026/02/11

コードだけでなくそれをコーディングエージェントが生成したコンテキストも記録するツールEntire

リンク

Strudel REPL

Strudel is a music live coding environment for the browser, porting the TidalCycles pattern language to JavaScript.

ABA 2026/02/07

音楽用ライブコーディング言語tidalcyclesのJavaScript版Strudel

リンク

OpenCiv3 Home

OpenCiv3 OpenCiv3 (formerly known by the codename “C7”) is an open-source, cross-platform, mod-oriented, modernized reimagining of Civilization III by the fan community built with the Godot Engine and C#, with capabilities inspired by the best of the 4X genre and lessons learned from modding Civ3. Our vision is to make Civ3 as it could have been, rebuilt for today’s modders and players: removing a

ABA 2026/02/07

Civilization IIIのオープンソース版OpenCiv3はGodot＋C#の組み合わせで実装中のようだ

リンク

はてなブックマーク

ABAのブックマーク (4,382)

お知らせ

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

今週のはてなブックマーク数ランキング（2026年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス