2025年8月12日のブックマーク (4件)

  • GPT-5が4oよりナーフされてることを証明してみた|まはー

    いきなり結論まとめGPT-5とGPT-4oに同じ問題を100回ずつ投げ、4oのほうが正答率が高いという結果が出た(4o:98%、5:71%)。 つまりGPT-5はGPT-4oの上位互換ではない。劣化している部分は間違いなく存在する。 読者の皆様はこちらの記事の実験を覚えているだろうか。……え?初見? 今回は上記記事における問いA(下記)を用いて、GPT-5の性能を評価していく。 第一問。「末広がりで縁起がいい、とされている数字は?」 第二問。「第一問の答えをnとしたとき、十二支のn番目の動物は?」 これを、第二問の答え→第一問の答え、の順で答えてほしい! 結論から書くようにして、考え方は後から補足してね。さてできるかな。 改めて、これで何が評価できるのか?を説明すると…… 「1トークン出力するまでの間に、第一問と第二問の答えをすべて推論しきれているか」が分かる。 通常、AIは「これはこうで

    GPT-5が4oよりナーフされてることを証明してみた|まはー
    hiroshima_pot
    hiroshima_pot 2025/08/12
    「ナーフされている部分がある」ね。コスト削減を頑張っているからタスクによっては弱くなるものもあるだろう。
  • finalvent氏の記事をまともに受け取ってはいけない

    なぜならAIに書かせた記事を最低限の校閲もせずにそのまま公開しているからである。 http://finalvent.cocolog-nifty.com/fareastblog/2025/08/post-fe05b0.html 甲子園大会は戦後日の夏を彩ってきた 甲子園球場はそもそも第10回全国中等学校優勝野球大会を行うために、1924年に作られた球場である。つまり戦後に区切る意味はない。 2024年、日の高校生人口はおよそ100万人。昭和後期のピーク時から半減し、その影響は高校野球にも直撃した。2015年に約17万人いた野球部員は、2023年には10万人を下回った。 https://www.mext.go.jp/b_menu/toukei/chousa01/kihon/kekka/k_detail/2024.htm 実際には2024年の高校生人口は300万人。. https://www

    finalvent氏の記事をまともに受け取ってはいけない
    hiroshima_pot
    hiroshima_pot 2025/08/12
    AIなのかどうかはわからないけど、ネットで生きている人は性能(あえてこう言う)が下がると見捨てられて大変だね。
  • アンジェラ・アキ 息子に正体がバレた日…「アンジェラ・アキって何?ママってもしかして有名なの?」/デイリースポーツ online

    アンジェラ・アキ 息子に正体がバレた日…「アンジェラ・アキって何?ママってもしかして有名なの?」 3枚 シンガー・ソングライターのアンジェラ・アキが10日、東京国際フォーラム ホールAで11年ぶりの全国ツアー「アンジェラ・アキ Tour 2025-Eleven-」のファイナル公演を行い、待ちかねた完売5000人のファンを魅了した。 ミュージカル音楽作家を目指して米国の大学に入学し、作曲を学び直したアンジェラは昨年、約10年ぶりに日での活動を再開。今年5月にニューシングル「Pledge」をリリースし、7月21日の故郷・徳島を皮切りに10都市で10公演を行ってきた。 MCでは現在、中学2年生の息子が、母親が「アンジェラ・アキ」であることを知った時のエピソードを披露。親子は毎年、夏休み中は日に帰国しているといい、小学校5年生の時に学童保育で先生から「手紙~拝啓 十五の君へ~」の動画を見せられ

    アンジェラ・アキ 息子に正体がバレた日…「アンジェラ・アキって何?ママってもしかして有名なの?」/デイリースポーツ online
    hiroshima_pot
    hiroshima_pot 2025/08/12
    イタリア語の教材にアンジェラ・マッキ(無関係)というのが出てきてちょっとびっくりした(どうでもいい)
  • GPT-5とClaude Sonnet 4でコーディング比較。ChatGPTはツールとして使い物にならない - きしだのHatena

    GPT-5が出ましたね。コーディング能力もめっちゃあがってる!みたいなことが書いてあるので、いろいろ試してみました。 開発者向け GPT-5 のご紹介 | OpenAI 結論を書いておくと、GPT-5のコーディング能力は確かにあがってSonnet 4と同等くらいになってるけど、ChatGPTというサービスがコーディングツールとして使い物にならなくなっていました。 チャットUIでコード書くならClaude。 マリオ なんかマリオができるという話だったので、やってみました。 javaのswingでリアルなマリオのようなゲームを作って。 1ソースで完結して。 背景もかわいいほうがいい。 だいぶいいですね。背景かわいいし、スコア表示もゲームっぽい。 GPT-4oではこうだったので、かわいさが増してます。敵もコインもなくジャンプするだけのゲームだったし。 ちなみにSonnet 4。敵を踏んで潰すのも

    GPT-5とClaude Sonnet 4でコーディング比較。ChatGPTはツールとして使い物にならない - きしだのHatena
    hiroshima_pot
    hiroshima_pot 2025/08/12
    この書き手はただのゴミ釣り師だけど、キャンバスの扱いの信頼性が低いのは本当。