[B! AI] dorapon2000のブックマーク

AIのトレーニングに必要なデータ量を1万分の1に減らす画期的な方法をGoogleが発表

複雑なプロンプト(命令文)を理解して高度な計算や回答をするAIを実現するためには、数百億～数兆パラメータもの膨大なトレーニングデータを必要とします。基本的にAIが高度になればなるほど多くのトレーニングデータを必要としますが、GoogleはAIモデルの品質を維持したままデータ量を最大1万分の1まで削減できるラーニング手法を発表しました。 Achieving 10,000x training data reduction with high-fidelity labels https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/ 膨大な広告案件の中から安全でない広告コンテンツを分類することは、大規模言語モデル(LLM)により発展が期待されるタスクです。しかし、

dorapon2000 2025/08/10

“こうして得られた初期のデータセットを左は安全なもの、右は安全でないものと分類すると、判断が曖昧だったり間違えていたりする「境界領域」が発生します。”

AI
Google

リンク

11歳児が書いた作文をAIが分析したら、22年後の最終学歴を高い精度で予測できた（生成AIクローズアップ） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間の気になる生成AI 技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI 技術や研究にスポットライトを当てる生成AIクローズアップ。今回は、子どもが11歳のときに書いた短い作文から、その子の将来の最終学歴や認知能力をAIが予測できるかを調査した論文「Large language models predict cognition and education close to or better than genomics or expert assessment」を取り上げます。研究では、1958年に生まれたイギリスの子どもたち約1万人が11歳の時に書いた「25歳の自分を想像して」というテーマの作文を分

dorapon2000 2025/07/22

“例えば、11歳時点での読解力の予測精度は、作文分析で59%、教師評価で57%という値を示しています。”

AI

リンク

AI時代のソフトウェア開発を考える（2025/07版） / Agentic Software Engineering Findy 2025-07 Edition

AI時代のソフトウェア開発を考える（2025/07版）開発生産性 Conference 2025 2025年 7月4日（金） https://dev-productivity-con.findy-code.io/2025

dorapon2000 2025/07/17

リンク

AI時代のソフトウェア開発を考える（2025/07版） / Agentic Software Engineering Findy 2025-07 Edition

AI時代のソフトウェア開発を考える（2025/07版）開発生産性 Conference 2025 2025年 7月4日（金） https://dev-productivity-con.findy-code.io/2025

dorapon2000 2025/07/07

リンク

Claude Codeの「すぐルール忘れる問題」を解決する超効果的な方法を見つけた気がする

どうもこんにちは Claude Codeを使っている人ならみんな感じてると思いますが、CLAUDE.mdでどれだけ緻密なルールを組んでも3ラリーくらいするとすっかり忘れてどんどん適当に動き出すというどうしようもない現象がありますそのたびに「ルールを守ってください」と500000000回は打ち込みましたし、指摘し疲れて「/a」で「ルールを再確認してください」というカスタムコマンドまで組んで対処しているような状況でしたこの問題で難しいのが、「語尾を◯◯にして」だったりそういうしょうもないロールプレイはずっと守るわりに、「事前に確認を取って」とか「このルールで報告して」とかそういう挙動系のルールをすぐ忘れるという点ですこれをどうにか解決できないかなーと考えていたのですが、そもそもなぜ語尾ルールは守れるのか？という部分から答えを見つけるべきだと思い調査を開始しましたなぜ語尾ルールだけは守ら

dorapon2000 2025/06/30

AI

リンク

リーダーって難しすぎる

最近、学生団体のCTOとか学園祭のテクノロジー部門のリーダーになったりして、開発をリードしたり管理したりする立場につきました。これがクソムズで、個人開発とは全然違って、他人のコードを読解しなきゃだし、作業量を分担したり進捗管理したり、めちゃくちゃめんどくさい。何よりも一番キツいのは、実際に社会に出すことを考えて、不特定多数の人が使うシステムだってことを意識すると日々胃がキリキリして仕方ないです... 今日は備忘録として、実際にどんな課題があって、それをどうやって乗り越えようとしているかをまとめていきます。課題1：他人に良いコードを書かせるのは難しい問題：前提共有が甘かったリーダーになるくらいだから周囲よりも多少は知識も経験もあるわけで、「これくらい分かるっしょ」と軽く仕事を振ってしまった。そしたら予想以上にメンバーと前提が食い違って、結果的にアウトプットもズレて、システムの統合で余計

dorapon2000 2025/05/23

“結局、AIに頼るだけじゃ責任を取りきれないし、最後は人間の知識と経験が重要だって痛感しました。”

リンク

LLMが説得力で人間超え、相手に合わせて議論を調整

GPT-4などの大規模言語モデル（LLM）が対話相手の個人情報を活用した場合、議論の場で人間よりも64%高い説得力を持つことが研究で分かった。偽情報拡散の新たなリスクとなる一方、教育目的など肯定的な活用の可能性も示している。 by Rhiannon Williams2025.05.20 17 この記事の3つのポイント GPT-4は人間よりも説得力があると研究で判明した GPT-4は相手の個人情報を利用することで説得力が高まる LLMはデマ拡散に利用される危険性がある一方で対策にもなり得る summarized by Claude 3 毎日、何百万人もの人々がオンラインで議論を交わしているが、驚くべきことに、他人の考えを変えられる人はほとんどいない。新たな研究によれば、大規模言語モデル（LLM）の方がより良い成果を上げられる可能性があるという。これは、良くも悪くも、AIが人々を説得するための

dorapon2000 2025/05/21

“研究チームは、参加者が自分の議論の相手がAIだと思った場合、その主張に同意しやすくなる傾向があることに気づいた。”

リンク

【やってみた】Cursorと始める形式手法（Alloy）

この記事は毎週必ず記事がでるテックブログ "Loglass Tech Blog Sprint" の 68 週目の記事です！ 2 年間連続達成まで残り 38 週となりました！はじめに（前置き）こんにちは、世界。ログラスでQAエンジニアを担当している大平です。突然ですが、みなさん、仕様のレビューをしていますか？レビューをしている場合は、どうやって行っていますか？私はQAエンジニアとして、過去に実施したテスト経験や起きた不具合、既存の機能との整合性や矛盾点、競合製品がどうなっているか、テストのしやすさなどの観点でレビューを実施します。（ちなみにレビューについては、書籍「間違いだらけの設計レビュー」がお勧めです）ただ、過去を振り返ると、私の技量が足りないため、仕様の詳細な部分の指摘が漏れ、後工程で発覚することがQAエンジニアのキャリアの中で何度もありました。もちろん、複雑な仕様に

dorapon2000 2025/05/19

“Alloyは、形式手法を簡潔に適用できるツールのひとつです。Alloyでは、システムの仕様を形式的に記述し、モデル検査のエンジンを通じてその仕様が正しいか、矛盾がないかを確認することができます。”

AI
QA

リンク

バイブスでコーディングする難しさ - ABAの日誌

Vibe Codingとは、AIに身を委ねて、バイブス、感覚でコーディングする手法のことだ。LLMの生成するコードを無条件に信じ、その積み重ねでソフトウェアを作る。理想的には、「こんなものを、いい感じで」とAIに頼むだけでコードができあがる、夢のノーコード開発環境のことを指すのだろう。現実としては、そんな簡単にはいかない。AIは私たちの心を読む超能力者ではない。「いい感じ」と言っただけではAIはただ適当に振る舞う。まず実現したいことの明確なビジョンと、それを支えるしっかりした設計が必要になる。それをAIが理解できる言葉で、適切にタスク分解して伝えなければならない。今のところ、ただ要望を並べただけでまともなコードができあがることはまれだ。 Thoughtworksが行った実験が、この現実をよく示している。彼らは「システム更新プランナー」というアプリケーションをAIに作らせる実験を、３つのア

dorapon2000 2025/05/07

“Vibe Codingでそれなりの成果物を得るためには、設計、タスク分解、テスト戦略、コードレビュー、リファクタリング指示などを適切に行うべきで、これは従来のソフトウェア開発の知見を持った人が、AIと対話しないと”

リンク

話題の論文「AI 2027」についての考察

今、AI業界を賑わせている１つの論文があります。元OpenAIのガバナンス研究者であるDaniel Kokotajloを筆頭に、有名ブロガーのScott Alexander、AI Digest共同創設者のEli Lifland、Center for AI Policy創設者のThomas Larsen、そしてハーバード大学コンピュータサイエンス専攻のRomeo Deanという5人の専門家チームによる「AI 2027」です。その名の通り2027年までのAI発展を詳細に予測したもので、「今後10年間の超人的AIの影響は、産業革命の影響を凌駕するほど非常に大きなものになる」という見解を示しています。この論文の特徴は、予想が非常に具体的なことにあります。さらには衝撃的な内容であることも、評判になっている理由です。 OpenAI、Google DeepMind、Anthropicといった主要A

dorapon2000 2025/04/21

“一方で、高度なAIシステムを管理・監督できる熟練専門家への需要は急増します。「AIトレーナー」、「AIシステムアーキテクト」、「AIエシクスコンサルタント」など、新しい職種も生まれています。”

AI

リンク

Rules File Backdoor について調べてみる

なぜ作成したのか自社でもGitHub Copilot、Curesor使い始めたところなので、転ばぬ先の杖というやつです AIコード補助ツールに対する「Rules File Backdoor」攻撃の詳細調査はじめに近年、GitHub CopilotやCursorといったAIコード補助ツールが開発現場で広く利用されています。それに伴い、新たな供給網（サプライチェーン）攻撃として注目されるのが「Rules File Backdoor」と呼ばれる手法です。これは、CursorやGitHub Copilotが参照するルールファイル（AIの動作方針やコーディング規約を定めた設定ファイル）に、一見無害に見える形で隠された悪意ある指示を埋め込み、AIが生成するコードにひそかに不正なコード片（バックドアや脆弱性）を仕込ませるものです[1][2]。攻撃者はゼロ幅スペースや双方向制御文字など人間には見

dorapon2000 2025/04/15

“一般のテキストエディタやGitのWebインタフェースではこれらの文字が表示されないため、専用のツールやエディタ設定で不可視文字を強調表示させると良いでしょう。”

リンク

1週間、人力コーディング禁止→結果は“成果半減”　それでも「やってよかった」とCTOが言い切るワケ

1週間、人力でのコーディングを禁止してみた──AIスタートアップ企業のエクスプラザ（東京都港区）は3月上旬、こんな実験を実施した。大胆な取り組みだが、その結果は「通常時の仕事の成果から半減した」と同社の松本和高CTOは話す。では実験は失敗だったかというと、そうではなく「成功だった」と答える。それはなぜか。この実験のルールは主に2つで「期間中のコードは全部AIに書かせる」「基本的に例外なし（緊急対応時は除く）」というもの。AIが出力したコードの修正も原則禁止で、デバッグ用の簡単なコードを書くのも認めない。しかし、どうしても手入力をしたい場合は、社内Slack内に設けた「懺悔チャンネル」で何がダメだったか書き込むことで、人力での入力を“こっそり許可”するなど逃げ道も用意した。参加者は同社所属の3人のエンジニアで、エディターは指定せず「Cursor」「Windsurf」「Visual Stu

dorapon2000 2025/04/14

“　「AIで0から新たなプロダクトを作り、顧客にそれを渡す。次にそれを更新したいとなったとときに、もう一度AIを使って“0から1を作り直す”手法が生まれるのではないか」と松本CTOは説明。”

リンク

最近1行もコードを書いていない

最近のAIの進化は目覚ましく、コーディングにおいても、もはや人間が一切を関知せず"ノリ"で全てを完成させるvibe codingなる概念まで登場しました。しかし、現実の業務にこれを適用すると、まあ、上手くいきません。 1ファイルで完結するようなスクリプトであれば上手くいきます。驚くほど上手くいってびっくりします。テトリスを書いて、と指示したらテトリスは完成するでしょう。しかし現実のコーディングは素朴なテトリスを実装するほど単純ではありません。 LLMの限界ここで一つの問いを考えます。「入社初日の知識豊富なエンジニア」と「ここ数ヶ月の間、機能Aの開発に携わっている普通のエンジニア」、どちらが5分で機能Aの開発を進められるか？おそらく、答えは後者になると思います。これがまさにAIによるコーディングに起こっていることで、どれだけLLMの性能が向上したところで、実装に関する知識（コン

dorapon2000 2025/04/13

“まずAIにやらせてだいたい失敗するので手直しするのではなく、失敗しないようAIに渡すコンテキストを整備する”

リンク

GitHub Copilot コードレビュー機能でプルリクエストを日本語でレビューしてもらいたい

はじめに GitHub Copilotは、AIを活用したコード補完ツールとして多くの開発者に利用されています。最近では、コードレビュー機能も追加され、プルリクエストのレビューを自動化することが可能になりました。レスキューナウでも最近利用できるようになったので活用しています！しかし、デフォルトでは英語でのレビューとなっており、日本語でレビューしてもらいたい場合にはちょっとした設定が必要だったので試した内容をメモしておきます 📝 GitHub Copilotのコードレビュー機能とは GitHub Copilotのコードレビュー機能は、プルリクエストに対してAIが自動的にレビューを行い、フィードバックを提供するものです。これにより、コードの品質向上やレビュー作業の効率化が期待できます。日本語でレビューを受けるための設定方法実際に確実に指摘が入りそうなコードを用意して試してみます。やり

dorapon2000 2025/04/10

“やり方は簡単で以下の画面のようにコメントの上下に を入れた状態でレビュアーに Copilot を指定するだけです。”

リンク

Model Context Protocol（MCP）とは？生成 AI の可能性を広げる新しい標準

はじめにこんにちは。クラウドエースの荒木です。 ChatGPT や Claude などの生成 AI が日常生活やビジネスに浸透してきましたが、これらの AI の真価は外部システムと連携したときに発揮されます。しかし、この連携には大きな課題がありました。これまで AI と外部システムを連携させるには、システムごとに個別の API 統合が必要で、認証方法やデータ形式、エラー処理など、細かな実装を繰り返す必要がありました。このような個別対応は開発効率を下げ、拡張性や保守性の面でも問題がありました。そこで登場したのが「Model Context Protocol（MCP）」です。2024 年 11 月に Anthropic が発表したこのオープンプロトコルは、AI と外部システムの接続を標準化し、開発者の負担を大幅に軽減します。この記事では、MCP の基本概念から実装方法、活用事例まで、技

dorapon2000 2025/04/04

“USB-C が様々なデバイスを標準化されたインターフェースで接続できるように、MCP は生成 AI モデルと様々なデータソースやツールを標準化された方法で接続します。”

AI

リンク

Devinにコードレビューをさせ、コード品質と開発速度を同時に高める話

チューニングチューニングにあたっては、大きく以下の3点を重視しました。また、これらを管理するための「プロンプト」と「Knowledge」の使い分けも工夫しています（後述します）。レビュー時のお作法を守らせる（AIは細かい作業に分解することが苦手な場合が多いため、ファイル単位でのチェックや処理の追い方といった手順をインプットしています） Railsアプリケーションにおける理想的な設計パターンをレビュー時に定着させるグロービス特有のドメイン知識・運用ルールを活用させるこれらの観点で情報整理を行うことにより、「一般的に望ましい設計や実装方法」だけでなく、「自社特有の事情を反映した指摘」を自然に提示できるようになります。また、知識の初期構築に多くの時間を割くことなく、実際に使いながらDevinにフィードバックを行い徐々に精度を高めていけるため、最初は小さく始めることを意識しました。 Kn

dorapon2000 2025/03/12

“具体的には、過去に何度も繰り返し指摘してきたようなパターン的な問題をAIが肩代わりしてくれるため、人間がより本質的で難易度の高い課題に集中できるようになりました。”

AI
Devin

リンク

AIをシステム開発に活かすコツ、全部書く｜kmagai

今や、AIを活用してソフトウェア開発すること自体は一般的になり、一種のブームと化している。しかし、Web上で見かけるのはワンショットでテトリスを作る程度の小規模なプロジェクトの話がほとんどで、驚けるものの、正直あまり実用性は無いように感じる。俺たちが本当に知りたいのはテトリスの作り方じゃねえ！現実の中規模以上のシステム開発で、いかに楽に良いものを作れるかだろ！ということで、まずは弊社から現時点のノウハウを全公開しようと思う。弊社ではCursorを1年以上活用（サービスがGAになったタイミングから全社員で利用）しており、一定のノウハウを蓄積してきている自負がある。ただ、あくまで一例ではあるので、ぜひみなさんの現場での活用事例も共有してほしい！免責事項AIエディタでの開発は、LLMとAIエディタの進化に伴い、常に変化している。そのため、この記事で述べる方法論は、現時点での、弊社での

dorapon2000 2025/03/02

“通常のモデル（Claude Sonnet 3.7など）を利用するよりも、Reasoningモデルを活用する方が、より適切な技術選定や設計が可能になるだろう。基本的にはCursor上で特別な追加課金無く使える、deepseek-r1やo3-mini-highを使うと良い”

AI

リンク

【vol.6】SWAT施策で得られた成果を公開します！ | モバファクブログ

こんにちは、モバイルファクトリー（以下、モバファク）でプランナーをしているコーイチ（@apple_51）です！この連載では、全社横断の特別チームをつくって生成AIのリスキリングに取り組む「SWAT施策」について紹介してきました。前回までの記事はこちら： vol1：SWAT施策の概要 vol2：カリキュラムの内容（研修編） vol3：カリキュラムの内容（実践編） vol4：SWAT1期生の取り組み事例紹介 vol5：SWAT2期生の取り組み事例紹介最終回となる今回の記事では、本施策で得られた成果と振り返り、今後の展望についてご報告します。SWAT施策で得られたデータと、直近の全社アンケートのデータの2つを元に記載します。 SWAT施策の実績ユースケース数施策期間中、参加メンバーは検証を重ねて計105件のユースケースをドキュメントにまとめ、社内で共有しました。 2期生の作成数は1期生

dorapon2000 2025/02/28

“筆者は「社内版ChatGPTの使い方100本ノック」が一番効果的な研修だと感じていたが、メンバーはグループワークをより効果的と評価した”

AI

リンク

Devinを導入して1ヶ月経ったので、人間とAIとでどのような開発の役割分担をするべきか振り返ってみる - Generative Agents Tech Blog

こんにちは、ジェネラティブエージェンツの西見です。「完全自律型AI エンジニア」という触れ込みと、その印象的なティザー動画で一躍有名になったDevinが、2024年12月10日にGAしました。 www.cognition.ai それからしばらく経ったこともあって、X上でもチラホラと日本企業におけるDevin採用報告が聞こえてくるようになり、「こんなタスクには使えた😆」「簡単なタスクにハマり続けて使えない、金もったいない😭」といったポストがよく見られるようになりました。正直なところ、月500ドルは高いなぁ・・・*1なんて思っていたのですが、弊社も多分に漏れず猫の手も借りたい状況なのもあって、2025年1月22日からDevin（猫の手）を採用してみました。それからちょうど1ヶ月が経ったので、弊社の開発状況にどんな変化があったのかを振り返って、レポートしてみたいと思います。 GitHubア

dorapon2000 2025/02/23

“Devin導入後の1ヶ月間で、AIは依存関係更新、定型的なドキュメント更新、小規模な機能追加といった自律的検証が可能な細かいタスクにおいて成果を出すことができました。”

リンク

大学での授業や論文指導に関する生成AI雑感（2024年度版） - 誰がログ

はじめに授業研究（学位論文指導、特に卒論）おわりにはじめに 2024年度に大学で担当している授業や学位論文の指導で、生成AI関連で気になることがいくつかあったので記録も兼ねて簡単に書いておきます。以下どうしてもネガティブなことが多くなっていますが、ちゃんと付き合う／使うためにはこういうことも考えておく必要がありそうだということで。私自身はあまり技術的に詳しい方ではありませんが、ふだんの業務や研究では生成AIをいろいろ試しています。ChatGPT Proにはまだ手が出せていないものの、有料プランで使っているものもあります。また、生成AI絡みの研究にもちょっとだけ関わっていたりもします。なお、以下に書くことはあくまで同様の問題に困っている、あるいは心配している人の参考になればということで例を示したものです。一口に「大学」「研究」と言っても、組織や分野、授業・研究の目的などさまざまな

dorapon2000 2025/02/14

“というわけで、2025年度からは最終成果物としてのレポートの評価における割合を減らして、その途中段階の課題やプロセスの評価割合を増やす方向でやってみる予定です。”

AI

リンク

はてなブックマーク

タグ

関連タグで絞り込む (19)

AIに関するdorapon2000のブックマーク (39)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス