ikosinのブックマーク - はてなブックマーク

RAG for Agentプロセスという考え方｜深津貴之 (fladdict)

マルチステップエージェントの安定化についてAIでマルチステップエージェントを作る際、安定した挙動にすることが難しいという話をよく耳にします。多くの人はRAG（Retrieval-Augmented Generation）に知識を入れていますが、プロセス情報を先に入れたRAGを作る方が良いのではないかというコンセプトについて考えてみました。プロセス情報を先にRAGに入れる例えば、XXしたいときの手順を以下のように構成します：調査: どこを調べるべきか考慮: どう考えるべきかツールの使用: どのツールを使うべきか保存: 結果をどう保存するかこのように、エージェントのプロセス情報をRAGとして用意しておくことで、エージェントの処理が安定し、結果的にエージェントの回答も安定します。このプロセス処理の安定性がRAGで保証されると、AIエージェントが「印刷する」みたいな、自分でできないタ

ikosin 2024/06/12

AI

リンク

魔術として理解するお絵描きAI講座｜深津貴之 (fladdict)

やればやるほど呪術化する、AI画像錬成について。以下は、その道の専門家にはメッチャ怒られるかもしれない、雑なロジックと制御講座。いちおうメジャーなサービスでは、共通して動作するノウハウ（DALL-E2, MidJourney, StableEiffusion, DiscoDiffusion, crayon, dall-e mini 他）。雑に理解する画像AIのしくみ対話型のAIにとって、呪文プロンプトとは画像錬成の方向性ベクトルを定めるものにすぎない。たとえば、以下は「I love apple」で錬成された画像の例である。どうにも、ふわっとしたものが出てくる I Love Apple「Apple」という方向性ベクトルは、「リンゴ」「青リンゴ」と「アップルコンピューター（旧レインボーロゴ」「アップルコンピュータ（新ロゴ）」など、複数の可能性を同時に持つからだ。つまり、「Apple」

ikosin 2022/08/10

webサービス

リンク

ZOOM会議に効果音をいれて超楽しくするには｜深津貴之 (fladdict)

拡張現実（AR）は、音声からはじまる…というのが以前からの持論。そんなわけでZOOMの会議に、効果音をブチ込める環境を作ってみました。会議中に、Hahahaha!とかOhhhhh…みたいな、アメリカンなアクションやりたい！ファンファーレやドラムロールとか、拍手やブーイング、ズキューンとか鳴らしたいじゃない？ユーザー体験が超変わる！！と思ったのですが、ググってもでてこなかったので環境構築してみました。環境概要物理機材はなしソフトで解決。バーチャルミキサーを使って、マイクと各種音声アプリのサウンドを合算します。初回設定20分。会議前設定30秒ぐらい。ZOOMには、バーチャルミキサーを擬似マイクとして設定。こうすることで、様々な効果音や音楽、楽器をZOOMに流しこめます。バーチャルミキサー音の合成には、Loopbackというアプリを使います。このアプリは、複数のオーディオインプット（マイ

ikosin 2020/05/09

リンク

マイクロインタラクションとバレエ｜深津貴之 (fladdict)

UIのモーションを考える時、よく脳内でバレリーナの動きを再生する。妹がバレエをやっていたため実家の居間では、ローザンヌ国際バレエコンクールのビデオがよく流れていた。ローザンヌは世界最強の若手バレリーナを決める大会だ。この番組はクロード・ベッシー女史というコメンテーターの、辛口実況がウリだった。彼女はパリオペラ座学校の校長先生でもあり、それゆえに評価のハードルが非常に高い。コンテストの登壇者は、ほぼ確実にベッシー先生に滅多斬りにされる。TVカメラのまえで泣きだすこともある。ある意味、登竜門であると同時に公開処刑の場でもあった。そんなベッシー先生が珍しく大絶賛していたのが、2001年だか2002年に出場したミレナ・シドロヴァだった。（追記、ベッシーさん2002年引退してますね。ビデオで見てたから時系列がメタメタだった。2002年のコメンテーターは別っぽい）。バレエに特に興味のなかった僕

ikosin 2018/06/08

リンク

決して止まらないカイゼン体制を作りたい | 深津貴之 (fladdict) | note

中長期のための大きなデザインも大事だけど、そのために日々の改修が犠牲になってはならない（その逆は言語道断）。そんなわけで、しばらくの間は、1〜2日で終わる小さな改修を、コンスタントにnoteチームに提案したいなぁと考えている。もちろん、「リソースが許せば」だけれども。なぜならpiece of cakeにはまだデザイナーが1人しかいないことだ。そんなわけで、中長期でどういうチームを作るべきかウンウン唸っている。並行して走るスロットが3-4つ欲しい理想を言えば、デザイン/開発リソースを3つのグループにわけたい。「大局リソース」、「開発リソース」、「カイゼンリソース」の3つだ。これらはそれぞれ独立しているのが望ましい。複数のレイヤーを1人のスタッフが兼任していると、どれかが忙しくなると、他の全てがストップしてしまうからだ。大局リソースガイドライン、コンポーネントなど、会社全体にストックさ

ikosin 2018/04/28

開発

リンク

ランキング設計はどうあるべきか？その2｜深津貴之 (fladdict)｜note

前エントリで論じられた、正しいランキング設計の考察の続き。第2回は、ランキングの収奪性、格差の固定性を軽減する手段を、具体的に論じてみる。前回の記事へのTwitter上のフィードバックは、Togetterにまとめてある。こちらもご興味があれば、一読の価値がある。いくつか被ってしまったものもあるけれど、諸々の後半記事。「ランキング」以外の名称を用いるこれはほぼ確定。ランキングという名前は、「noteとして競争原理を推奨する」という強いメッセージを発する。noteの全てのユーザーが、競争原理で動いているわけではないので、これは望ましくない。おそらく最終的には「注目」「人気」などの名称を使うことになるかと思われる（「オススメ」はパーソナライズ用にとっておく）。また、「ランキング」という名称やスタンスをやめることで、後述するようないくつかの公平性のための施策を行う余地が生まれる。時間による

ikosin 2018/01/24

リンク

「ユーザーが行動をおこす条件」の話｜深津貴之 (fladdict)｜note

新入社員のこばかなさんが、「こばかなスケッチ」という自分企画を頑張っている。THE GUILDでの日々の仕事と、読書で学んだことを、一枚のスケッチにまとめるチャレンジだ。彼女のスケッチが溜まってきたので、復習とサポートを兼ねて、解説を書いていきたい。第二回はこの絵。行動 = 動機 × 実行能力 × きっかけ今回のこばかなさんのイラストは、「フォッグの消費者行動モデル」という概念モデルだ。ざっくり言うと、ユーザーが行動を起こすために必要な3条件を示している。このモデルでは、「ユーザーが何かアクションを起こす」条件を、 B = MATという、とてもシンプルな式で表現する。その意味は、「行動(Behavior)」には、「動機(Motivation)」と「実行能力(Ability)」があるタイミングで、「きっかけ(Trigger)」が訪れなければならない…というものだ。・動機(Motiv

ikosin 2017/11/20

リンク

読みやすさのデザイン備忘録 | 深津貴之 (fladdict) | note

noteのコア体験は、「読む楽しさ」と「書く楽しさ」だと考えています。本来ならコア体験は、調査でしっかりと導くべきものです。しかしアカデミックなUXとは異なり、実際のスタートアップ環境では時間とリソースに限界があります。このため調べながらも、走り出さなければなりません。まず序盤はヒューリスティック（経験）ベースのデザインを行いつつ、調査やテストが可能なところから、裏づけやチューニングを行う流れになりそうです。以下、「読書体験」における「可読性」のパートのメモ。noteチームにとりあえず提案する予定の諸々です（現時点では個人の見解です）。基本的には「当たり前のことを、当たり前に」やる予定。「これもやっとけ」的なことがあれば、タイポグラファーの諸先輩の方々には、ぜひご意見をお伺いできればと。書体をサンセリフ系に変えるべきか？デジタルでは、一般的にサンセリフ体の可読性は、ローマン体よりも