タグ

kanda_kのブックマーク (258)

  • キャディ 機械学習勉強会: LLM as a Judgeのレビュー論文について - CADDi Tech Blog

    概要 LLM as a Judgeとは? なぜLLM as a Judgeが注目されているのか? LLM as a Judgeのプロセス プロンプト設計の詳細 モデル選択の詳細 後処理の詳細 LLM as a Judgeの適用シナリオ 評価パフォーマンス改善戦略 LLM評価者の評価 課題と今後の展望 結論 余談 概要 2025年1月10日に行われたキャディ機械学習勉強会でのLLM as a Judgeに関するレビュー論文の紹介と議論を踏まえ、記事はA Survey on LLM-as-a-Judge を読み、内容をまとめ、LLMを評価者として用いる概念、そのプロセス、利点、課題、将来展望について解説したものです。 LLM as a Judgeとは? 従来、専門家が担当していた評価業務をLLMに代行させるという試みです。これにより、評価プロセスの効率化、コスト削減、一貫性の向上が期待されて

    キャディ 機械学習勉強会: LLM as a Judgeのレビュー論文について - CADDi Tech Blog
  • Devinを導入して1ヶ月経ったので、人間とAIとでどのような開発の役割分担をするべきか振り返ってみる - Generative Agents Tech Blog

    こんにちは、ジェネラティブエージェンツの西見です。 「完全自律型AIエンジニア」という触れ込みと、その印象的なティザー動画で一躍有名になったDevinが、2024年12月10日にGAしました。 www.cognition.ai それからしばらく経ったこともあって、X上でもチラホラと日企業におけるDevin採用報告が聞こえてくるようになり、「こんなタスクには使えた😆」「簡単なタスクにハマり続けて使えない、金もったいない😭」といったポストがよく見られるようになりました。 正直なところ、月500ドルは高いなぁ・・・*1なんて思っていたのですが、弊社も多分に漏れずの手も借りたい状況なのもあって、2025年1月22日からDevin(の手)を採用してみました。それからちょうど1ヶ月が経ったので、弊社の開発状況にどんな変化があったのかを振り返って、レポートしてみたいと思います。 GitHub

    Devinを導入して1ヶ月経ったので、人間とAIとでどのような開発の役割分担をするべきか振り返ってみる - Generative Agents Tech Blog
  • 「AIスライド作成ツール」をうまく使うコツとは? 現役デザイナーが考えてみた!|にーの

    世はまさに大AI時代。あらゆる業務領域でAIが活用され、そのスピード感についていくのが大変な時代になってきました。 当然、スライド作成もAIで自動化できるはず! ということで、弊社でも営業やCSチームがより簡単にスライドを作れるようにと、「Gamma(ガンマ)」を導入してみました。 しかし、実際に試してみると、社内からチラホラ「うまく使えないかも」(※小声)という声が・・・ 他に良いサービスはないのか?どうしたら使えるようになるか?を、デザイナーの私が色々触って確かめてみました。 実際に5つのAIスライドツールを試してみた今回は、弊社の「月締会」(つきしめかい)のスライドを作るという条件で、5つのツールを比較しました。 🔹 プロンプト以下のようなイベントスライドを作成できるかテストしました。 月末に行う「月締会」というイベントのスライドを作りたい。 #構成 1. 表紙 2. 会の目的 3

    「AIスライド作成ツール」をうまく使うコツとは? 現役デザイナーが考えてみた!|にーの
  • LangGraphを使ってテックブログレビューエージェントを作ってみた - Insight Edge Tech Blog

    こんにちは、Insight EdgeでDeveloper兼テックブログ運営担当をしているMatsuzakiです。 今回は、私が担当しているテックブログ「Insight Edge Tech Blog」運営担当業務における業務効率化・高度化兼自己研鑽の一貫として現在テックブログレビューエージェントを試作中ですので、そちらの開発経緯や内容をお話ししていきたいと思います。 目次 開発背景 システム構成 レビューの流れ 開発内容 レビュー観点の洗い出し 処理フロー 実装 ステートの定義 グラフの定義 ノードの追加 エントリーポイントの追加 エッジの追加 コンパイルと実行 成果物について 今後の期待 おわりに 開発背景 テックブログ「Insight Edge Tech Blog」は、2022年10月に開設し、2025年2月現在で2年以上継続しています。(先日記事も100を超えました!🎉) しか

    LangGraphを使ってテックブログレビューエージェントを作ってみた - Insight Edge Tech Blog
  • エンジニアチームの生成AIアプリ開発、ハッカソンから始めた理由

    エスマットでエンジニアをしているpotix2です。先日、エンジニアリングチームで生成AIアプリケーション開発のハッカソンを開催しました。8名のエンジニアが5チームに分かれ、1日という短期間で様々なプロジェクトに取り組みました。記事では、その成果と学びを共有します。 ハッカソンの様子 なぜハッカソンを実施したのか 全社的な方針として、業務とプロダクトの両面で生成AIをフル活用していく方向性が示されました。これを受けて、エンジニアリングチームでは生成AIアプリケーション開発に必要な技術的スキルを効率的に習得する必要性に迫られていました。 私たちは既存業務の延長線上ではなく、新規プロジェクトとして技術習得に取り組むことが効果的だと考え、ハッカソン形式での実施を決めました。短期間で集中的に開発することで、生成AIアプリケーション開発の全体像を把握し、必要な技術スタックへの理解を深めることを目指し

    エンジニアチームの生成AIアプリ開発、ハッカソンから始めた理由
  • 開発速度よりも大事なものを見つけた話 - Algomatic Tech Blog

    こんにちは、シゴラクAIカンパニーCTOの菊池 (@_pochi) です。 この記事は、Algomatic アドベントカレンダー2024の15日目の記事です。 algomatic.jp シゴラクAIカンパニーでは、「シゴラクAI」という法人向け生成AI活用プラットフォームの開発運用に加えて、新たな事業領域でのチャレンジを進めています。 新規事業立ち上げという、最大限に不確実性が大きい事業フェーズ において、エンジニアリングによって事業価値向上に最大限寄与するにはどうしたらいいか?を試行錯誤してきました。 記事では、そんな試行錯誤の過程である、現在のシゴラクAIカンパニーの開発スタイルについてご紹介できればと思っております。 「開発速度」より「変化への即応性」を重視しています 開発速度は非常に大事ですよね。ソフトウェアによって課題を解決する事業運営において、ソフトウェアエンジニアの開発速度

    開発速度よりも大事なものを見つけた話 - Algomatic Tech Blog
    kanda_k
    kanda_k 2025/01/30
  • RAGが「複雑な質問に弱い問題」を解決する「Plan×RAG」

    記事では、RAGの性能を高めるための「Plan×RAG」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 この記事は、RAGの文脈消える問題を克服する新手法「Plan×RAG」の論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合はこちらの記事もご参考下さい。 題 ざっくりサマリー Plan×RAGは、RAGの精度を上げるための新しい手法です。アールト大学とMicrosoft Researchの研究者らによって2024年10月に提案されました。 ざっくり言うと、Plan×RAGとは、「計画を立ててから検索する」手法です。Plan×RAGでは、ユーザーの質問を、まず最初に小さな単位に分解。その後、それらの関係性

    RAGが「複雑な質問に弱い問題」を解決する「Plan×RAG」
    kanda_k
    kanda_k 2025/01/29
  • Google DriveとLLMで議事録を自動生成する仕組みを作る

    Google DriveとLLMで議事録を自動生成する仕組みを作る こんにちは。 株式会社エスマットでSREをしているbiosugar0です。 今回は私が社内向けに構築した Google Driveにアップロードされた音声・動画ファイルからLLMを使って自動的に議事録を生成するシステムを紹介します。Python製です。 数ある会議や電話、インタビュー音源を文字起こしし、要点をまとめる作業は非常に手間がかかりがちです。そこで、Google Cloud Run・Google WorkflowWhisper・gpt-4o などを活用して、書き起こしから最終的な議事録ドキュメントを作成するまでを自動化しました。Googleカレンダー情報の連携やSRT形式による動画連携、フォルダ名による処理分岐など、拡張性を持った仕組みを整えているので、そのポイントを順番に紹介していきます。 システム全体概要 全

    Google DriveとLLMで議事録を自動生成する仕組みを作る
    kanda_k
    kanda_k 2025/01/23
  • クッキーとセッションを雰囲気で使っているエンジニアが、違いを説明できるようになる記事

    どうもお疲れ様です。MESIです。 Web系のエンジニアをやっていると普段からクッキーやらセッションやらを使うことになると思います。 皆さんの職場でも、こんな言葉を耳にするのではないでしょうか。 「クッキーに保存しよう」 「クッキー削除しよう」 「セッションに保存しよう」 「セッションが切れた」 そこで私のようなよわよわエンジニアはこう思うのです。 「クッキーとセッションの違い is 何?」 今回はそんな私のようなエンジニア向きにクッキーとセッションを説明していきます。 そもそもなぜクッキーやらセッションが必要なのか そもそもなぜクッキーやセッションは必要なのでしょうか。 それはHTTPはステートレスなプロトコルだからです。 ステートレスって? ステートレスは、その名の通り「状態を保持しない」ことを指します。 HTTPはサーバーがクライアントの状態を覚えず、毎回新たなリクエストとして処理さ

    クッキーとセッションを雰囲気で使っているエンジニアが、違いを説明できるようになる記事
  • 米国でスタートアップの要職をやってたけどレイオフされてしまった話|井上恭輔(きょろ)

    気づけばもう半年以上前の話になりますが、2024年5月、Interim CTOやSoftware Architectとして頑張って働いていた米国でスマートホームを開発するスタートアップ「HOMMA」からレイオフされ、事業を離れることになりました。入社時の夢いっぱいのブログエントリーはこちらからどうぞ。 ※ この記事は退職エントリーです。興味のある方だけお読みください。 何を作っていたの?最終的にどんなものを作ってたの?と思われると思うので、開発したプロダクトのデモを貼っておきます。ちなみに、この動画を作ったのも自分です。私物のBlackmagick Pocket Cinema Camera 4Kを持ち込んで、ポートランドの寒空の下、1人で撮影&編集しました。 タッチパネルが壁一面にあったり、音声クライアントやアプリで操作するドヤ!っとしたスマートホームではなく、埋め込まれたセンサーが人間の

    米国でスタートアップの要職をやってたけどレイオフされてしまった話|井上恭輔(きょろ)
    kanda_k
    kanda_k 2025/01/06
  • GitHub Actionsで定期実行(cron)のワークフローを組んだユーザーが退職すると、ワークフローは無効化される - shmokmt's blog

    GitHub Actionsで定期実行(cron)のワークフローを組んだユーザーが退職すると、ワークフローは無効化される 大事なことなので、見出しでも同じことを書いてしまいました。 何を言っているんだという感じですが、とにかくそういうことらしいです。 厳密には最後にワークフローにコミットしたユーザーが組織から削除されると、無効になるようです。 GitHub Actionsの定期実行でPR作成を自動化*1している会社もそれなりにあるかと思うのですが、その場合はそれらが全部停まります。 さらに、1度無効化されてしまった場合はcron式を変更しないといけないというのも罠ポイントですね。 最後にワークフローの Cron スケジュールにコミットしたユーザーが組織から削除されると、スケジュールされたワークフローは無効になります。 リポジトリへの write アクセス許可を持つユーザーが Cron スケ

    GitHub Actionsで定期実行(cron)のワークフローを組んだユーザーが退職すると、ワークフローは無効化される - shmokmt's blog
    kanda_k
    kanda_k 2025/01/06
  • エスマットのアウトプット施策を振り返る

    この記事は SMat Advent Calendar 2024 の12月25日分の記事です。 こんにちは、株式会社エスマットでエンジニアリングマネージャーを担当している仙葉です アドベントカレンダー最終日です!弊社としては初めての挑戦でしたが、なんとか予定していた通り投稿が実施され完走することができました🎉 今回はアドベントカレンダーの取り組みを振り返りつつ、弊社のアウトプット施策についてお話ししていきたいと思います なぜアドベントカレンダーを始めたのか 弊社では以前からテックブログとZennに記事の投稿を行なっておりました しかし、メンバーの入れ替わりに伴い管理者なども変更されており、今年に入ってから投稿数が減少していました そこで外部アウトプット改善に向けて動き出すにあたり、目をつけたのがアドベントカレンダーです 毎年盛り上がっており、さまざまな記事が投稿されるため読むだけでも大変な

    エスマットのアウトプット施策を振り返る
  • IoTの話がしたくて勉強会を開催した話

    これは SMat Advent Calendar 2024 の12/24分の記事です。 エスマットでエンジニアをしているpotix2です。12/10に、S-Mat Tech Nightと題してIoTエンジニア向けの勉強会を開催しました。この記事では、イベントの様子を紹介しつつ勉強会の運営視点での振り返りを行い、今後同じようにオフラインでの勉強会を開催しようとする方の助けになればと思います。 勉強会開催のきっかけ きっかけは大きく二つあります。一つ目は、エンジニアの採用強化に向けて社外への技術情報発信を強化したいという思いです。もう一つは、センサーデータの扱い方やIoT関連サービスの開発で遭遇しやすい課題について、気軽に話せる勉強会が少ないと感じていたため、IoTエンジニア同士が交流できる場をつくりたいと考えたことです。 実はこの勉強会を企画する前から、「誤差論についての教科書を読んで、気に

    IoTの話がしたくて勉強会を開催した話
    kanda_k
    kanda_k 2024/12/24
  • 2024年生成AIの進歩まとめ

    こんにちは!逆瀬川 ( https://x.com/gyakuse ) です! 生成AI Advent Calendar 2024の記事を書くの忘れていたので、現時点での生成等AIの進歩をまとめてみました!今日はAIがいまなにできんの?ってこと聞かれたときにこれできるよ!って教えるためのメモとして活用してください!また、生成AIプロダクト Advent Calendar 2024というのもソロでやっています。このカレンダーではLLMの基礎理論からModelのFine-Tuning、プロダクト開発等をまとめています。ぜひこちらも見てください! 未来を感じる技術の進歩 動画生成では、Veo2 や Sora が登場しました。 インタラクティブな動画生成では、Genie2 (WASDと方向キーで操作可能な世界モデル)が非常に革新的な進歩を遂げています (振り返っても一貫性を保つ長期性が当にすごい

    2024年生成AIの進歩まとめ
    kanda_k
    kanda_k 2024/12/23
  • 意外と使える?! StorageEventで作るReactコンポーネント同期パターン

    これは SMat Advent Calendar 2024 の12/23分の記事です。 はじめに こんにちは、株式会社エスマット エンジニアの hi6okuni です。 最近Reactでテーブルカラム内にオートコンプリート付きのインプットを設置する機会がありました。 オートコンプリートの検索候補は、localStorageやAPIなど、様々なソースから取得するパターンが考えられます。Reactのライフサイクルにおいて、これらの検索候補を複数コンポーネントで同期し管理する場合、ZustandやContext APIといったグローバルステートを利用することが多いのではないでしょうか?(API経由の場合は、APIクライアントのキャッシュ機能を活用するのが一般的かもしれません) 今回のプロジェクトについても「テーブル内のあるカラムで入力された新規ワードは、他のカラムで即座に検索候補として表示される

    意外と使える?! StorageEventで作るReactコンポーネント同期パターン
    kanda_k
    kanda_k 2024/12/23
  • ChatGPT o1 pro modeに東大理系数学解かせてみた

    2024年12月5日に、OpenAIからChatGPT Proが発表され、大きな話題となりました。 特に衝撃的だったのは、これまでo1-previewとして提供されていた生成モデルをさらにパワーアップしたo1、o1pro modeが提供されたことです。既に人間の脳に匹敵、あるいは凌駕する可能性まであるとか。 ChatGPT Proは$200/月で利用できるようです。早速登録して使ってみました。 東大入試数学を解いてもらおう Proを契約すると、いつものメニューの中にo1 pro modeが出現します。 早速何かを推論してもらいましょう。Xで流れてきたツイートによると、o1proは数理的推論能力に非常に優れており、大学入試数学も軽々解いてしまうとか。 自分は東京大学理系の卒業生ですが、o1proが解けてしまうならば自分のアイデンティティが崩壊する可能性があります。早速検証してみましょう。 昔

    ChatGPT o1 pro modeに東大理系数学解かせてみた
  • エンジニアが事業を動かすための成果定義とは - Speee DEVELOPER BLOG

    ※この記事は、2024 Speee Advent Calendar 22日目の記事です。 前日の記事はこちらになります。 tech.speee.jp はじめに 初めまして、2022年度新卒でSpeeeに入社し、現在Housii(ハウシー)という完全会員制の家探しマッチングプラットフォームの開発チームでエンジニアをしている大金と申します。 今回は、自分の実体験を元にした記事を書いてみました。 開発物を日々沢山リリースしているものの、イマイチ「事業の成果」に向き合えていないと感じるエンジニアの方々にとって、少しでも今後の動き方の参考となる記事になれば幸いです。 目次はこちら はじめに なぜか「事業成果」から遠ざかってしまう問題 「価値ある顧客体験」を軸にした成果定義へのアップデート 1. 事業の解像度の向上 2. 施策のプランニング周りの動きの改善 3. 「見るポイント」の変化 「事業成果」に

    エンジニアが事業を動かすための成果定義とは - Speee DEVELOPER BLOG
  • Google 社員はこう使う! Gemini for Google Workspace 活用術3選

    この記事は Google Cloud Japan Advent Calendar 2024 (Gemini編) の12/19の記事です。 こんにちは!Google Cloud の Customer Engineer の Noriko です。 2024年も残すところわずかとなりました。今年は生成AIが急速に普及し、私たちの働き方にも大きな変化をもたらした一年でしたね。 皆さんは、日々の業務に生成AIをどのように活用していますか? 記事では、Google 社員が Gemini for Google Workspace をどのように活用しているのか、具体的なユースケースをご紹介します。ぜひ、皆様の業務における AI 活用のご参考になれば幸いです! Gemini for Google Workspaceって? Gemini for Google Workspaceは、Googleが開発した生成A

    Google 社員はこう使う! Gemini for Google Workspace 活用術3選
  • Armadilloを使ったIoTデバイスの試作

    はじめに これは SMat Advent Calendar 2024 の12/20分の記事です。 株式会社エスマット エンジニアの若林です。 弊社では「SmartMat Cloud」というIoT重量計 x SaaSでモノの流れを可視化するサービスを提供しております。重量計を使えば多くの商品で数量を把握できますが、世の中には重量での数量の把握が適さない商品もあります。 数量を把握できるモノの対象を広げるべく重量以外でもモノの数を把握できないか実験するため、プロトタイプを作ったりして実証実験をしています。今回はArmadilloというIoTゲートウェイを用いてプロトタイプを作った経験をもとに、どうやって作成したかを簡単に説明しつつArmadilloのメリットデメリットや開発時の注意点を紹介します。 Linux+Pythonスクリプトでソフトウェア開発ができるので、Web系のエンジニアの方でもプ

    Armadilloを使ったIoTデバイスの試作
  • ペアプロが嫌すぎて会社を退職した話 - Qiita

    📒ペアプロ・モブプロアンケート実施中 🖊️ あなたのご意見をお聞かせください。(2025/1/3 23:59まで) 回答結果は2025/1/6(月)にQiitaで公開いたします。 アンケートはこちらから(1分ほどで終わります) はじめに 巷ではペアプロ、モブプロがホットワードになっており、あたかも開発生産性を向上する特効薬のように取り上げられている印象を受けます。一方、この記事では、ペアプロ、モブプロ開発のネガティブな部分を考え、私の経験から感じたペアプロ、モブプロのアンチパターンとその改善策をご紹介します。 どんなアンチパターンを踏んでいたのか? 勤務時間は100%ペアプロを実施(ソロプロ禁止) ソロプロは悪、ペアプロが最高というチームの雰囲気 フロー効率を過度に重視する姿勢 どうなったか? +) 開発生産性およびデプロイ頻度は上がった +) 4keysなどの数値上の指標はすべてプラ

    ペアプロが嫌すぎて会社を退職した話 - Qiita