タグ

ブックマーク / note.com/piqcy (3)

  • マッキンゼーのレポートに見る企業応用を促進する大規模言語モデルの評価方法|piqcy

    2023 年に大規模言語モデルは多数発表されていますが、どれを選べばよいかは依然として曖昧です。その理由の一つにユースケースと評価方法のミスマッチがあると考えています。例えば、営業メールの草案を生成するモデルを選ぶとき、質問回答データセットの評価結果がどれだけ意味があるかは不透明です。誰かにメールを書いてもらいたいとき、東海道新幹線の速度について知っていることを基準にするか ? という話です。 記事では、マッキンゼーが公開した The state of AI in 2023 から生成系 AI の企業利用が盛んな領域について示唆を得て、大規模言語モデル評価の方向性を提案します。日AI 導入効果は米国の 7 分の 1 程度しかないといわれており、生成系 AI のインパクトは限定的になると見込んでいます。生成系 AI の応用を加速するにはカスタマイズが必要な汎用モデルだけでなく、ユースケ

    マッキンゼーのレポートに見る企業応用を促進する大規模言語モデルの評価方法|piqcy
  • ChatGPT の長いプロンプトに意味があるのか気になったときに試す評価方法|piqcy

    ChatGPT を上手く使う方法として、非常に長いプロンプトが共有されているのを見たことがある方は多いと思います。ただ、実務で使う場合長いプロンプトより短いプロンプトの方が扱いやすく API を利用する際のコストも少なく済みます。「ユーザーが作成した Excel マクロをメンテナンスしてほしい」と言われると 90% のエンジニアは不吉な予感に胃が痛くなると思いますが ( ※個人の感覚です ) 、今後誰かが生み出した長文プロンプトが業務に欠かせないものになっていて数文字変えると挙動が変わるようになっていたりしたらメンテナンスには想像を絶する苦痛が伴います。 プロンプト内の表現が性能へどのように寄与するのか計測することができれば、不要な表現を削り短くすることができます。記事では、既存の書籍や記事をもとに期待する回答の基準点を定め、基準点よりどれだけ差異ある返答が得られたかで評価する方法を提案

    ChatGPT の長いプロンプトに意味があるのか気になったときに試す評価方法|piqcy
  • 2022年の振り返りと2023年の抱負|piqcy

    今年もあと3時間で終わろうとしています(記事執筆開始時点)。AWS転職して1年、子供が生まれて1年、と変化が大きく振り返りがいがある一年でした。記事では個人的に2022年の振り返りと2023年の抱負をしたためたいと思います。 2022年の仕事の振り返りAWS1人目のMachine Learning Developer Relationsとして、戦略の立案と実行をしました。機械学習を導入する顧客の体験を6段階に区分して、Developer Relationsは機械学習の学びから検証までの前半3段階、機械学習とSageMakerの扱いに長けたSpecialist SAがモデルの開発からスケールまでの後半3段階を受け持ち連携する体制を取りました。 AWSでの機械学習開発体験の定義競合に比べてLearningの段階で認知が取れていなかったので(※)、2022年はLearningに注力しました。

    2022年の振り返りと2023年の抱負|piqcy
    xiangze
    xiangze 2023/01/03
  • 1