  • LLMを用いたLLMの自動評価について 〜可能性と注意点〜 - NTT Communications Engineers' Blog

    こんにちは、イノベーションセンターの杉本(GitHub:kaisugi)です。普段はノーコードAI開発ツール Node-AI の開発に取り組む傍ら、兼務1で大規模言語モデル(LLM:Large Language Model)について調査を行なっています。特に、日本語を中心に学習された LLM への関心があり、awesome-japanese-llm という日本語 LLM をまとめた Web サイトのメンテナンスにも取り組んでいます。 今回は、LLM に LLM の評価そのものを行わせるという新たなアプローチ(LLM-as-a-judge)についてご紹介します。 ChatGPT の登場以降、国内外で LLM の開発競争が進行しており、モデルの重みが公開されたオープンなモデルも続々と現れています。そのような中で、新しいモデルの構築だけでなく、どのモデルが優れているかを比較検討することが今後ます

    • トランプ暗殺未遂、距離とライフルの性能的には「命中して当たり前」だった?~現在の銃の性能について

      Collin Rugg @CollinRugg REPORT: Donald Trump says a last millisecond head tilt likely saved his life as slowed-down footage shows the bullet grazing his ear. If Trump hadn't moved his head, the bullet would likely have hit the rear of his head, ending his life. Trump says he turned his head to look at the illegal immigration statistics that were on the big screen at his rally. "That chart that I w

      • LogLog Games

        The article is also available in Chinese. Disclaimer: This post is a very long collection of thoughts and problems I've had over the years, and also addresses some of the arguments I've been repeatedly told. This post expresses my opinion the has been formed over using Rust for gamedev for many thousands of hours over many years, and multiple finished games. This isn't meant to brag or indicate su

        • LLMによるLLMの評価とその評価の評価について

          LLMをプロダクトに活用していく上でプロンプトの出力結果を評価していかなければいけない訳ですが、可能な限り自動で定量評価できると改善もしていきやすくなり大変助かります。 そこで所謂LLM-as-a-Judgeと呼ばれるLLMに評価してもらう手法を取るわけですが、やはり「このスコアはどれくらい信じられるのか...?」という疑問が湧いてきて"評価の評価"がしたくなってきます。 というところで、本記事では使いそうなLLM-as-a-Judgeの手法について調べた後、"評価の評価"の仕方を調べてみた結果をまとめていきます。 LLM-as-a-Judgeの手法 まず初めに、LLM-as-a-Judgeにも様々な手法が存在するので、それらを確認していきます。 スコアベース 一番ベーシックなものはスコアをつけてもらうやり方です。 次のように実際のインプット、それに対するLLMの回答をプロンプトに加えて、

          • Progress toward a GCC-based Rust compiler [LWN.net]

            This article brought to you by LWN subscribersSubscribers to LWN.net made this article — and everything that surrounds it — possible. If you appreciate our content, please buy a subscription and make the next set of articles possible. The gccrs project is an ambitious effort started in 2014 to implement a Rust compiler within The GNU Compiler Collection (GCC). Even though the task is far from comp

            • Patterns for Building LLM-based Systems & Products

              Patterns for Building LLM-based Systems & Products [ llm engineering production 🔥 ] · 66 min read Discussions on HackerNews, Twitter, and LinkedIn “There is a large class of problems that are easy to imagine and build demos for, but extremely hard to make products out of. For example, self-driving: It’s easy to demo a car self-driving around a block, but making it into a product takes a decade.”

              • How video games use LUTs and how you can too

                Look-up-tables, more commonly referred to as LUTs, are as old as Mathematics itself. The act of precalculating things into a row or table is nothing new. But in the realm of graphics programming, this simple act unlocks some incredibly creative techniques, which both artists and programmers found when faced with tough technical hurdles. We’ll embark on a small journey, which will take us from simp

                • Inside Volodymyr Zelensky’s Struggle to Keep Ukraine in the Fight

                  WorldUkraine‘Nobody Believes in Our Victory Like I Do.’ Inside Volodymyr Zelensky’s Struggle to Keep Ukraine in the Fight ‘Nobody Believes in Our Victory Like I Do.’ Inside Volodymyr Zelensky’s Struggle to Keep Ukraine in the Fight Volodymyr Zelensky was running late. The invitation to his speech at the National Archives in Washington had gone out to several hundred guests, including congressional

                  • Why Cities: Skylines 2 performs poorly

                    The teeth are not the only problem 2023-11-05 Table of contents (This is not) a performance review Pulling back the curtain Engine and architecture Attachment issues Renderdoc analysis DOTS instance data update Simulation Virtual texturing cache update Skybox generation Pre-pass The teeth controversy Pre-pass continued, featuring the high poly hall of shame Motion vectors Roads and decals Main pas

                    • Taylor Swift Is Not a Good Role Model

                      Taylor Swift is not just a pop icon; she's an economic powerhouse of epic proportions. When Taylor Swift comes to town, excitement grows, and cash flows. In fact, Swift is so influential that she has even birthed a new branch of economics called "Swiftonomics." Her current tour, the Eras Tour, has proven to be a veritable goldmine for host cities around the world, generating hundreds of millions i

                      • Japanese City Apologizes After Years of Distributing Sexist Advice for New Mothers

                        Pedestrians walk past a woman wearing a maternity badge on a street in Tokyo on March 3, 2016.Toru Yamanaka—AFP/Getty Images For the past five years, expectant mothers in a Japanese city have been receiving unsolicited advice from local authorities via a flyer telling them how to behave after giving birth—not for their own or their babies’ wellbeing, but to avoid annoying their husbands. The color

                        • HuggingFaceFW/fineweb · Datasets at Hugging Face


                          • 大規模言語モデル(LLM)における日本語評価の概観 - Algomatic Tech Blog

                            はじめまして!Algomatic LLM STUDIO でインターンをしている なべ(@_h0jicha)です。普段は大学でマルチモーダル大規模言語モデルの応用に関する研究に取り組んでいます。 Algomatic のインターンでは、LLM の評価に関して網羅的な調査や各種ツールの導入に取り組んできました。 本記事では、この知見を皆さんに共有することで、日本語圏における LLM 評価の現状を俯瞰していただき、各ツールを適切に選択するための糸口を提供することを目的とします。 はじめに 大規模言語モデル(LLM)の開発プレイヤーが増加している昨今において、日本語を対象言語とした運用を得意とする LLM が次々と公開されています。 LLM を安全に使用する ために、対象タスクに適した LLM を選択すること、ならびに有害なコンテンツ生成を検知することなど、LLM の性能を多角的に評価する枠組みが重

                            • Vol.04 LLMOps に取り組み始めた話 - Sansan Tech Blog

                              技術本部Strategic Products Engineering Unit Contract One Devグループの伊藤です。契約データベース「Contract One」の開発に携わっています。 Contract Oneでは、GPTを活用した機能をいくつか提供しています。 今回は、Contract OneのGPTを活用した機能開発のために、LLMOpsの取り組みの一環としてLangfuseを導入し始めた話をします。 なお、本記事は【Strategic Products Engineering Unitブログリレー】という連載記事のひとつです。 buildersbox.corp-sansan.com はじめに Contract Oneでは、GPTを活用した文書内検索 *1 と要約機能 *2 を約1年前にリリースし、現在も提供しています。 GPTは自然言語形式の入力をAPI形式で処理でき

                              • LangChain State of AI 2023

                                In 2023 we saw an explosion of interest in Generative AI upon the heels of ChatGPT. All companies - from startups to enterprises - were (and still are) trying to figure out their GenAI strategy. "How can we incorporate GenAI into our product? What reference architectures should we be following? What models are best for our use case? What is the technology stack we should be using? How can we test

                                • オープンデータスゴイに寄せられた作品集 - Qiita

                                  はじめに 都知事杯オープンデータハッカソンのFinal Stageにて、コミュニティの力を示すために「#オープンデータスゴイ」というハッシュタグでオープンデータの可視化作品を募集しています。こちらの記事では作成いただいた作品を追記していきます。 ---(2024年3月18日追記) オープンデータスゴイという可視化ハッカソンプロジェクトに移行しましたので、本記事の更新はいったん終了しています。現在月に一度か隔月に一度の頻度でテーマを決めてハッカソンイベントを開催しています。Roun1として実施した人口をテーマにしたハッカソンの結果はこちらにまとめています。 専用のページも開設しましたのでご覧いただけると幸いです! ---(追記ここまで) 都知事杯オープンデータハッカソンのFinal Stageの詳細はこちら。誰でも無料でオンライン視聴可能です。日時は10/22(日)13:30~18:00。

                                  • How To Organize Continuous Delivery of ML/AI Systems: a 10-Stage Maturity Model | Outerbounds

                                    BlogHow To Organize Continuous Delivery of ML/AI Systems: a 10-Stage Maturity Model This article outlines ten stages of operational maturity for deploying ML/AI systems to production. Which stage are you at? Every production-oriented ML/AI team grapples with the same challenge: how to work with data, code, and models effectively so that projects are readily deployable to production. The challenge

                                    • Over 100,000 Infected Repos Found on GitHub

                                      Our security research and data science teams detected a resurgence of a malicious repo confusion campaign that began mid-last year, this time on a much larger scale. The attack impacts more than 100,000 GitHub repositories (and presumably millions) when unsuspecting developers use repositories that resemble known and trusted ones but are, in fact, infected with malicious code. How do repo confusio

                                      • Kanji for Eye: 目 (me/(め)

                                        The Japanese kanji for “eye” is 目. The kun’yomi (Japanese reading) pronunciations of the Kanji 目 are “me” or (め) “ma” (ま), and the on’yomi (Chinese reading) pronunciations of 目 are “moku “(モク) or “boku” (ボク). The Kanji 行, for “eye”, appears in 1,450 Japanese names, and in that case, it is pronounced Sakan (さかん), sagan (さがん), sakka (さっか) or satsuka (さつか). The Kanji 目 is constructed with 5 strokes,

                                        • iPhone15シリーズ用USB-C端子関連部品が暗号化チップ搭載?実画像から予想 - iPhone Mania

                                          iPhone15シリーズ用USB-C端子関連部品が暗号化チップ搭載?実画像から予想 2023 8/14 iPhone15シリーズ用USB-C端子関連部品に搭載されている「3LD3」と刻印されたApple自社設計のチップは、送信データの暗号化のためのものかもしれないとの予想を、リーカーのMajin Bu氏(@MajinBuOfficial)が投稿しました。 ■3行で分かる、この記事のポイント 1. iPhone15シリーズ用USB-C端子関連部品の鮮明な画像が投稿され、3LD3と印字されたプラスチックパッケージのチップが確認された。 2. リーカーは、送信データの暗号化のためのものと推察している。 3. iPhone15シリーズのUSB-C端子はMFi認証USB-Cケーブルと非認証ケーブルで機能を制限するとの噂があったが、そうした目的のチップではないと信じたい。 iPhone15用USB-C

                                          • Paul Graham on Ambition, Art, and Evaluating Talent (Ep. 186)

                                            August 9, 2023 Paul Graham on Ambition, Art, and Evaluating Talent (Ep. 186) Plus, his bizarre strategy for getting over a fear of flying. Tyler and Y Combinator co-founder Paul Graham sat down at his home in the English countryside to discuss what areas of talent judgment his co-founder and wife Jessica Livingston is better at, whether young founders have gotten rarer, whether he still takes a di

                                            • Irreversible Damage to the Trans Community: A Critical Review of Abigail Shrier’s <em>Irreversible Damage</em> (Part One)

                                              Science-Based Medicine Exploring issues and controversies in the relationship between science and medicine Irreversible Damage to the Trans Community: A Critical Review of Abigail Shrier’s Irreversible Damage (Part One) Irreversible Damage, a controversial 2020 book by Abigail Shrier, has enjoyed renewed attention in the last several weeks. Shrier appeals to her audience’s emotions by voicing thei

                                              • オフサイドの“抜け穴”を発見? スウェーデンのクラブがGKとの1対1を作り出す画期的な方法を開発 | ゲキサカ

                                                スウェーデン3部のトルンIFがオフサイドの“抜け穴”を見つけたと主張し、話題を呼んでいるようだ。イギリス『スポーツ・バイブル』などが報じている。 クラブは今月16日、公式X(旧ツイッター/@TornsIF1965)で「GKとの1対1を作り出す独創的な方法を開発した」と動画付きで紹介した。 国際サッカー評議会(IFAB)の競技規則によると、オフサイドは「ボールへの『プレー』または『タッチ』の最初のコンタクトポイント」から判断されると定められている。 クラブはこのルールに基づいた画期的な方法として、パサーが足の甲にボールを乗せて静止している間、受け手が先回りで相手の背後に飛び出し、最終ラインを越えてから出し手のふわりとしたパスを受けるプレーを提唱した。 パサーが最初にボールを触った時点で受け手はオンサイドになっているため、足にくっついたままのボールが裏へ出されてもオフサイドにはならないとの考え

                                                • The Ultimate Guide to Building Your Unique Career Plan

                                                  “We are all, each and every one, unique in the Universe. And that uniqueness is what makes us valuable.”- James A. Owen. Guess what? Your career plan needs to be as unique as you are. It’s not simple to figure out what you want to do with your life. Actually, let me rephrase this: It’s not simple to figure out what different goals you want to accomplish in your life. “What you want to do with your

                                                  • Code Reviews Do Find Bugs

                                                    There’s some 2015 research out of Microsoft titled Code Reviews Do Not Find Bugs11 Code Reviews Do Not Find Bugs; How the Current Code Review Best Practice Slows Us Down; Czerwonka, Greiler, Tilford; IEEE International Conference on Software Engineering; 2015. which seems strangely named because reviewers do find bugs. Here’s what the authors say: Contrary to the often stated primary goal of code
