並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 101件

新着順 人気順

ベンチマークの検索結果1 - 40 件 / 101件

  • ネットワーク パフォーマンスの解読: TCP と UDP のバルクフローのベンチマーク | Google Cloud 公式ブログ

    Gemini 1.5 モデル をお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。 試す ※この投稿は米国時間 2024 年 6 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud ネットワーキング チームは長年にわたり、お客様のネットワークの構築、修正、強化の支援に深く携わってきました。その間に、ネットワークのパフォーマンスと効率を最大限に高める重要なパターンやベスト プラクティスを発見しました。この豊富な知見は、ただの理論的なリソースではありません。Google Cloud、クロスクラウド、オンプレミス、その他のクラウド プロバイダなどデプロイ先を問わず、お客様のビジネス目標達成を支援するよう設計された実用的なツールキットです。Google はこの専門知識を共有する

      ネットワーク パフォーマンスの解読: TCP と UDP のバルクフローのベンチマーク | Google Cloud 公式ブログ
    • Intelが特定ベンチマークのスコアを最大9%水増しする不正をしていたとして2600件以上のベンチマーク結果が事実上無効に

      性能テストの標準化団体の1つで、公平なベンチマークを行うために設立された非営利組織・SPECが、「Intelが自社プロセッサのベンチマーク結果を水増しするために特定のベンチマークのスコアを向上させるような最適化を行い、スコアを最大で9%水増ししていた」として、Intelプロセッサのベンチマーク結果2600件以上を事実上無効化しました。 Targeted Intel oneAPI DPC++ Compiler Optimization Rules Out 2k+ SPEC CPU Submissions - Phoronix https://www.phoronix.com/news/oneAPI-DPC-Compiler-Cheat-SPEC Impact of Intel Compiler Optimizations on SPEC CPU2017 Example https://www

        Intelが特定ベンチマークのスコアを最大9%水増しする不正をしていたとして2600件以上のベンチマーク結果が事実上無効に
      • 日本語LLMベンチマークと自動プロンプトエンジニアリング - Preferred Networks Research & Development

        大規模言語モデル (LLM) は日進月歩で進化しており、日本語の理解能力についても多くの言語モデルがしのぎを削っています。先日PFNからも、日英2言語を併せた能力で世界トップレベルの性能を示す言語モデルPLaMo-13Bを公開*しました。 一方で、LLMを実際のタスクに適用する場合には、事前学習モデルやファインチューニングによる改善もさることながら、プロンプトの違いが性能を大きく左右します。本稿ではプロンプトを自動的にチューニングすることによって、LLMの能力を最大限に引き出し、与えられた課題の精度をどこまで高められるのかを検証します。 * 本稿で解説するプロンプトチューニング技術は、PLaMo-13B公開時の性能評価には用いていません。 プロンプトエンジニアリングについて LLMを使ったチャットシステムでは、ユーザーからの問い合わせ内容を改変してLLMに入力することがあります。例えば、図

          日本語LLMベンチマークと自動プロンプトエンジニアリング - Preferred Networks Research & Development
        • Raspberry Pi 5 実機レビュー(ベンチマーク編)

            Raspberry Pi 5 実機レビュー(ベンチマーク編)
          • AnthropicがClaude 3.5 Sonnetを突如発表、ベンチマーク結果はGPT-4oに匹敵

            チャットボットAI「Claude」を開発するAnthropicが新モデルとなる「Claude 3.5 Sonnet」を2024年6月21日に発表しました。これは今後リリースされるClaude 3.5ファミリーの最初となるモデルで、ベンチマーク結果はOpenAIのGPT-4oに匹敵するとのことです。 Introducing Claude 3.5 Sonnet \ Anthropic https://www.anthropic.com/news/claude-3-5-sonnet Anthropicによると、Claude 3.5 Sonnetは大学院レベルの推論力、大学学部レベルの知識とコーディング能力を持つとのこと。Claude 3 Opusなど従来のClaudeモデルと比較し、ニュアンスやユーモア、複雑な指示を理解する能力が著しく向上し、自然で親しみやすい口調で高品質のコンテンツを書く能力

              AnthropicがClaude 3.5 Sonnetを突如発表、ベンチマーク結果はGPT-4oに匹敵
            • GPT-4oがAIベンチマークのARC-AGIで50%のスコアに到達、これまでの最高記録である34%を大幅に更新

              AI研究者のライアン・グリーンブラット氏が、AIの一般的な推論能力を評価する指標の「ARC-AGI」において、GPT-4oを工夫して使用することで50%という正答率を達成できたと発表しました。 Getting 50% (SoTA) on ARC-AGI with GPT-4o https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt ARC-AGIでは下図のようにいくつかの例と問題が用意されます。例からルールを推測して正しく問題の図に対応する結果を出力できればOK。人間がこのタスクを行うと子どもであっても85%から100%のスコアを出すことができますが、これまでAIが出したARC-AGIの最高スコアは34%であり、数多くのベンチマークの中でも特に人間との差が顕著でした。 上記の問題はシンプルなため特

                GPT-4oがAIベンチマークのARC-AGIで50%のスコアに到達、これまでの最高記録である34%を大幅に更新
              • Apple M3チップファミリーを搭載したMacBook Pro (Nov 2023)のXcodeベンチマークスコアまとめ。11コアM3 Proのスコアは10コアM1 Pro程度に。

                Apple M3チップファミリーを搭載したMacBook Pro (Nov 2023)のXcodeベンチマークが公開されています。詳細は以下から。 Appleは現地時間2023年10月30日に開催したスペシャルイベント「Scary fast. (速いもの見たさ。)」で、Mac用の第3世代Apple Siliconチップとなる3つの「M3、M3 Pro、M3 Max」と、そのM3ファミリーを搭載する「MacBook Pro (14/16インチ)」を発表しましたが、このM3チップファミリーのXcodeベンチマーク(XcodeBenchmark)が公式リポジトリに登録されてきたのでまとめてみました。 なお、XcodeBenchmarkはオープンソースで公開されており、Xcodeとコマンドラインツールさえインストールしてあれば誰でも実行可能ですが、2023年10月からXcode 15用にコンパイル

                  Apple M3チップファミリーを搭載したMacBook Pro (Nov 2023)のXcodeベンチマークスコアまとめ。11コアM3 Proのスコアは10コアM1 Pro程度に。
                • Apple M4がベンチマーク結果でIntel Core i9-14900KSを破ったという報告

                  ベンチマークアプリを提供するGeekbenchのオンラインデータベースに、AppleのM4のベンチマーク結果が投稿されています。それによると、M4のスコアがCPUシングルスレッドの結果においてM4がIntelのCore i9-14900KSを上回ったとのことです。 Incredible Apple M4 benchmarks suggest it is the new single-core performance champ, beating Intel's Core i9-14900KS — results of 3,800+ posted | Tom's Hardware https://www.tomshardware.com/pc-components/cpus/apple-m4-scores-suggest-it-is-the-new-single-core-performan

                    Apple M4がベンチマーク結果でIntel Core i9-14900KSを破ったという報告
                  • 【笠原一輝のユビキタス情報局】 ライバル完封のSnapdragon X Elite、ベンチマークでその実力が明らかに

                      【笠原一輝のユビキタス情報局】 ライバル完封のSnapdragon X Elite、ベンチマークでその実力が明らかに
                    • 3つのゲーマー向けLinuxがベンチマークでWindows 11を上回るスコアをたたき出す

                      PCゲームの多くがLinuxを念頭に開発され、2023年8月にはゲーミングPCのOSのシェア率でLinuxがmacOSを上回るなど、Linuxはゲーマーコミュニティの間で人気のOSとなっています。ドイツのIT系ニュースサイト・ComputerBaseの調べにより、3つのLinuxディストリビューションがベンチマークでWindows 11をしのぐパフォーマンスを示すことがわかりました。 Linux-Gaming: Distributionen im Vergleich: Testergebnisse und Fazit - ComputerBase https://www.computerbase.de/2023-12/welche-linux-distribution-zum-spielen/2/ Three gaming-focused Linux operating systems b

                        3つのゲーマー向けLinuxがベンチマークでWindows 11を上回るスコアをたたき出す
                      • GoogleのチャットボットAI「Bard」がついにベンチマークスコアでGPT-4を上回って第2位に浮上

                        カリフォルニア大学バークレー校・カリフォルニア大学サンディエゴ校・カーネギーメロン大学が協力して設立したオープンな研究組織・Large Model Systems Org(LMSYS Org)は、大規模な機械学習モデルのデータセットやオープンモデル、評価ツールを共同開発しています。LMSYS Orgが自身の開発した大規模言語モデルベンチマークプラットフォームで、GoogleのチャットボットAI「Bard with Gemini Pro」のベンチマークスコアがOpenAIのGPT-4の一部モデルを超えて2位にランクインしたと報告しました。 LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard LM

                          GoogleのチャットボットAI「Bard」がついにベンチマークスコアでGPT-4を上回って第2位に浮上
                        • ARMアーキテクチャがメモリアクセスを省略することで意図したベンチマークになっていなかった話

                          概要 あるサンプルコードのベンチマークを測定したところ、期待していたよりも18倍速い結果が出力されました。バイナリを調査してみると、メモリ読み出しの命令が1つ増えるだけでこの性能差が生じていました。さらに調査を進めると、ARMアーキテクチャは連続したメモリへの書き込みを1つにマージし、実行を省略する可能性があることがわかりました。そのため、一般的なベンチマークのように複数回の測定結果を平均化するやり方では、正しい速度を測定できていませんでした。 「パフォーマンスを解釈するのにアーキテクチャの理解が不可欠だった事例」として面白かったのでこの記事を書いてみました。Go言語で説明しますが、言語に依存しない話だと思います。 得られた教訓 バイナリを見ても説明できない性能差は、アーキテクチャの理解によって説明できることがある マイクロベンチマークは、何を計測しているのかを理解した上で実施する必要があ

                            ARMアーキテクチャがメモリアクセスを省略することで意図したベンチマークになっていなかった話
                          • TypeScriptパーサーのベンチマーク:Rustツールの性能の謎を解く

                            TL;DR: JavaScriptで使われるネイティブパーサーは、言語間の余分な作業のために常に速いとは限りません。これらのオーバーヘッドを回避し、マルチコアを使うことが性能にとって重要です。 Rustは、そのパフォーマンスと安全性の特徴から、JavaScriptエコシステムの中で急速に選択肢の一つになっています。しかし、RustをJavaScriptツールに統合することは、特に効率的で移植性の高いプラグインシステムを設計する際に、固有の課題をもたらします。 「JavaScriptツールをRustで書き直すことは、広範な外部貢献を必要としない速度重視のプロジェクトにとって有利です。」 ESLintの作者であるNicholas C. Zakas Rustは、その急な学習曲線のために難しいものになりがちで、さらにコンパイルされたバイナリを異なるプラットフォームに配布することも簡単ではありません

                              TypeScriptパーサーのベンチマーク:Rustツールの性能の謎を解く
                            • Appleシリコン「M3 Pro」のベンチマーク結果が明らかに、CPUのマルチコアパフォーマンスが前世代のM2 Maxと変わらないという指摘

                              2023年10月31日に開催されたAppleの新製品発表イベントで、Appleシリコンの次世代チップとなる「M3」「M3 Pro」「M3 Max」の3つが発表されました。このチップはMac用Appleシリコンとして初めて3nmプロセスで製造されたチップとなり、Appleはパフォーマンスの大きな向上をアピールしていましたが、M3 Proのマルチコアパフォーマンスのベンチマークスコアが前世代のM2 Maxと変わらないという結果が報告されています。 First Apple M3 Pro Benchmarks Show Surprisingly Low Multi-Core Gains Over M2 Pro | Extremetech https://www.extremetech.com/computing/first-apple-m3-pro-benchmarks-show-surprisi

                                Appleシリコン「M3 Pro」のベンチマーク結果が明らかに、CPUのマルチコアパフォーマンスが前世代のM2 Maxと変わらないという指摘
                              • AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに

                                Appleが、Apple製デバイス向けのパーソナルAI「Apple Intelligence」のベンチマーク結果を公開しました。 Introducing Apple’s On-Device and Server Foundation Models - Apple Machine Learning Research https://machinelearning.apple.com/research/introducing-apple-foundation-models Apple Intelligenceは2024年6月11日2時からAppleが開催している年次開発者会議「WWDC24」の基調講演にて発表されました。基調講演のうち、Apple Intelligenceに関する内容は下記の記事で確認できます。 Appleが新たなパーソナルAIの「Apple Intelligence」を発表、

                                  AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに
                                • WinterJSとは何者か?ベンチマークでの比較検証

                                  概要 2024年3月12日にこんなニュースが飛び込んできました。 WinterJSの1.0が発表されたとのことで、今回はWinterJSとは何者なのかについてをまとめていき、検証していきます。 WinterJS WinterJS とは、Rustで書かれたJavaScriptランタイムでSpiderMonkeyエンジンを使用して、javaScriptを実行します。 Rustで書かれたと言っているのは、HTTPリクエストなどの処理や、JavaScriptイベントのループを処理をするRust の非同期ランタイムTokioを使用しているからです。 また、WinterJSは、WebAssemblyにコンパイルすることもできるようです。 そして、一番重要なことは、JavaScriptにおけるHTTP Serverとしての性能について、処理速度がとんでも無く早いということを謳っている点ですね。 今回は、

                                    WinterJSとは何者か?ベンチマークでの比較検証
                                  • 新旧34種類のGPU(グラフィックボード)性能を一気に比較!! 気になるベンチマーク結果は? 【新装第1回/通算第13回】現行世代はこれで一段落。今の勢力図を総まとめ text by 加藤 勝明

                                      新旧34種類のGPU(グラフィックボード)性能を一気に比較!! 気になるベンチマーク結果は? 【新装第1回/通算第13回】現行世代はこれで一段落。今の勢力図を総まとめ text by 加藤 勝明
                                    • VRChatの推奨スペックを実際に検証してみた【グラボ別ベンチマーク】 | ちもろぐ

                                      VRChatの必要動作スペックVRChatの公式推奨スペックは以下の通りです(https://help.vrchat.com/hc/en-us/articles/1500002378722-System-Requirementsより引用)。 CPU:Core i5(4コア) / Ryzen 5(6コア)以上メモリ:8 GB以上グラボ:GTX 1060 / RX 580以上ストレージ:21.5 GB以上の空き容量VRChatのヘルプデスクが2023年8月に更新した推奨スペックですが、ウワサに聞いているよりも軽い要求スペックに見えます。 CPUやメモリの要求度が低く、代わりにグラフィックボードの要求度がやや高いです。といってもGTX 1060やRX 580は2023年時点でローエンドグラボに分類されます。 しかし、上記のヘルプデスクが示したスペックはあくまでも動作をサポートできる最低限度のスペ

                                        VRChatの推奨スペックを実際に検証してみた【グラボ別ベンチマーク】 | ちもろぐ
                                      • Apple・Google・Microsoft・Mozillaが協力して開発するベンチマークツール「Speedometer 3.0」が登場

                                        Apple、Google、Microsoft、Mozillaといったテクノロジー大手が協力して開発するベンチマークツール「Speedometer 3.0」が発表されました。 BrowserBench.org — Announcements https://browserbench.org/announcements/speedometer3/ Improving Performance in Firefox and Across the Web with Speedometer 3 - Mozilla Hacks - the Web developer blog https://hacks.mozilla.org/2024/03/improving-performance-in-firefox-and-across-the-web-with-speedometer-3/ Speedomet

                                          Apple・Google・Microsoft・Mozillaが協力して開発するベンチマークツール「Speedometer 3.0」が登場
                                        • AGI(汎用人工知能)の試金石 新しいAIベンチマーク「GAIA」をMeta等が発表 人間は92%、GPT-4は15%の正解率 | Ledge.ai

                                          Top > 学術&研究 > AGI(汎用人工知能)の試金石 新しいAIベンチマーク「GAIA」をMeta等が発表 人間は92%、GPT-4は15%の正解率

                                            AGI(汎用人工知能)の試金石 新しいAIベンチマーク「GAIA」をMeta等が発表 人間は92%、GPT-4は15%の正解率 | Ledge.ai
                                          • Apple M4のベンチマークスコアが高かった理由はARMv9化? IPCはM3から3%向上に留まる可能性

                                            Apple M4のベンチマークスコアが高かった理由はARMv9化? IPCはM3から3%向上に留まる可能性 Appleが発表した新型iPad Proでは同社が開発した新しいプロセッサのApple M4を搭載し、発売前に登場したGeekbench 6のベンチマークでは同社のM3を20%以上超える性能を実現し、エンタープライズ向け製品であるM2 Max搭載のMac Studioにも迫るなど非常に高い性能を持つことが明らかになっていますが、この非常に高いスコアの背景にはM4では従来まで使われていたARMv8からARMv9を採用したことが大きな要因になっている可能性があるようです。 Apple M4 has a vast IPC improvement! See the Geekbench 6.3 scores! Intel is DOOMED! That's what you will hear

                                              Apple M4のベンチマークスコアが高かった理由はARMv9化? IPCはM3から3%向上に留まる可能性
                                            • ついにベンチマーク解禁の「Snapdragon X」搭載「Copilot+ PC」=「ASUS Vivobook S 15」実機レビュー

                                              本日6月18日、Qualcommの次世代AI機能を搭載するプロセッサー「Snapdragon X」を搭載する「Copilot +PC」が各社から発売された。今回レビューする「ASUS Vivobook S 15 S5507QA」もそのひとつ。ASUSから日本市場で初めて発売される「Copilot+ PC」となる。 Vivobook S 15は、NPU単体の処理能力が45TOPSで、CPU、iGPU、NPUを合わせた処理能力が75TOPsを実現したプロセッサー「Snapdragon X Elite」を搭載。専用のWindows Copilotキーを搭載することで、AIアシスタント機能「Windows Copilot」を素早く呼び出せるほか、ASUS AIアプリケーションも用意される。 今回ASUSより試用機を借用したので実機レビューをお届けする。ただし、記事執筆時点において最新のアップデート

                                                ついにベンチマーク解禁の「Snapdragon X」搭載「Copilot+ PC」=「ASUS Vivobook S 15」実機レビュー
                                              • Apple「M3」チップのベンチマーク結果が続々投稿されM2チップとの性能比が最大20%に上ることが明らかに

                                                ベンチマークソフト・Geekbenchの測定結果は集計サイト・Geekbench Browserに投稿され誰でも閲覧が可能です。Appleが2023年10月31日に発表した「M3」チップを搭載したMacのベンチマーク結果も続々と登場しており、その結果から、前世代のM2チップとの性能差がAppleの主張する「最大で15%高速」どころか「最大で20%高速」であることが明らかになっています。 First Benchmark Results Surface for M3 Chip in New Macs - MacRumors https://www.macrumors.com/2023/11/01/m3-chip-benchmark-results/ Apple Has Done Very Well Again. SoC M3 Is 20% Ahead Of M2 In The First Te

                                                  Apple「M3」チップのベンチマーク結果が続々投稿されM2チップとの性能比が最大20%に上ることが明らかに
                                                • Firefoxのベンチマークスコアは1年弱で50%向上し実際に1年で15%高速化している

                                                  ChromeやEdgeに押され気味のウェブブラウザ「Firefox」を開発するMozillaが、1年足らずでFirefoxのベンチマークスコアが50%向上したことを明らかにしました。 Quick as a Fox: Firefox keeps getting faster https://blog.mozilla.org/en/products/quick-as-a-fox-firefox-keeps-getting-faster/ Down and to the Right: Firefox Got Faster for Real Users in 2023 - Mozilla Hacks - the Web developer blog https://hacks.mozilla.org/2023/10/down-and-to-the-right-firefox-got-faster-

                                                    Firefoxのベンチマークスコアは1年弱で50%向上し実際に1年で15%高速化している
                                                  • 【買い物山脈】 冷却もバッテリも強化って本当?「REON POCKET 5」をガチでベンチマークしてみた

                                                      【買い物山脈】 冷却もバッテリも強化って本当?「REON POCKET 5」をガチでベンチマークしてみた
                                                    • 「Speedometer 3.0」が発表 ~Webブラウザーの性能を測定するベンチマークの最新版/「WebKit」「Blink」「Gecko」の開発者が共同開発、近年のWebアプリのトレンドを反映

                                                        「Speedometer 3.0」が発表 ~Webブラウザーの性能を測定するベンチマークの最新版/「WebKit」「Blink」「Gecko」の開発者が共同開発、近年のWebアプリのトレンドを反映
                                                      • CPU・2D・3D・メモリ・ディスクの5項目で徹底的にベンチマークするWindows版「PassMark PerformanceTest」Ver.11レビュー

                                                        「CPU」「2Dグラフィックス」「3Fグラフィックス」「メモリ」「ディスク速度」の5項目について、それぞれ複数のベンチマークを行って詳細な数値化を行ってくれるベンチマークソフトが「PassMark PerformanceTest」です。 かつて「Performance Test 7」および「Performance Test バージョン10.0」をレビューしたことがありますが、記事作成時点の最新バージョンは11.0とのことなので、改めてベンチマークを行ってみました。 PassMark PerformanceTest - PC benchmark software https://www.passmark.com/products/performancetest/index.php ◆ダウンロード&インストール まずは公式サイトのダウンロードページに移動して、自分の環境に応じたファイルをダウン

                                                          CPU・2D・3D・メモリ・ディスクの5項目で徹底的にベンチマークするWindows版「PassMark PerformanceTest」Ver.11レビュー
                                                        • Snapdragon X Eliteのベンチマーク結果がネット上に登場、IntelとAMDの主力CPUに勝利

                                                          Qualcommが2024年中の発売を予定しているPC向けSoC「Snapdragon X Elite」のベンチマーク結果が、ベンチマークアプリ「Geekbench」のスコア集積サイトに登録されました。掲載されたベンチマーク結果からは、Snapdragon X EliteがIntelやAMDの主力CPUに匹敵する性能を備えていることが明らかになっています。 LENOVO 4810UV0100 - Geekbench https://browser.geekbench.com/v6/cpu/5553440 Snapdragon X Elite LENOVO 4810UV0100 Geekbench Scores leak.. Single Score -2427 Multi Score -14254@91mobiles @BennettBuhner @9to5Google @Lexcyn p

                                                            Snapdragon X Eliteのベンチマーク結果がネット上に登場、IntelとAMDの主力CPUに勝利
                                                          • Google Pixel 8&Pixel 8 Proをベンチマーク測定、Pixel 7シリーズから隔世の進化を遂げたCPU・GPU・AI処理性能を徹底比較

                                                            Googleが2023年10月12日(木)に発売したスマートフォン「Google Pixel 8」と「Google Pixel 8 Pro」が前モデルから進化した最大のポイントは、Pixel 7シリーズのTensor G2から演算能力が桁違いに向上し、AI機能に一層の磨きをかけたTensor G3へのアップグレードです。GIGAZINE編集部では、そんなPixel 8とPixel 8 Proを発売日当日に購入しているので、そのパワーを確かめるべくPixel 7やPixel 7 Proと一緒にベンチマークテストを実施して性能を比較してみました。 Google Pixel 8: Google AI で毎日をもっと便利に - Google ストア https://store.google.com/jp/product/pixel_8 Google Pixel 8 Pro: Google AI と

                                                              Google Pixel 8&Pixel 8 Proをベンチマーク測定、Pixel 7シリーズから隔世の進化を遂げたCPU・GPU・AI処理性能を徹底比較
                                                            • LLM のベンチマーク まとめ|npaka

                                                              「LLM」の ベンチマーク をまとめました。 1. 人間を評価者としたベンチマーク最も信頼できるベンチマーク。コストがかかるのが欠点。 ・ELYZA Tasks 100 (ELYZA)【日本語AI】 ・日本語チャットボットアリーナ (yutohub) 【日本語AI】 ・Chatbot Arena (LMSys) 2. GPT-4を評価者としたベンチマーク冗長な回答を高く評価しやすいことや、GPT-4に似た回答を高く評価しやすいのが欠点。 ・Nejumi LLMリーダーボード Neo [MT-Bench] (wandb) 【日本語AI】 ・The Rakuda Ranking of Japanese AI (YuzuAI)【日本語AI】 ・MT-Bench (LMSys) ・Alpaca-Eval (Tatsu Lab) 3. 一問一答によるベンチマークテキスト生成 (文章生成、コード生成、

                                                                LLM のベンチマーク まとめ|npaka
                                                              • Abacus AIがリリースしたオープンソースLLM「Smaug-72B」がHugging FaceのOpen LLM LeaderboardでトップとなりいくつかのベンチマークでGPT-3.5を上回ったことが明らかに

                                                                アリババのオープンソース言語モデル「Qwen-72B」を微調整して作られた「Smaug-72B」が2024年2月6日に登場し、同時にSmaug-72Bが「世界最高のオープンソース言語モデル」の座を獲得したことが明らかになりました。 abacusai/Smaug-72B-v0.1 · Hugging Face https://huggingface.co/abacusai/Smaug-72B-v0.1 Smaug-72B - The Best Open Source Model In The World - Top of Hugging LLM LeaderBoard!! Smaug72B from Abacus AI is available now on Hugging Face, is on top of the LLM leaderboard, and is the first mo

                                                                  Abacus AIがリリースしたオープンソースLLM「Smaug-72B」がHugging FaceのOpen LLM LeaderboardでトップとなりいくつかのベンチマークでGPT-3.5を上回ったことが明らかに
                                                                • Dart製のベンチマークHakariを開発!forEachやmap遅すぎィ!なことを即時測定デキルヨ!

                                                                  まとめ JavaScript系のベンチマーク、mitataのようなリッチなベンチマークをDartでも取りたい シンプルな記法で、リッチな結果を得られるpackage、Hakariを開発したよ! x倍や棒グラフで測定結果をリッチに確認できるHakariはGood! JavaScript系のベンチマーク、mitataに痺れる、憧れるゥ! HonoというNode, Deno, Bunなどで動くJavaScriptフレームワークを開発している @yusukebeさんがよく mitata というベンチマークソフトを使っているのを見かけます。 mitata は簡単なテストを書くようにシンプルに記載できて、かつ結果が美しく、わかりやすく表示されるのが特徴です。クロスランタイムなベンチマークをとれるのがmitataの大きな特徴ですが、単純な書きやすさと、結果の見やすさは目を見張るものがあります。 Dart

                                                                    Dart製のベンチマークHakariを開発!forEachやmap遅すぎィ!なことを即時測定デキルヨ!
                                                                  • GPUテスト搭載の「Cinebench 2024」が無償公開 ~Windows/Mac対応の定番ベンチマーク/Arm64にも対応、ユーザーインターフェイスも一新

                                                                      GPUテスト搭載の「Cinebench 2024」が無償公開 ~Windows/Mac対応の定番ベンチマーク/Arm64にも対応、ユーザーインターフェイスも一新
                                                                    • 無償LLM 日本語能力ベンチマークまとめ(23/11/15)|shi3z

                                                                      日々新しいオープンソースのLLMまたはllama2のような無償使用可能なLLMが出てくるので定期的にベンチマークをとって性能評価をまとめておきます。新しい日本語対応LLMが出るたびに更新していきます。 23/11/15Japanese-MT-BenchRWKV-V5-World-1.5Bを追加。他の3Bモデルと遜色ない性能 RWKV-V5-World-v2-3Bを追加 もちろん1.5Bよりは高性能だが倍の性能というわけではなさそう23/11/9Japanese-MT-BenchGPT-4-Turbo-1106のベンチマークを追加。コーディング能力が大幅に向上 23/11/7Japanese-MT-BenchGPT-3.5-Turbo-1106がリリースされたので追加 23/11/5Japanese-MT-BenchOpenCALM2-7B-Chatがfloat16で計測していたので、bfl

                                                                        無償LLM 日本語能力ベンチマークまとめ(23/11/15)|shi3z
                                                                      • 「黄金のレガシー」ベンチマークソフトについて | FINAL FANTASY XIV, The Lodestone

                                                                        皆さんこんにちは、ファイナルファンタジーXIVプロデューサー兼ディレクターの吉田です。 先日リリースさせていただいた、FFXIV7.0ベンチマークソフトについて多数のフィードバックありがとうございます。 全リージョンのフィードバックを細かく調査させていただいておりますが、好意的なフィードバックやご反応をいただくと同時に、不安になられていらっしゃる方もおり、それらの要因について現状をご報告いたします。 ① ベンチマークソフトに付属しているキャラクターメイキングシステムの環境についてこちらのキャラクターメイキングシステムは、10年前の『新生エオルゼア』リリースに合わせて環境を設定したものでした。当時PlayStation 3版を含めたクオリティを想定し、できるだけ当時のテクスチャ解像度やシェーダーを活かすために、実際のゲームと同じ処理ではありますが、天候等は複数を組み合わせて作成した独自のもの

                                                                          「黄金のレガシー」ベンチマークソフトについて | FINAL FANTASY XIV, The Lodestone
                                                                        • 20年ぶりの新作「CrystalMark Retro」が公開、CPU・GPU・ディスク性能を測る総合ベンチマーク/応援キャラクター「水晶碧」のテーマが同梱された「Aoi Edition」も

                                                                            20年ぶりの新作「CrystalMark Retro」が公開、CPU・GPU・ディスク性能を測る総合ベンチマーク/応援キャラクター「水晶碧」のテーマが同梱された「Aoi Edition」も
                                                                          • 新たに「Llama 2 70B」と「Stable Diffusion XL」が追加されたAIベンチマークテスト「MLPerf Inference v4.0」の結果が発表される

                                                                            ニューラルネットワークのパフォーマンス評価を実施する業界コンソーシアムのMLCommonsは、さまざまなシナリオでハードウェアのAI処理性能を測定できるベンチマークテスト「MLPerf Inference」を設計しています。最新の「MLPerf Inference v4.0」では、パフォーマンス指標として新たにMetaの大規模言語モデル「Llama 2 70B」と画像生成AIの「Stable Diffusion XL」が追加されました。 New MLPerf Inference Benchmark Results Highlight The Rapid Growth of Generative AI Models - MLCommons https://mlcommons.org/2024/03/mlperf-inference-v4/ Nvidia Tops Llama 2, Stabl

                                                                              新たに「Llama 2 70B」と「Stable Diffusion XL」が追加されたAIベンチマークテスト「MLPerf Inference v4.0」の結果が発表される
                                                                            • 60以上の大規模言語モデルに19種類の質問を行うベンチマークテストの結果公開

                                                                              ChatGPTなどのチャットAIでも利用されている大規模言語モデル(LLM)を60種類以上集め、それぞれの創造性を試すような20種類の質問を行い、反応を比較するというベンチマークテストをAIツールの分析・テストサービスを提供するLLMonitorが実施しています。 LLM Benchmarks https://benchmarks.llmonitor.com/ LLMonitorがテストを実施したLLMは、記事作成時点では69種類。ベンチマークテストを受けたLLMのリストは以下の通り。 ・Airoboros L2 70B ・Alpaca(7B) ・Chronos Hermes(13B) ・Claude Instant v1 ・Claude v1 ・Claude v1.2 ・Claude v2 ・Code Llama(13B) ・Code Llama(34B) ・Code Llama(7B)

                                                                                60以上の大規模言語モデルに19種類の質問を行うベンチマークテストの結果公開
                                                                              • Appleが複数のAIベンチマークで最先端のパフォーマンスを実現できるマルチモーダルAIの構築手法を発表、AIとApple製品にとって大きな進歩となる可能性

                                                                                Appleの研究者チームが、パフォーマンスの高いマルチモーダル大規模言語モデル(MLLM)を構築する手法「MM1」を発表しました。 [2403.09611] MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training https://arxiv.org/abs/2403.09611 Apple researchers achieve breakthroughs in multimodal AI as company ramps up investments | VentureBeat https://venturebeat.com/ai/apple-researchers-achieve-breakthroughs-in-multimodal-ai-as-company-ramps-up-investments/ A

                                                                                  Appleが複数のAIベンチマークで最先端のパフォーマンスを実現できるマルチモーダルAIの構築手法を発表、AIとApple製品にとって大きな進歩となる可能性
                                                                                • パルワールドの推奨スペックを徹底検証する【26枚のグラボでベンチマーク】 | ちもろぐ

                                                                                  某ポケモンそっくりのデザインで物議を醸すものの、極めて面白いゲーム性で爆売れ中のインディーゲーム「パルワールド(PalWorld)」を、快適に動かせる推奨スペックを実際に検証しました。 どれくらいのグラフィックボードがあれば、PC版の上限fps(120 fps)で動くのか?・・・徹底的に検証です。 (公開:2024/1/23 | 更新:2024/1/31) やかもちパルワールドの実機検証では26枚のグラフィックボードと14個のCPUを使いました。 この記事の目次 Toggle パルワールドの必要動作スペック パルワールド(PalWorld)の公式推奨スペックは以下の通りです(https://store.steampowered.com/app/1623730/Palworld/より引用)。 CPU:Core i9 9900K(8コア)以上 メモリ:32 GB以上 グラボ:GeForce R

                                                                                    パルワールドの推奨スペックを徹底検証する【26枚のグラボでベンチマーク】 | ちもろぐ