並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 495件

新着順 人気順

*ベンチマークの検索結果1 - 40 件 / 495件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

*ベンチマークに関するエントリは495件あります。 CPUperformanceコンピュータ などが関連タグです。 人気エントリには 『macOSのM1とx86-64におけるベンチマーク比較の考察』などがあります。
  • macOSのM1とx86-64におけるベンチマーク比較の考察

    世間ではAppleの新しい製品に使われるARM64 CPUであるM1の話題でもちきりだ。ただし、日本語を話す記者というのは極めて非科学的かつ無能であり、M1の現物を手にしても、末端のソフトウェアを動かして、体感で早いだの遅いだのと語るだけだ。そういう感想は居酒屋で酒を片手に漏らすべきであって、報道と呼ぶべきシロモノではない。 と思っていたら、Phoronixがやってくれた。M1とi7で動くmacOSでベンチマークをしている。 これを考察すると、M1のMac Miniは、一世代前のi7のMac Miniに比べて、メモリ性能とI/O性能が高く、演算性能は低いようだ。このことを考えると、M1の性能特性としては、動画のエンコードやソフトウェアレイトレーシングをするには不向きだが、その他の作業は遜色ないだろう。 問題は、仮想化とRosettaを組み合わせることができないという点だ。x86-64のユー

    • 連番IDを使うと会社が潰れる。(訳: 連番とUUIDのベンチマークを取ってみた❤️)

      大いなる流れには逆らえない あるAI研究者が言っていた、私の仕事もいつか AI に奪われるという言葉が非常に印象的だった。 私は一時期自分のキャリアに危機感を覚えAIに関する情報を集めていた。そのとき見つけたYoutube動画でこのようなことが語られていたのである。 ではなぜ彼らは研究を続けるのかと思うかもしれないが、個人や一団体がそれを放棄したところで世の中のイノベーションの流れを止めることは不可能だろう。 平和を望む国々も兵器開発をやめられないのと似たようなものだ。 私がこの記事のタイトルを思いついたとき、つい溜息が出た。あまり楽しくない思い出があるからだ。 ただ、思いついてしまった以上これを世に出さないわけにもいかず、血の涙を流しながらこの記事を書いている。 私というちっぽけな存在では、この大宇宙の大いなる流れには逆らえないのだ。 申し遅れました。私、YadaYadaKonnanYa

        連番IDを使うと会社が潰れる。(訳: 連番とUUIDのベンチマークを取ってみた❤️)
      • QUICの実装はTCP並みの効率を実現できるか? Fastly奥氏らがベンチマークを紹介

        現在標準化が進められている次世代HTTPの「HTTP/3」は、トランスポートプロトコルとして「QUIC」と呼ばれる新しいプロトコルを採用します。 現時点のHTTPはトランスポートプロトコルとして「TCP」が採用されています。その上で、可能な限り高速な通信が行えるようにさまざまな工夫や最適化が進められてきました。そしてもうこれ以上高速にしようとすると、TCPそのものを改善していくべきだろう、というところまできたのです。 それがHTTP/3で「QUIC」が採用される大きな理由といわれています。 TCPは内部で輻輳制御や再送などを自動的に行うことで通信が確実に行われることを保証してくれる便利なプロトコルですが、それゆえに、確実に通信が行われるまで待つ必要があるために通信環境によっては遅くなりがち、などの側面があります。 そこでQUICは、TCPのような通信の保証がない代わりにリアルタイム性の高い

          QUICの実装はTCP並みの効率を実現できるか? Fastly奥氏らがベンチマークを紹介
        • ネットワーク パフォーマンスの解読: TCP と UDP のバルクフローのベンチマーク | Google Cloud 公式ブログ

          Gemini 1.5 モデル をお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。 試す ※この投稿は米国時間 2024 年 6 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud ネットワーキング チームは長年にわたり、お客様のネットワークの構築、修正、強化の支援に深く携わってきました。その間に、ネットワークのパフォーマンスと効率を最大限に高める重要なパターンやベスト プラクティスを発見しました。この豊富な知見は、ただの理論的なリソースではありません。Google Cloud、クロスクラウド、オンプレミス、その他のクラウド プロバイダなどデプロイ先を問わず、お客様のビジネス目標達成を支援するよう設計された実用的なツールキットです。Google はこの専門知識を共有する

            ネットワーク パフォーマンスの解読: TCP と UDP のバルクフローのベンチマーク | Google Cloud 公式ブログ
          • Webpackの70倍!Go言語で書かれたJavascriptバンドラー「esbuild」をベンチマークテストしてみた

            Webpackの70倍!Go言語で書かれたJavascriptバンドラー「esbuild」をベンチマークテストしてみた esbuild https://github.com/evanw/esbuild/ esbuildの特徴 複数モジュールの依存関係を解決し、1つにまとめるバンドラーは、現代のフロントエンド開発においてなくてはならないツールの1つ。 The State of JavaScript 上位5つに人気が集中し、なかでもWebpackのシェアは実に約60%に達しています。 今回ご紹介する「esbuild」は、Go言語で書かれた高速なバンドラーで、これらメジャーなツールとの性能比較(ベンチマークテスト)をやってみました。 公式のベンチマーク結果 計測方法は、three.jsライブラリを10回複製し、キャッシュなしで単一のバンドルをゼロから構築しています。なんと、Webpackに比べて

              Webpackの70倍!Go言語で書かれたJavascriptバンドラー「esbuild」をベンチマークテストしてみた
            • node.js のメトリクスの計測、ベンチマークの改善、Docker イメージの絞り方を勉強した

              フロントエンドのパフォーマンス計測は得意なのだが、サーバーサイド node.js のメトリクスの取り方はあまり知らなくて、いつも勘でやりがちだった。最近は業務でこの周辺で困ることが増えたので、勉強しなおした。 また、最近使ってみたかった cloudflare workers の制限で、メモリ 128MB、CPU 時間 50ms という制約があり、このためにも Node.js の CPU のメトリクスを計測できるようになっておく必要があった。 という目的を踏まえて、今回は OS やデータベースの最適化は扱わず、ネットワークとアプリケーション層だけに絞って学習した。あと仕事の Docker イメージのサイズにも悩んでたので、ここも。 (あと ISUCON 参加者が楽しそうだったのもある。 ISUCON のチューニング対象にフロントエンドは含まれないので…) 計測対象 今回実験したリポジトリはこ

                node.js のメトリクスの計測、ベンチマークの改善、Docker イメージの絞り方を勉強した
              • M1搭載MacBook Airが届いたのでJavaやDockerなどいろいろベンチマークした - きしだのHatena

                M1 MacBook Airが届いていろいろやってたら年も明けてだいぶたったけども、ビルド速度とかJavaとかDockerとかTensorFlowとか、技術者が気になるベンチマークを試してたので、まとめました。 MacBook Airを買ってしまった なんかM1 Mac解説動画をとるためにいろいろ調べていたら、悪質サイトのリンクを踏んだみたいで、MacBook Airを買ってしまっていた。 その悪質サイトは最初は7万円台ですよーっていっておいて、結局12万円くらいになっていた。 みんなもapple.comってサイトには注意しましょうね。 www.youtube.com とどいた! 12/12到着予定といいつつ11日になっても羽田から動いてなかったので大丈夫かーと思ったら11日深夜というか12日未明というかそのあたりには福岡に届いてて、朝発想されて夜にとどいた。 でこれだ! ベンチマーク G

                  M1搭載MacBook Airが届いたのでJavaやDockerなどいろいろベンチマークした - きしだのHatena
                • 【簡易レビュー】M4 Mac mini 最安モデルのベンチマークテスト結果をWindowsPCと比較

                  11/8に発売されたMac miniのベンチマークテストを行ないましたので、その結果を簡単に紹介します。スコアはWindows搭載のミニPCと比較しているので、気になる人はぜひ参考にしてください。Apple製品との比較は行なっていません。

                    【簡易レビュー】M4 Mac mini 最安モデルのベンチマークテスト結果をWindowsPCと比較
                  • Reactに有利なベンチマークを作ってみた - Qiita

                    皆さんこんにちは。現在、フロントエンドでは宣言的UIが大流行しており、そのためのライブラリもReactを筆頭に複数存在しています。 ライブラリが複数存在するところには当然のように比較や論争が起こるものですが、UIライブラリの場合はパフォーマンスがよく焦点となります。 筆者はReactの信者ですが、Reactは古株ということもあってか、最近の議論ではReactは他のライブラリと比較されるかませ犬のような役割を担うのがよく見られます。「仮想DOMは必要ない」といった類のものです。 しかし、筆者の考えではReactは今でも、もっとも真剣にパフォーマンスに取り組んでいるUIライブラリです。特に、Reactはパフォーマンスを高いユーザーエクスペリエンスのための手段として捉えており、ドキュメントにもユーザーエクスペリエンスという言葉が多く出てきます。 そこで、今回はReactが最も有利になるようなベン

                      Reactに有利なベンチマークを作ってみた - Qiita
                    • Core i5 13600Kベンチマーク&レビュー:発売3週間の7600Xを一瞬で型落ちに【14コア】 | ちもろぐ

                      「Core i5 13600K」は、第13世代Raptor Lakeのミドルクラスに位置づけられるCPUです。 従来比で価格が20ドル(299 → 319ドル)値上がりしましたが、コア数が10から14へ1.4倍増となり、値上がり以上のスペックアップを提供します。 国内価格が約5.8万円で、ライバルに相当するRyzen 5 7600Xより約8000円ほど高いですが、Core i5 13600Kでは低コストなIntel 600マザーボードやDDR4メモリを使用できます。 プラットフォームを含めた総額比較において、Core i5 13600Kの方が安く済む可能性が高いです。 実際、筆者も今回のレビューで新たに用意した機材はありません。既存のIntel 600マザーボードとDDR4メモリをそのまま流用でき、大変お財布に優しい仕様で助かりました。 前世代をほぼ流用した「Raptor Lake」設計R

                        Core i5 13600Kベンチマーク&レビュー:発売3週間の7600Xを一瞬で型落ちに【14コア】 | ちもろぐ
                      • M1のMacBook Air、みんなベンチマークにドン引きしてるけど、実はストレージも2倍速い

                        M1のMacBook Air、みんなベンチマークにドン引きしてるけど、実はストレージも2倍速い2020.11.17 18:3050,372 小暮ひさのり Airでこの速度か…。 本日からApple Silicon「M1」搭載のMacBook Airなどが着弾し始めているようですね。ギーク界隈のニュースやSNSを覗くと、意気揚々とベンチマークに挑み、MacBook Pro 16インチやiMacなどの最新のIntel Macを、10万円そこそこのM1 MacBook Airがぶち抜いていく姿に、ドン引きしているのを見て微笑ましく思っています。 して、そのM1搭載のMacBook Air。どうしてもGeekBenchのスコアに注目が集まってしまいますが、実はSSDもパワーアップしているようです。 MacRumorsによると、MacBook Air(256GBモデル)のストレージアクセス速度は、書

                          M1のMacBook Air、みんなベンチマークにドン引きしてるけど、実はストレージも2倍速い
                        • 【Hothotレビュー】 こんなに速くなっちゃっていいんですか?待望のRyzen 7000をベンチマークテスト

                            【Hothotレビュー】 こんなに速くなっちゃっていいんですか?待望のRyzen 7000をベンチマークテスト
                          • 中国製x86 CPU Powerstar (暴芯)、中身はComet Lakeで確定。ベンチマーク結果から明らかに | ニッチなPCゲーマーの環境構築Z

                            中国製x86 CPU『Powerstar (暴芯)』が、IntelのComet Lakeであることが確定しました。 2023年5月上旬、中国のPowerleader社(宝德)から、x86アーキテクチャに基づくCPU『Powerstar (暴芯)』が発表されました。同社の発表では、「Powerstar (暴芯) CPUの発表は、国家の強化に貢献する第一歩です」「Powerstar (暴芯)は普段使いのデスクトップユーザー向けに作られており、ゲームや創作など、あらゆる面で驚異的な性能を提供します」などと述べられており、いかにも凄そうな紹介がされていました。 Powerstar (暴芯)を披露する何丽氏 しかし、発表されたCPUの形状は、どこからどう見てIntelのCPUでした。 Intel第10世代Core 10000シリーズComet Lakeと、Powerstar (暴芯)の比較がこちら。

                              中国製x86 CPU Powerstar (暴芯)、中身はComet Lakeで確定。ベンチマーク結果から明らかに | ニッチなPCゲーマーの環境構築Z
                            • LINE LIVEを支える負荷テストの知見。ベンチマーク環境により信頼性の高いシステムを実現する方法

                              LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog サービス・機能やそれにまつわる開発の裏話や取り組みを聞く「ProductStory」シリーズ。2015年にスタートしたライブ配信サービスのLINE LIVE。いつでもどこでも、無料でライブ配信&視聴が可能という便利さから、サービス開始以来多くのユーザーにご利用いただいてきました。昨今ではコロナ禍の影響からオンライン上で楽しめるエンタメの重要性が高まっており、LINE LIVEのニーズはさらに増しています。 サービスの信頼性を高めるため、LINE LIVE開発チームは、サービスに対する負荷テストを実施するために構築されたベンチマーク環境を用いています。定期的な負荷テストを行うことでパフォーマンス上の課題を洗い出し、システムのさら

                                LINE LIVEを支える負荷テストの知見。ベンチマーク環境により信頼性の高いシステムを実現する方法
                              • CPU シミュレータを用いて継続的ベンチマークを安定化させる - mizdra's blog

                                id:mizdra は eslint-interactive というツールをメンテナンスしています。このツールを使うと、多数の ESLint エラーを効率的に修正できます (詳しくは以前書いた記事を見てください)。 www.mizdra.net eslint-interactive では「中規模〜大規模なコードベースであってもキビキビ動く」を大事にしてます。その一環として、eslint-interactive には CI (GitHub Actions) でベンチマークを取り、以前から大きく劣化していたら CI を fail させる仕組みがあります。 https://github.com/mizdra/eslint-interactive/actions/workflows/benchmark.yml?query=is%3Afailure しかし CI で実行するためにノイズが大きく、よく

                                  CPU シミュレータを用いて継続的ベンチマークを安定化させる - mizdra's blog
                                • PostgreSQLエンジンでのAuroraとRDSのベンチマーク - so what

                                  PostgreSQLエンジンでAuroraとRDSでpgbenchを使った負荷テストを行った。 テスト環境 クライアント pgbench (PostgreSQL) 14.2 (Ubuntu 14.2-1ubuntu1) EC2のc5.2xlargeインスタンスから実行 クライアントインスタンスの性能上限には引っかかっていないことは確認 以下のようなスクリプトを実行 スケールファクター: 100 トランザクションタイプ: デフォルト(TPC-B like) #!/bin/bash . .rds for i in 8 16 32 48 64; do echo "--- $(date +%FT%TZ) RDS $i" pgbench -i -s 100 -q pgbench -c $i -T 210 sleep 60 done echo "--- $(date +%FT%TZ) RDS end"

                                    PostgreSQLエンジンでのAuroraとRDSのベンチマーク - so what
                                  • OpenAIのCEOが「o2が博士号レベルのベンチマークで105%のスコアを達成」とSNSに投稿、次期AIモデルはGPT-4oでも53.6%しか記録できなかった高難度テストで約2倍のスコアを達成か

                                    OpenAIのサム・アルトマンCEOが自身のXアカウントに「o2がGPQAで105%のスコアを達成したと聞いた」と2024年11月3日(日)に投稿しました。「o2」の正式名称は不明ですが、OpenAIが開発中の次世代AIモデルが驚異的な性能を備えている可能性が濃厚となっています。 i heard o2 gets 105% on GPQA— Sam Altman (@sama) November 2, 2024 GPQAはAIの性能を測定するベンチマークの1種で、生物学・物理学・化学の専門家が作成した448問の選択問題で構成されています。GPQAの問題はかなりの高難度で、「専門家でない人間」がGoogle検索を駆使して挑んだ場合は34%、「博士号保持者または博士号の取得を目指す学生」の場合も65%のスコアしか獲得できません。 GPQAはすでに各種高性能AIのベンチマークとして利用されており、

                                      OpenAIのCEOが「o2が博士号レベルのベンチマークで105%のスコアを達成」とSNSに投稿、次期AIモデルはGPT-4oでも53.6%しか記録できなかった高難度テストで約2倍のスコアを達成か
                                    • 科学論文の調査に特化したAIモデル「OpenScholar」がベンチマークでGPT-4oを上回る、科学研究の大幅な効率化に期待

                                      近年は生命分子の構造と相互作用を予測するAIモデル「AlphaFold 3」がリリースされたり、「ChatGPTのおかげで論文を読む手間が99%減った」と研究者が報告したりするなど、科学研究におけるAIの活用はますます重要なものになっています。新たに、ワシントン大学とアレン人工知能研究所の研究チームが、科学文献の調査に特化したAIモデル「OpenScholar」をリリースしました。 Ai2 OpenScholar https://openscholar.allen.ai/ Ai2 OpenScholar: Scientific literature synthesis with retrieval-augmented language models | Ai2 https://allenai.org/blog/openscholar OpenScholar: The open-source

                                        科学論文の調査に特化したAIモデル「OpenScholar」がベンチマークでGPT-4oを上回る、科学研究の大幅な効率化に期待
                                      • GoがApple Siliconにネイティブ対応したのでベンチマークをとってみました | フューチャー技術ブログ

                                        Goアドベントカレンダーその5です。 ARMなMacが出るとWWDCで発表されてから首を長くしてまっていて、発表と同時にMacBook Proを買って、アプリケーションのARMネイティブ対応がされているかいろいろインストールして試してみたりしています。まだ発売されて2週間足らずですが(といっても、みんな開発キットをつかって以前から準備したようですが)、動作しているアプリケーションは多いです。発売後にも、Erlang、Node.jsあたりはmasterブランチにパッチが入りました。Goも、昨日パッチがマージされました。 業務利用が多い言語のうちの1つということで、手元のPCで軽くベンチマークをとってみました。使った機種は3つです。 2020モデルのM1のMacBook Pro 2020モデルの10th Gen Core i5のMacBook Air Ryzen 9 4900HSのASUSのZ

                                          GoがApple Siliconにネイティブ対応したのでベンチマークをとってみました | フューチャー技術ブログ
                                        • Samsungがテレビに「ベンチマーク測定値を不正に高性能にする機能」を仕込んでいたことが判明

                                          これまでスマートフォンでのベンチマークでたびたび不正を働いてきたSamsungが、複数のテレビで「レビューアーが行うベンチマークを検出して実際よりも高性能に見せる」ことを意図した明らかな不正操作を行っていたことが、テレビやモニターのレビューをしているYouTuberや検証サイトにより突き止められました。 Samsung QN95B 'Neo QLED' review - FlatpanelsHD https://www.flatpanelshd.com/review.php?id=1654162781 Samsung Busted For Cheating TV Test Benchmarks | Techdirt https://www.techdirt.com/2022/06/17/samsung-busted-for-cheating-tv-test-benchmarks/ この問題

                                            Samsungがテレビに「ベンチマーク測定値を不正に高性能にする機能」を仕込んでいたことが判明
                                          • 「どのDNSサーバーが最速か」を一発でベンチマークできる「DNS Benchmark」レビュー

                                            ドメイン名をIPアドレスに変換するDNSサーバーの応答速度は、快適にウェブサイトを閲覧するための重要な要素です。そんなDNSサーバーの応答速度をまとめてベンチマークできるのが、Gibson Research Corporationの「DNS Benchmark」です。 GRC's | DNS Nameserver Performance Benchmark https://www.grc.com/dns/benchmark.htm まずはトップページにアクセスして「Download now」をクリック。 Firefoxを利用している場合はポップアップが表示されるので「ファイルを保存」をクリック。 ダウンロードした「DNSBench.exe」をダブルクリックし、プログラムを起動します。 プログラムが起動したら「Nameservers」タブへ移動。 これがDNSサーバーのベンチマーク画面です。

                                              「どのDNSサーバーが最速か」を一発でベンチマークできる「DNS Benchmark」レビュー
                                            • CPUベンチマークの採取方法 | 外道父の匠

                                              CPUの性能を調べる方法を紹介、というかメモです。 次の記事が長くなりすぎないように分割したやつ。 CPU Benchmark Charts 最も手軽にCPU性能を調べられるのが、このサイトです。 PassMark Software – CPU Benchmark Charts 私の場合は、サイドバーの『Single Thread』を眺めたり、ヘッダの検索から型番のページに行って、Single Thread の値を確認したりします。 マルチコアでの総合力も大事なんですが、個人的には Single での性能がレスポンスタイムなどに直結するので、重要視しています。 CPU情報 /proc/cpuinfo Linux なら、これで大体の情報を確認できます。 $ cat /proc/cpuinfo processor : 0 vendor_id : GenuineIntel cpu family

                                                CPUベンチマークの採取方法 | 外道父の匠
                                              • 全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す

                                                大規模言語モデル(LLM)が自分の間違いを修正できるように開発されたトレーニング手法の「リフレクションチューニング」を用いてトレーニングされたオープンソースのLLM「Reflection 70B」が発表されました。 HyperWrite debuts Reflection 70B, most powerful open source LLM | VentureBeat https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/ New Open Source AI Model Can Check Itself and Avoid Hallucinations | Inc.com https://www.inc.com/k

                                                  全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す
                                                • この10年のIntel CPU進化の歴史をベンチマークとともに振り返る ~コアの増加や内蔵GPUの強化、ストレージ/ネットワークの高速化が加速[Sponsored]

                                                    この10年のIntel CPU進化の歴史をベンチマークとともに振り返る ~コアの増加や内蔵GPUの強化、ストレージ/ネットワークの高速化が加速[Sponsored]
                                                  • 新型Mac mini、ベンチマークで価格差8倍のMac Proを抜いてしまう

                                                    新型Mac mini、ベンチマークで価格差8倍のMac Proを抜いてしまう2023.02.02 20:0053,379 小暮ひさのり 時代の流れのなんと残酷なことか…。 最初に断っておきますが、特定の状況下でCPUの処理性能だけを計測するベンチマークでの結果です。実際の作業においては、このとおりになるとは限りません。 はい、では御覧ください。2023年のMac mini(8万4800円)と、2019年Mac Pro(66万2800円)のGeekbench比較です。ファイッ! M2 Mac mini $599 vs Mac Pro $5999 Holy shit. pic.twitter.com/5n9StCHJvY — GregsGadgets (@GregoryMcFadden) January 25, 2023Mac miniの方が勝ってんの。 どちらもベースモデルでの比較。念の為、

                                                      新型Mac mini、ベンチマークで価格差8倍のMac Proを抜いてしまう
                                                    • Intel、ベンチマークを否定する。AMDに勝てないからか | ニッチなPCゲーマーの環境構築Z

                                                      COMPUTEX 2020のビデオメッセージにて、Intelの最高経営責任者(CEO)であるボブ・スワン氏はベンチマークを否定する発言をしました。 (コロナ禍である)この瞬間は、業界の焦点を『ベンチマーク』から、弊社が作り出す『テクノロジーのメリットと影響』へと移行する機会だと捉えています。 パンデミックは、企業や消費者のニーズの変化に対応できるように、目的に合わせてテクノロジーを構築する必要性を浮き彫りにしました。そのためには、顧客志向の考え方でニーズを先取りしてソリューションを開発する必要があります。 弊社はこのような考えのもと、世界中の企業や社会にプラスの効果をもたらし、最適化することを目標としています。 どういうことかと申しますと、驚くことにボブ・スワン氏は「ベンチマークでCPUを判断するのはやめよう」と言っているわけです。 PCゲームや動画エンコード、その他各種演算処理において、

                                                        Intel、ベンチマークを否定する。AMDに勝てないからか | ニッチなPCゲーマーの環境構築Z
                                                      • Intelが特定ベンチマークのスコアを最大9%水増しする不正をしていたとして2600件以上のベンチマーク結果が事実上無効に

                                                        性能テストの標準化団体の1つで、公平なベンチマークを行うために設立された非営利組織・SPECが、「Intelが自社プロセッサのベンチマーク結果を水増しするために特定のベンチマークのスコアを向上させるような最適化を行い、スコアを最大で9%水増ししていた」として、Intelプロセッサのベンチマーク結果2600件以上を事実上無効化しました。 Targeted Intel oneAPI DPC++ Compiler Optimization Rules Out 2k+ SPEC CPU Submissions - Phoronix https://www.phoronix.com/news/oneAPI-DPC-Compiler-Cheat-SPEC Impact of Intel Compiler Optimizations on SPEC CPU2017 Example https://www

                                                          Intelが特定ベンチマークのスコアを最大9%水増しする不正をしていたとして2600件以上のベンチマーク結果が事実上無効に
                                                        • 日本語LLMベンチマークと自動プロンプトエンジニアリング - Preferred Networks Research & Development

                                                          大規模言語モデル (LLM) は日進月歩で進化しており、日本語の理解能力についても多くの言語モデルがしのぎを削っています。先日PFNからも、日英2言語を併せた能力で世界トップレベルの性能を示す言語モデルPLaMo-13Bを公開*しました。 一方で、LLMを実際のタスクに適用する場合には、事前学習モデルやファインチューニングによる改善もさることながら、プロンプトの違いが性能を大きく左右します。本稿ではプロンプトを自動的にチューニングすることによって、LLMの能力を最大限に引き出し、与えられた課題の精度をどこまで高められるのかを検証します。 * 本稿で解説するプロンプトチューニング技術は、PLaMo-13B公開時の性能評価には用いていません。 プロンプトエンジニアリングについて LLMを使ったチャットシステムでは、ユーザーからの問い合わせ内容を改変してLLMに入力することがあります。例えば、図

                                                            日本語LLMベンチマークと自動プロンプトエンジニアリング - Preferred Networks Research & Development
                                                          • 専用ベンチではRyzenが高性能でも、ゲーム性能ではCoreが勝つ理由とは ~Intelがベンチマーク説明会を開催

                                                              専用ベンチではRyzenが高性能でも、ゲーム性能ではCoreが勝つ理由とは ~Intelがベンチマーク説明会を開催
                                                            • Raspberry Pi 5 実機レビュー(ベンチマーク編)

                                                                Raspberry Pi 5 実機レビュー(ベンチマーク編)
                                                              • Appleの最強チップ「M1 Ultra」のGPU性能はRTX 3090以下であることがベンチマークテストにより明らかに

                                                                Appleは2022年3月18日(金)に、現行最上位モデルとなる「Mac Studio」を発売しました。このMac Studioに搭載されているM1 UltraチップのGPU性能は、NVIDIAのハイエンドグラフィックカードである「RTX 3090」ほど強力ではないことが明らかになっています。 Apple’s charts set the M1 Ultra up for an RTX 3090 fight it could never win - The Verge https://www.theverge.com/2022/3/17/22982915/apple-m1-ultra-rtx-3090-comparison-specs-charts-cpu-gpu-performance Appleは2022年3月9日に開催した新製品発表イベントの中で、Mac向けの現行最上位チップとなる「M

                                                                  Appleの最強チップ「M1 Ultra」のGPU性能はRTX 3090以下であることがベンチマークテストにより明らかに
                                                                • Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明

                                                                  近年は機械学習分野の研究がめまぐるしい勢いで進んでおり、数十億を超えるパラメーターを持つ大規模言語モデルが相次いで発表されています。イギリス・エディンバラ大学の大規模言語モデル研究者であるヤオ・フー氏らの研究チームが、独自のベンチマークに基づいて複数の大規模言語モデルのパフォーマンスを比較した結果をGitHubで公開しています。 GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning ability with chain-of-thought prompting https://github.com/FranxYao/chain-of-thought-hub 研究チームによると、「パラメーターが10B未満の言語モデルでも、OpenAIのGPT-3.5と同等のパ

                                                                    Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明
                                                                  • 【Hothotレビュー】 すべてが新しい「Core Ultra 200S」をベンチマーク。Ryzenとの勝負の行方は?

                                                                      【Hothotレビュー】 すべてが新しい「Core Ultra 200S」をベンチマーク。Ryzenとの勝負の行方は?
                                                                    • Reactに有利なベンチマークを Vue.js で試したところ大差なく、そして…

                                                                      みなさんこんにちは。 現在、フロントエンドでは宣言的UIが大流行しており、そのためのフレームワークも Vue.js をはじめ複数存在しています。 (React はフレームワークではなくライブラリです) 同種のソフトウェアや言語があれば、自分の好みを巡って意見を出し合うのはエンジニアの常でして。 それがパフォーマンスに関することであれば、無関心ではいられなかったりするわけです。 とはいえ Evan You もいうように特定のフレームワークやライブラリが現実世界のパフォーマンスの問題を銀の弾丸のように解決できるわけではありません。 フレームワークの開発者が数10ミリ秒単位でパフォーマンス改善に勤しむなか、利用する企業が(数100ミリ秒要するような)広告会社のスクリプトを迷いなく追加したりするのですから。 それでも僕たちは、パフォーマンスの話題をせずにはいられません。 だって、それがエンジニアで

                                                                        Reactに有利なベンチマークを Vue.js で試したところ大差なく、そして…
                                                                      • ベンチマークは「リアルな使い方」で取るべき Intelが主張

                                                                        Intelが8月19日、報道関係者向けオンライン説明会「Intel Platform Advantage」を開催した。この説明会を通して同社がアピールしたのは、IntelのCPUが“実際の”利用シーンにおいてより良いパフォーマンスを発揮するということだ。 一体、どういうことなのだろうか。同社のヒラル・ジワラ氏(マーケティング&パフォーマンス担当ディレクター)の解説をまとめた。 PCのパフォーマンスはどうやって計測する? ジワラ氏は始めに「(PCの)パフォーマンスはどのように測るべきか?」と疑問を投げかけた。その上で、コンピュータアーキテクチャの解説書として有名な「Computer Architecture: A Quantitative Approach」(ジョン・L・ヘネシー氏とデビット・A・パターソン氏の共著、参考リンク)の以下の一節を引用した。 (原文)Our position is

                                                                          ベンチマークは「リアルな使い方」で取るべき Intelが主張
                                                                        • 【Hothotレビュー】 IntelミドルレンジGPUのお手並み拝見!発売前のArc 770とA750をベンチマークテスト

                                                                            【Hothotレビュー】 IntelミドルレンジGPUのお手並み拝見!発売前のArc 770とA750をベンチマークテスト
                                                                          • 【Hothotレビュー】 待望の第12世代Coreついに発売! ベンチマークで見るその実力

                                                                              【Hothotレビュー】 待望の第12世代Coreついに発売! ベンチマークで見るその実力
                                                                            • 対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン

                                                                              カリフォルニア大学バークレー校の学生と教員がカリフォルニア大学サンディエゴ校とカーネギーメロン大学と協力して設立したオープンな研究組織「Large Model Systems Org(LMSYS Org)」が、ChatGPTやPaLM、VicunaなどのチャットAIや大規模言語モデル(LLM)のベンチマーク「Chatbot Arena」を公開しています。 Chatbot Arena Leaderboard Updates (Week 4) | LMSYS Org https://lmsys.org/blog/2023-05-25-leaderboard/ Chatbot Arenaでは、LLMベースの対話型AIを評価するためのオープンプラットフォーム「FastChat」にユーザーが招待され、匿名モデル2種類を相手に会話を行い、どちらの方がより精度が高かったかの投票が行われます。この投票結果

                                                                                対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン
                                                                              • AnthropicがClaude 3.5 Sonnetを突如発表、ベンチマーク結果はGPT-4oに匹敵

                                                                                チャットボットAI「Claude」を開発するAnthropicが新モデルとなる「Claude 3.5 Sonnet」を2024年6月21日に発表しました。これは今後リリースされるClaude 3.5ファミリーの最初となるモデルで、ベンチマーク結果はOpenAIのGPT-4oに匹敵するとのことです。 Introducing Claude 3.5 Sonnet \ Anthropic https://www.anthropic.com/news/claude-3-5-sonnet Anthropicによると、Claude 3.5 Sonnetは大学院レベルの推論力、大学学部レベルの知識とコーディング能力を持つとのこと。Claude 3 Opusなど従来のClaudeモデルと比較し、ニュアンスやユーモア、複雑な指示を理解する能力が著しく向上し、自然で親しみやすい口調で高品質のコンテンツを書く能力

                                                                                  AnthropicがClaude 3.5 Sonnetを突如発表、ベンチマーク結果はGPT-4oに匹敵
                                                                                • GPT-4oがAIベンチマークのARC-AGIで50%のスコアに到達、これまでの最高記録である34%を大幅に更新

                                                                                  AI研究者のライアン・グリーンブラット氏が、AIの一般的な推論能力を評価する指標の「ARC-AGI」において、GPT-4oを工夫して使用することで50%という正答率を達成できたと発表しました。 Getting 50% (SoTA) on ARC-AGI with GPT-4o https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt ARC-AGIでは下図のようにいくつかの例と問題が用意されます。例からルールを推測して正しく問題の図に対応する結果を出力できればOK。人間がこのタスクを行うと子どもであっても85%から100%のスコアを出すことができますが、これまでAIが出したARC-AGIの最高スコアは34%であり、数多くのベンチマークの中でも特に人間との差が顕著でした。 上記の問題はシンプルなため特

                                                                                    GPT-4oがAIベンチマークのARC-AGIで50%のスコアに到達、これまでの最高記録である34%を大幅に更新

                                                                                  新着記事