並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 30 件 / 30件

新着順 人気順

性能評価の検索結果1 - 30 件 / 30件

  • (続)ファッションにおける類似商品検索アルゴリズムの性能評価 - DROBEプロダクト開発ブログ

    概要 背景・目的 関連研究 提案手法 実験 アルゴリズムの説明 順位相関の確認 定量評価 定量評価の内訳 定性評価 おわりに 参考文献 DROBEで機械学習エンジニアをしております、藤崎です。 概要 ファッションアイテムを特徴づけるための情報として、画像とテキストがある。これらは異なる情報を含んでいると考えられる。 類似のファッションアイテムを検索する場面で、画像とテキストの情報を両方活用することで、検索の精度を向上させることができると推測される。 類似のファッションアイテムを検索するタスクで、両方の情報を活用した提案手法の性能を評価し、片方の情報だけを活用するよりも、大幅に性能が改善することを確認した。 背景・目的 この記事は以下の記事の続編です。 tech.drobe.co.jp 以前の記事で、私たちはプロのスタイリストが作成した評価データセットを用いて、複数のアルゴリズムを類似商品検

      (続)ファッションにおける類似商品検索アルゴリズムの性能評価 - DROBEプロダクト開発ブログ
    • LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始 ~話者を区別した議事録作成も可能/世界3位の性能評価成績を獲得したAI音声認識モデルを採用

        LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始 ~話者を区別した議事録作成も可能/世界3位の性能評価成績を獲得したAI音声認識モデルを採用
      • ファッションにおける類似商品検索アルゴリズムの性能評価 - DROBEプロダクト開発ブログ

        概要 背景・目的 実験 実験の概要 定量評価 定性評価 おわりに 参考文献 DROBEで機械学習エンジニアをしております、藤崎です。 概要 類似商品検索の基盤となる複数の特徴抽出アルゴリズムについて、DROBEの保有するデータで評価した 定量評価によると、画像単体を入力とする ResNet-50(自己教師あり学習)とCLIPの性能が高かった 定性評価によって、取り扱うモーダルの違いによる各モデル出力の顕著な差異が確認できた 背景・目的 小売において、商品の在庫は無数に存在しています。そのため、消費者やサービス提供者が商品に紐づく情報(画像、商品の説明文など)を解釈して、特定の商品と類似したアイテムを人手で行うのは困難です。 この課題を解決するために、機械学習手法の活用が注目されています。 機械学習を用いた処理の流れは、 商品に紐づく情報を適切に 「要約」 し、 1.で 「要約」 した商品情

          ファッションにおける類似商品検索アルゴリズムの性能評価 - DROBEプロダクト開発ブログ
        • 仕様書とコードの「意味的な整合性」を検証するツール『Semcheck』の利用モデル別性能評価 - Generative Agents Tech Blog

          ジェネラティブエージェンツの西見です。 Claude Codeなどのコーディングエージェントを活用するためには、的確な指示だけでなく、エージェントが生成したコードの誤りを自律的に検知・修正する仕組みが重要となります。誤り検知には自動テストやLinterが有効ですが、本記事では、仕様書とコードの「意味的な整合性」を検証するツール「Semcheck」に着目し、その性能を複数のLLMで比較評価します。 Semcheckとは Semcheckは、LLMを利用して、仕様書(Markdown形式)とソースコード間の意味的な整合性を検証するGo言語製のツールです。構文やスタイルを対象とする従来の静的解析ツールとは異なり、「仕様書で定義された要求事項がコードに正しく実装されているか」という観点から検証を行う点に特徴があります。 OpenAI、Anthropic、Gemini、Ollamaなど複数のLLMプ

            仕様書とコードの「意味的な整合性」を検証するツール『Semcheck』の利用モデル別性能評価 - Generative Agents Tech Blog
          • 世界が認めた「会津レンズ」 福島県磐梯町のシグマ工場製 映画「トップガン」撮影 最高峰の光学性能評価

            世界が認めた「会津レンズ」 福島県磐梯町のシグマ工場製 映画「トップガン」撮影 最高峰の光学性能評価 2022/08/29 09:51 「トップガン マーヴェリック」の撮影に使われるなど高い評価を得ているシネレンズを紹介する山木社長 映画「トップガン マーヴェリック」より((C)2022 PARAMOUNTPICTURES CORPORATION.ALL RIGHTS RESERVED.) 世界中で大ヒットしている映画「トップガン マーヴェリック」の撮影に、レンズメーカー・シグマ(本社・川崎市)の福島県磐梯町にある会津工場で作られたシネレンズ(映画用レンズ)がメインで使われた。戦闘機同士のドッグファイトなど迫力ある映像が魅力の話題作を映像面で支えたのは、長年会津で磨き続けてきた世界最高峰の光学機器技術だった。 「撮影スタッフに、100年近い歴史のある欧米のブランドと比べても当社のレンズが最

              世界が認めた「会津レンズ」 福島県磐梯町のシグマ工場製 映画「トップガン」撮影 最高峰の光学性能評価
            • 1.58-bit版DeepSeek R1の日本語性能評価

              はじめに どんな人向けの記事? ローカル LLM に興味がある方 1.58bit 版 DeepSeek R1 の日本語性能に興味がある方 量子化によってどんな問題のスコアが低下するのか気になる方 背景 私の趣味の一つに、LLM のベンチマーク評価があります。使用しているのは、日本語性能を評価するベンチマークの一つである Shaberi3 ベンチマークです。ここ半年で、100 以上のローカル LLM やプロプライエタリモデルの評価をしてきました。 そして、いつものように新しくリリースされたモデル DeepSeek R1 の評価を実施したところ、とんでもなく高いスコアを叩き出しました。 DeepSeek ショックにより一躍有名になったこのモデルは、実はオープンウェイトで公開されています。しかしながら、パラメータサイズが 671B と非常に大きいため、私の環境(M2 Ultra 128GB)では

                1.58-bit版DeepSeek R1の日本語性能評価
              • gpt-ossモデルのサービングにおけるリクエスト処理性能評価 ― NVIDIA H100・A100・L4の比較 - ペパボ研究所ブログ

                ペパボ研究所 研究員/プリンシパルエンジニアの三宅(@monochromegane)です。 2025年8月、OpenAIよりオープンウェイトモデルとしてgpt-ossが公開されました。 これらのモデルは、軽量ながら既存の強力なモデルに匹敵する性能を示しており、gpt-oss-120bはo4-miniと、gpt-oss-20bはo3-mini と同水準のベンチマーク結果を達成したと報告されています。 また、これらはApache 2.0ライセンスのもとで提供され、単一GPUで効率的な推論が可能である点が特徴として示されています。 こうした特性は、AI施策のコスト削減や適用範囲の拡大に寄与すると見込まれ、多くの組織で関心を集めていると想像されます。 一方で、サービス環境におけるこれらの言語モデルの導入には、モデルの出力精度や生成内容の妥当性だけでなく、サービング時のリクエスト処理性能が重要な要素

                  gpt-ossモデルのサービングにおけるリクエスト処理性能評価 ― NVIDIA H100・A100・L4の比較 - ペパボ研究所ブログ
                • 米Google、動画生成AI「Veo 2」発表 最大4Kの解像度に対応 性能評価は米OpenAIの「Sora」超え

                  Veo 2は物理学を理解しており、他の動画生成AIよりも現実を忠実に再現できるとアピールしている。また、米Metaのベンチマーク「MovieGenBench」で他の動画生成AIと性能を比べたところ、米OpenAIの動画生成AI「Sora Turbo」などよりも高い性能を記録したとしている。 Veo 2の詳細はこちらから。

                    米Google、動画生成AI「Veo 2」発表 最大4Kの解像度に対応 性能評価は米OpenAIの「Sora」超え
                  • Wi-Fi HaLow™の性能評価実験を行いました | IIJ Engineers Blog

                    半導体メーカ、無線メッシュのスタートアップを経て、2022年にIIJにJoin。営業出身ということもあり、分かりやすく技術を伝えることをモットーにしております。趣味は人とお酒を飲むこと、ライブ鑑賞、ゲーム等、、 はじめに IoTビジネス事業部 プロダクト&ワイヤレスビジネス推進 三宅です。 今回、LPWA版Wi-Fi規格であるWi-Fi HaLow™(IEEE 802.11ah)の性能評価を行いました。 皆さんはWi-Fi HaLow™という通信規格をご存じでしょうか。 後光(Halo)+低消費(Low)という冠を抱いたこの新しいWi-Fiは、弊社の取り扱っているLoRaWAN™と同様920MHz帯を使用しており、 通信距離が長い 低消費電力 電波が回り込みやすい との特徴を持っています。 また、従来のWi-Fi同様IPベースのため、既存の資産や市販のIPベースの機器(カメラ等)との親和性

                      Wi-Fi HaLow™の性能評価実験を行いました | IIJ Engineers Blog
                    • ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編

                      ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編 はじめに こんにちは!ELYZA の沖村です。本日は2023年8月29日に弊社株式会社ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての深掘り記事の第三弾を公開します。 この記事では、英語モデルの日本語化にあたって失われる能力についての分析記事になっております。 記事の中であわせて、弊社内で開発していた複数の事前学習設定のモデルの性能についても公開します。 ※なお、ELYZAでは2023年12月27日に130億パラメータの日本語LLM「ELYZA-japanese-Llama-2-13b」も公開しています。こちらの開発も今回の分析と並行して実施していました。ぜひご覧ください。 問題意識 ELYZA-japanes

                        ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編
                      • AIチップの性能評価基準を考えさせるFlex Logic AIプロセッサーの昨今 (1/4)

                        10月20日~29日にかけてLinley Processor Conference Fall 2020がオンライン開催となった。このカンファレンス、同じメーカーが複数の発表を別々に行なうという例はこれまでもあったのだが、(ほぼ)同じ内容の発表を2回行なうという例は今回が初めてではなかったかと思う(一応建前としてはチップ単体と搭載カードと別製品の体裁は取っているが)。 これが可能だった理由は、イベントのプレミア・スポンサーになっているからだろうか。ちなみにプレミア・スポンサーはスポンサー費用が一番高価で、3社がリストアップされているが、うち2社はARMとインテルである。 というわけで、残る一社としてプレミア・スポンサーを務めるとともに2回の発表を行なったのはFlex Logicである。読者の中でこの会社のことを良く知っているという方はそうはおられないと思う。 独自のFPGAファブリックのIP

                          AIチップの性能評価基準を考えさせるFlex Logic AIプロセッサーの昨今 (1/4)
                        • プロンプトエンジニアリングを加速する、AI モデルの性能評価フレームワーク「OpenAI Evals」を試してみた | DevelopersIO

                          生の json ファイルは以下です。 {"input": [{"role": "system", "content": "Complete the phrase as concisely as possible."}, {"role": "user", "content": "Once upon a "}], "ideal": "time"} {"input": [{"role": "system", "content": "Complete the phrase as concisely as possible."}, {"role": "user", "content": "The first US president was "}], "ideal": "George Washington"} {"input": [{"role": "system", "content": "Com

                            プロンプトエンジニアリングを加速する、AI モデルの性能評価フレームワーク「OpenAI Evals」を試してみた | DevelopersIO
                          • 「GPT-5は実用段階にない」 AIレッドチームが性能評価の結果を報告

                            AI企業のSPLXは2025年8月8日(現地時間)、OpenAIの最新大規模言語モデル「GPT-5」に対し実施したレッドチームテストの結果を発表した。1000件以上の攻撃的プロンプトを使い、AIモデル単体、OpenAIの基本システムプロンプト適用、SPLX独自のプロンプト強化適用という3構成で比較テストを実施した。 SPLXはテストの結果、GPT-5の初期設定モデルについて企業が求める安全性や適合性の基準にはまだ達していないと警告している。 「GPT-5は実用段階にない」 性能評価で分かった弱点 SPLXの調査によると、攻撃の中でも特に有効だったのは「StringJoin難読化攻撃」だったとしている。これは全ての文字の間にハイフンを挿入し、暗号化課題を装う文脈に包み込む手法とされ、安全層を回避して禁止情報を引き出すことに成功したという。実例として、複数回のやりとりを経て、爆発物の製造方法に

                              「GPT-5は実用段階にない」 AIレッドチームが性能評価の結果を報告
                            • 【ウマ娘攻略】無課金の味方!配布SSRサポートカードの入手方法と性能評価【最新版】

                              ウマ娘を育成する際に使用するサポートカード。 やっぱりレアリティの上位のモノを使ったほうが強いウマ娘が育成できます。 とはいえ無課金&微課金トレーナーにはなかなか手に入れることが難しいと思います。 実はガチャを回さずとも手に入るSSRサポートカードがいくつか存在しています。 今回はそんな無料で手に入るSSRサポートカードを紹介していきたいと思います。

                                【ウマ娘攻略】無課金の味方!配布SSRサポートカードの入手方法と性能評価【最新版】
                              • Radeon RX 6600 XTを試す - 性能評価編、競合GeForceを揃えて徹底ベンチマーク

                                Preview編でパッケージやカード構成はご紹介したし、それ以前に構成などはこちらでご紹介したので、いよいよ性能の比較である。今回は競合としてGeForce RTX 3060とGeForce RTX 3060 Tiを用意した。以前こちらの記事で利用したもの、そのままである。 Radeon RX 6600 XTの実性能を評価してみたい ベンチマークテストの環境 テスト環境は表1に示す通りだ。以前GeForce RTX 3070 Tiを試した時には、一部ゲームで解像度によってはCPUネックになっているケースもあったが、さすがにこのグレードのGPUでその心配はないだろう。なお、Resizable BARは有効としている(Radeon RX 6600 XTだけでなくGeForce RTX 3060/Tiも)。

                                  Radeon RX 6600 XTを試す - 性能評価編、競合GeForceを揃えて徹底ベンチマーク
                                • 欧州の自動車環境性能評価、トヨタと日産のEVが5つ星

                                  欧州で自動車の環境性能を評価する団体「Green NCAP」は2021年11月18日、新たに5車種の評価結果を発表した。試験したのは、電気自動車(EV)のトヨタ自動車「Lexus UX 300e」と日産自動車「Leaf e+」、プラグインハイブリッド車(PHEV)のフランスRenault「Captur E-TECH 160」とドイツVolkswagen「Golf GTE」、ディーゼルエンジン車のドイツAudi「A3 Sportback 35 TDI」の5車種。EVの2車種は5つ星、PHEVの2車種は3.5星、ディーゼルエンジン車は3つ星となった。

                                    欧州の自動車環境性能評価、トヨタと日産のEVが5つ星
                                  • 日本語データセットを用いたMPT-7Bのファインチューニングおよび性能評価とチャットボット構築 - Platinum Data Blog by BrainPad ブレインパッド

                                    本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。 最近、オープンソースかつ商用利用可能なLLMを日本語に対応させるファインチューニングが注目を集めている中、商用利用可能な日本語データセットを用いてMPT-7Bをファインチューニングしてみました。 はじめに こんにちは、アナリティクスサービス部の内田です。 最近、オープンソースかつ商用利用可能なLLMを日本語に対応させるファインチューニングが注目を集めています。上記のようなLLMを使用すれば、ChatGPTやそのAPIとは異なり、オンプレ環境やクラウド環境で実行する場合

                                      日本語データセットを用いたMPT-7Bのファインチューニングおよび性能評価とチャットボット構築 - Platinum Data Blog by BrainPad ブレインパッド
                                    • 【無課金】SSRアイネスフウジンは現環境で強い?弱い?無凸・1凸・完凸性能評価【飛び出せ、キラメケ】

                                      今回、性能評価をするのはSSRアイネスフウジン[飛び出せ、キラメケ]です。 SSRアイネスフウジン[飛び出せ、キラメケ]のサポート効果、取得可能スキル、育成イベントなどからこのサポートカードのメリット、デメリットを紐解いていこうと思います。 私自身、無課金トレーナーであることから完凸性能だけではなく、無凸・1凸性能も評価します! ココット 予約開始をしたウマ娘のフィギュアについてまとめました。 売り切れ、高騰必至のため欲しい方はお早めに!! 【ウマ娘グッズ】入手困難!?新作フィギュアの発売予定日&予約情報【アルター・ねんどろいど等】魅力的な『ウマ娘』のキャラクターたち、そんな彼女たちを間近で眺めたいと思いませんか? 彼女たちのフィギュアが続々と発売予定となっており、なかには予約を開始したフィギュアもあります。 今回は発売&予約情報を中心にウマ娘フィギュアの情報をまとめました。www.twi

                                        【無課金】SSRアイネスフウジンは現環境で強い?弱い?無凸・1凸・完凸性能評価【飛び出せ、キラメケ】
                                      • Geekbenchが「Galaxy S」の4シリーズを性能評価から除外。 - すまほん!!

                                        WindowsやmacOS、iOSやAndroidなど様々な端末に対応するベンチマークアプリGeekbenchは、Samsungが開発・販売する同社のフラッグシップスマートフォン「Galaxy S」シリーズの一部を、性能評価の統計から除外すると発表しました。 Today we delisted these handsets from the Android Benchmark chart on the Geekbench Browser. — Geekbench (@geekbench) March 4, 2022 これは先日、Samsungが1万を超えるアプリのパフォーマンスを意図的に制御していたことが判明したことを受けて行われたもの。Samsungは、同社製端末にインストールされている「GOS(Game Optimizing Service)」アプリにより、ゲーム以外のアプリにおいても

                                          Geekbenchが「Galaxy S」の4シリーズを性能評価から除外。 - すまほん!!
                                        • 性能評価の指標を合わせる方法 - pTune.jp

                                          「1万ユーザーの同時アクセスに対応できるようにして欲しい」という要望を受けることがあります。 このようなケースでは、負荷テストをお勧めすることが多いのですが、負荷テストで確認できるのは「秒間のリクエスト数」です。「1万ユーザーの同時アクセスに対応できること」を証明するためには、「1万ユーザーの同時アクセス」をブレイクダウンして、「秒間のリクエスト数」に落とし込む必要があります。 この記事では、「1万ユーザーの同時アクセス」を「秒間のリクエスト数」に落とし込む方法を説明します。 「1万ユーザーの同時アクセス」を「秒間のリクエスト数」に落とし込む 秒間のリクエスト数を計算するためには、次の式を使います。 秒間のリクエスト数 = ユーザー数 × ページ/ユーザー ÷ 想定時間(秒) × ピーク特性 それぞれについて、説明していきます。 ユーザー数 アクセスしてくる可能性がある、ユーザーの総数を確

                                          • Wi-Fi HaLow™の性能評価実験 第2弾 ~どこまでいける!?動画チェックしてみた!!~ | IIJ Engineers Blog

                                            半導体メーカ、無線メッシュのスタートアップを経て、2022年にIIJにJoin。営業出身ということもあり、分かりやすく技術を伝えることをモットーにしております。趣味は人とお酒を飲むこと、ライブ鑑賞、ゲーム等、、 Wi-Fi HaLow™(IEEE 802.11ah)搭載のカメラを使った動画検証を行いました。 はじめに IoTビジネス事業部 プロダクト&ワイヤレスビジネス推進 三宅です。 昨年、下記ブログの通り、Wi-Fi HaLow™対応のアクセスポイントを使い、見通し環境下でのスループット評価を行いました。 Wi-Fi HaLow™の性能評価実験を行いました | IIJ Engineers Blog 今回は予告の通り、実際のユースケースを想定し、動画を流した際にどういった見え方をするか、の点で実験を行いましたので是非ご覧ください。 ちなみに今回はフルノシステムズ様のご協力のもと、アクセス

                                              Wi-Fi HaLow™の性能評価実験 第2弾 ~どこまでいける!?動画チェックしてみた!!~ | IIJ Engineers Blog
                                            • 【無課金】SSRバンブーメモリーは現環境で強い?弱い?無凸・1・完凸性能評価【届け、このオモイ!】

                                              今回、性能評価をするのはSSRバンブーメモリー[届け、このオモイ!]です。 SSRバンブーメモリー[届け、このオモイ!]のサポート効果、取得可能スキル、育成イベントなどからこのサポートカードのメリット、デメリットを紐解いていこうと思います。 私自身、無課金トレーナーであることから完凸性能だけではなく、無凸・1凸性能も評価します! ココット 予約開始をしたウマ娘のフィギュアについてまとめました。 売り切れ、高騰必至のため欲しい方はお早めに!! 【ウマ娘グッズ】入手困難!?新作フィギュアの発売予定日&予約情報【アルター・ねんどろいど等】魅力的な『ウマ娘』のキャラクターたち、そんな彼女たちを間近で眺めたいと思いませんか? 彼女たちのフィギュアが続々と発売予定となっており、なかには予約を開始したフィギュアもあります。 今回は発売&予約情報を中心にウマ娘フィギュアの情報をまとめました。www.twi

                                                【無課金】SSRバンブーメモリーは現環境で強い?弱い?無凸・1・完凸性能評価【届け、このオモイ!】
                                              • 【無課金】SSRミスターシービーは現環境で強い?弱い?無凸・1凸・完凸性能評価【Dear Mr. C.B.】

                                                今回、性能評価をするのはSSRミスターシービー[Dear Mr. C.B.]です。 SSRミスターシービー[Dear Mr. C.B.]のサポート効果、取得可能スキル、育成イベントなどからこのサポートカードのメリット、デメリットを紐解いていこうと思います。 私自身、無課金トレーナーであることから完凸性能だけではなく、無凸・1凸性能も評価します! ココット 予約開始をしたウマ娘のフィギュアについてまとめました。 売り切れ、高騰必至のため欲しい方はお早めに!! 【ウマ娘グッズ】入手困難!?新作フィギュアの発売予定日&予約情報【アルター・ねんどろいど等】魅力的な『ウマ娘』のキャラクターたち、そんな彼女たちを間近で眺めたいと思いませんか? 彼女たちのフィギュアが続々と発売予定となっており、なかには予約を開始したフィギュアもあります。 今回は発売&予約情報を中心にウマ娘フィギュアの情報をまとめました

                                                  【無課金】SSRミスターシービーは現環境で強い?弱い?無凸・1凸・完凸性能評価【Dear Mr. C.B.】
                                                • 【無課金】SSRシーキングザパールは現環境で強い?弱い?無凸・1凸・完凸性能評価【そのエールは世界を変えた】

                                                  今回、性能評価をするのはSSRシーキングザパール[そのエールは世界を変えた]です。 SSRシーキングザパール[そのエールは世界を変えた]のサポート効果、取得可能スキル、育成イベントなどからこのサポートカードのメリット、デメリットを紐解いていこうと思います。 私自身、無課金トレーナーであることから完凸性能だけではなく、無凸・1凸性能も評価します! ココット 予約開始をしたウマ娘のフィギュアについてまとめました。 売り切れ、高騰必至のため欲しい方はお早めに!! 【ウマ娘グッズ】入手困難!?新作フィギュアの発売予定日&予約情報【アルター・ねんどろいど等】魅力的な『ウマ娘』のキャラクターたち、そんな彼女たちを間近で眺めたいと思いませんか? 彼女たちのフィギュアが続々と発売予定となっており、なかには予約を開始したフィギュアもあります。 今回は発売&予約情報を中心にウマ娘フィギュアの情報をまとめました

                                                    【無課金】SSRシーキングザパールは現環境で強い?弱い?無凸・1凸・完凸性能評価【そのエールは世界を変えた】
                                                  • 最近(2024年4月)公開された LLM を ELYZA-tasks-100 で性能評価してみた - Qiita

                                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? TL;DR Command-R-Plus, Llama-3, Phi-3 mini を ELYZA-tasks-100 で評価しました Command-R-Plus と Llama-3 70B の性能は既存モデルを大きく上回り、ELYZA-tasks-100 ベンチマークのトップを争っています はじめに 2024 年に入ってからも、数々の LLM が公開されています。特に Cohere や Meta、Microsoft など AI 業界の大手が開発したモデルが、オープンアクセスモデルとして非常に高い性能をもち、話題となっています。 Co

                                                      最近(2024年4月)公開された LLM を ELYZA-tasks-100 で性能評価してみた - Qiita
                                                    • グーグル、画像生成AI「Imagen 3」の性能評価結果を公開

                                                      市場には多数のAIチャットボットが存在し、最良のものを選ぶのは困難になりがちだ。Google DeepMindはこうした議論に決着をつけるべく主だったチャットボットを互いに競わせ、ユーザーが最も感銘を受けた画像生成AIは「Imagen 3」だったと発表した。 Google DeepMindが米国時間8月14日に公開したレポートでは、Imagen 3の性能を前世代モデルの「Imagen 2」のほか、主要な他社モデル「DALL-E 3」「Midjourney v6」「Stable Diffusion 3 Large」「Stable Diffusion XL 1.0」に対し、人間による評価と自動評価の両面でどのように比べたかを詳述している。

                                                        グーグル、画像生成AI「Imagen 3」の性能評価結果を公開
                                                      • 【無課金】SSRツインターボは現環境で強い?弱い?無凸・1凸・完凸性能評価【ターボエンジン全開宣言!】

                                                        今回、性能評価をするのはSSRツインターボ[ターボエンジン全開宣言!]です。 SSRツインターボ[ターボエンジン全開宣言!]のサポート効果、取得可能スキル、育成イベントなどからこのサポートカードのメリット、デメリットを紐解いていこうと思います。 私自身、無課金トレーナーであることから完凸性能だけではなく、無凸・1凸性能も評価します! ココット 予約開始をしたウマ娘のフィギュアについてまとめました。 売り切れ、高騰必至のため欲しい方はお早めに!! 【ウマ娘グッズ】入手困難!?新作フィギュアの発売予定日&予約情報【アルター・ねんどろいど等】魅力的な『ウマ娘』のキャラクターたち、そんな彼女たちを間近で眺めたいと思いませんか? 彼女たちのフィギュアが続々と発売予定となっており、なかには予約を開始したフィギュアもあります。 今回は発売&予約情報を中心にウマ娘フィギュアの情報をまとめました。www.t

                                                          【無課金】SSRツインターボは現環境で強い?弱い?無凸・1凸・完凸性能評価【ターボエンジン全開宣言!】
                                                        • 中国AIユニコーン「MiniMax」、音声合成モデルの性能評価で世界一に OpenAIやElevenLabsを圧倒 | 36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

                                                          中国のAIユニコーン「MiniMax」がリリースした最新の音声合成モデル「Speech-02」がこのほど、世界的な音声技術評価サイト「Artificial Analysis Speech Arena」および「Hugging Face TTS Arena」で共に首位を獲得、これまで長らく米OpenAIやElevenLabsがトップを占めていた中での快挙となった。しかも、最先端レベルの性能を誇りながら、料金はElevenLabsの半分から4分の1に抑えられている。 MiniMaxは、AI大手の商湯科技(センスタイム)で副総裁を務めていた閻俊傑氏らによって、2021年12月に上海で設立された。24年3月には、アリババグループの主導で6億ドル(約860億円)を調達し、評価額は25億ドル(約3600億円)に達している。 アリババ、中国生成AIユニコーン「MiniMax」に6億ドル以上の出資か クラウ

                                                            中国AIユニコーン「MiniMax」、音声合成モデルの性能評価で世界一に OpenAIやElevenLabsを圧倒 | 36Kr Japan | 最大級の中国テック・スタートアップ専門メディア
                                                          • 【ウマ娘】SSRミホノブルボンの性能評価!無課金は完凸にすべき?(Umamusume)

                                                            スマホゲームアプリの無課金攻略に特化したブログです。 現在プレイ中のゲームは「プロスピA」「ウマ娘」「デュエプレ」 実際の無課金プレイ経験を元に役立つ情報をお伝えしていきます。

                                                              【ウマ娘】SSRミホノブルボンの性能評価!無課金は完凸にすべき?(Umamusume)
                                                            • 世界が注目したAppleのAI性能評価論文、MistralやOpenAIの新画像モデルにも脚光

                                                              生成AI(人工知能)を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv(アーカイブ)」である。そんなarXivの投稿論文から、2024年10月(1日~31日)にSNSのX(旧Twitter)で多く言及されたAI分野の注目論文を紹介する。 調査には米Meltwater(メルトウォーター)のSNS分析ツールを利用した。対象はXの全世界のオリジナル投稿、コメント、再投稿、引用投稿である。 2024年10月のSNS言及数で世界首位だったのは、米Apple(アップル)のデータサイエンティストチームが大規模言語モデル(LLM)の数学的推論能力を評価した論文「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models(

                                                                世界が注目したAppleのAI性能評価論文、MistralやOpenAIの新画像モデルにも脚光
                                                              1