タイトル「評価ツール」を検索 - はてなブックマーク

1 - 22 件 / 22件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

評価ツールの検索結果1 - 22 件 / 22件

大阪大学の猿倉信彦教授、任命拒否された6人を学術評価ツール”スコーパス”での数値が低いことを理由に「彼らは学者ではない」と批判するも、スコーパスには日本の人文系論文が入っておらず人文系学者の評価ツールとしては不適格だった
- 71 users
- posfie.com
- 世の中
- 2020/10/10
Makambo @tokompema これまたひどい話。 h-indexは研究業績をはかる有効な指標の一つだけど、用いるデータベースが英文中心で日本語の論文が入っていないScopusでは文系の日本人研究者の評点が低くなるのは当然。今回任命されたなかった日本の法律や歴史の研究者は日本語で研究を発表するので評点が0でもおかしくない。 twitter.com/greyclown2014/… 2020-10-08 00:29:36 Makambo @tokompema 人文社会学系の研究者の英語論文発信力を強めるのはたしかに課題だけど、分野（日本史、法学、日本文学・・・）によってはそもそも英語で発表できる雑誌がほとんどない。これはフランスでも同じ。人文社会学系で著名なフランス人研究者でも英語論文が少ないとScopusをベースにした評価は著しく低い。 2020-10-08 00:36:34
- 学問
- デマ
- 政治
- 社会
- トンデモ
- 人権
- 大学
- hatena
理系猿 on Twitter: "６人の学者について標準学術評価ツール；スコーパスで調べてみた驚愕の事実。計測可能だったのはKYさんだけしかも、H-index 2、あとの人みんなゼロ。国際的にはとても学者とは言えない数値。総理はこれを調べてこれらの人はじいたのでは… https://t.co/dNapQLPTKa"
- 67 users
- twitter.com/chzZCFaSRtxlJBl
- 世の中
- 2020/10/07
６人の学者について標準学術評価ツール；スコーパスで調べてみた驚愕の事実。計測可能だったのはKYさんだけしかも、H-index 2、あとの人みんなゼロ。国際的にはとても学者とは言えない数値。総理はこれを調べてこれらの人はじいたのでは… https://t.co/dNapQLPTKa
- 学問
Shin Hori on Twitter: "【悲報】上念さん、学術評価ツール「スコーパス」は元々日本語の論文をほぼ扱っていないことを知らず、日本憲法や日本刑法や日本行政法の専門家たちの日本語論文がスコーパスでは出てこないことについて、学者としての業績がないかのようにケチをつ… https://t.co/lYkEhpg5M1"
- 48 users
- twitter.com/ShinHori1
- 学び
- 2020/10/08
【悲報】上念さん、学術評価ツール「スコーパス」は元々日本語の論文をほぼ扱っていないことを知らず、日本憲法や日本刑法や日本行政法の専門家たちの日本語論文がスコーパスでは出てこないことについて、学者としての業績がないかのようにケチをつ… https://t.co/lYkEhpg5M1
RAG評価ツールの "RAGAS" を使って、RAGパイプラインの性能を測定する - Qiita
- 43 users
- qiita.com/s3kzk
- テクノロジー
- 2023/11/19
はじめにこんにちは、KDDIアジャイル開発センターのはしもと（仮名）です。 LLMで何かしたい勢のみなさま、検索拡張生成こと RAG (Retrieval Augmented Generation)、やってますか？自社で持っているデータを使ってエンタープライズサーチを実現したい、それができればきっと無敵。そう考えて色々やろうとしているんじゃないでしょうか。私です。 RAGを使って意図した出力を得られるようにするには、十分なデータセットを準備したりパラメータを変更しながらチューニングをするなど、地道な作業が必要となります。開発ライフサイクルにおける評価・テストステップで有効な、評価用フレームワーク RAGAS を使ってみましたので、本記事ではそれについてまとめます。 RAGASとは RAGパイプラインを評価/テストするためのフレームワークです。パイプラインを構築するためのツールは多く
- LLM
- LangChain
- qiita
- あとで読む
- ツール
- テスト
RAG評価ツール「RAGAS」の論文を読む
- 22 users
- zenn.dev/knowledgesense
- テクノロジー
- 2024/05/16
本記事では、RAG評価ツールの「RAGAS」の論文ついてざっくり理解します。軽めの記事です。株式会社ナレッジセンスでは、生成AIやRAGシステムを活用したサービスを開発しており、その中でもRAG精度の評価は非常に重要です。この記事は何この記事は、「RAGAS」についての論文[1]を、日本語で簡単にまとめたものです。RAGASはツールとして有名ではあるものの、RAGASの論文を読んだことがある方は多くなさそうです。 RAGASとは、おそらく今、一番有名なRAG評価ツールです。同様のツールとして、他にはLangSmithやARESが有名かと思いますが、他の開発者と話をしていても、評価ツールとして一番に名前が上がりやすいのは、やはりRAGASです。また、今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。本題ざっくりサマリー R
- LLM
- RAG
- AI
- 論文
- ツール
- あとで読む
Access Accepted第724回：Activision Blizzardの“多様性”を示すゲームキャラクター評価ツールが炎上
- 22 users
- www.4gamer.net
- アニメとゲーム
- 2022/05/23
Access Accepted第724回：Activision Blizzardの“多様性”を示すゲームキャラクター評価ツールが炎上ライター：奥谷海人 Activision Blizzardが，ダイバーシティ分野における同社の目標達成への試みとして，「Diversity Space Tool」という開発ツールを採用することを自社公式ブログで紹介した。同社の一部門であるKing.comが開発中であるというこのツールは，特定のキャラクターがどれだけ多様化されているのかを可視化するというものだが，これがゲームコミュニティの中で大炎上してしまった。多様性，平等性＆包括性企業や教育，政府機関などの場において，日本を含む多くの国々で1つの目標とされているのが「ダイバーシティ」（多様性）だ。特に，2020年5月のミネソタ州ミネアポリスで発生した，黒人男性を白人警官が死に至らしめたという事件を機
- ゲーム
- これはひどい
J-CLICS 攻撃経路対策編（ICSセキュリティ自己評価ツール）
- 11 users
- www.jpcert.or.jp
- テクノロジー
- 2023/03/07
J-CLICS 攻撃経路対策編では、攻撃者が侵入する際に使用される恐れがある制御システム（以下、「ICS」という。）との接続点を攻撃経路と定義し、想定される4つの攻撃経路を設定しています。設定した攻撃経路ごとに侵害手順と実施すべきセキュリティ対策を検討しており、その対策の実施状況を確認する「チェックリスト」およびその「設問項目ガイド」で構成されています。さらに、攻撃経路ごとに攻撃が成立する条件を整理した「対策マップ」を加え、評価する際の参考図書としています。 J-CLICSの名称をもつICSの自己評価ツールには、「J-CLICS STEP1／STEP2」と「J-CLICS 攻撃経路対策編」の2種があります。J-CLICS STEP1／STEP2は、これからICSのセキュリティ対策に取り組む方向けで、ベースラインアプローチとして現在のICSにおけるセキュリティ対策状況を可視化し、重要度が高く
LangChain の QAチェーンの自動評価ツール Auto-evaluator｜npaka
- 6 users
- note.com/npaka
- テクノロジー
- 2023/04/17
「LangChain」の以下の記事が面白かったので、軽くまとめました。・Auto-Eval of Question-Answering Tasks 1. Auto-evaluator「Auto-evaluator」は、「LangChain」のQAチェーンを評価するためのツールです。「LangChain」などのLLMプラットフォームを使用すると、LLMコンポーネント (モデル、ドキュメントリトリーバー、データローダーなど) をチェーンに簡単に組み込むことができます。質問応答は、これらのチェーンの最も人気のあるアプリケーションの 1 つです。しかし、多くの場合、どのパラメータ (チャンクサイズなど) またはコンポーネント (モデル、ベクトルデータベースなど) が最高のQAパフォーマンスをもたらすかを判断することは、必ずしも明確ではありません。そんな時に役立つのが、この「Auto-eval
- AI
RAG評価ツール ragas を試す｜npaka
- 5 users
- note.com/npaka
- テクノロジー
- 2023/11/11
RAG評価ツール「ragas」を試したので、まとめました。 1. ragas「ragas」は、「RAG」 (Retrieval Augmented Generation) パイプラインを評価するためのフレームワークです。「RAG」は外部データを使用してLLMのコンテキストを拡張するLLMアプリケーションです。「ragas」はこのパイプラインを評価して、パフォーマンスを定量化します。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) RAGパイプラインの準備。今回は、以下の記事で作成した、ELYZAのRAGパイプラインを使います。 (2) パッケージのインストール。 # パッケージのインストール !pip install ragas datasets(3) 環境変数の準備。「ragas」は「OpenAI API」で評価します。 import os import
- RAG
- LLM
- ツール
- tool
- あとで読む
10人で会食、感染の危険は？地域・人数別のリスク評価ツール米大が開発
- 4 users
- www.afpbb.com
- 世の中
- 2020/11/19
米ニューヨーク・ブルックリンで、レストランの屋外に設置されたテントで食事をする人々（2020年10月13日撮影）。(c)Spencer Platt/Getty Images/AFP 【11月19日 AFP】今あなたが米首都ワシントンで10人の集まりに参加しているなら、その中の1人が新型コロナウイルスに感染している可能性は18％あり、同じ条件で場所を仏パリに変えると確率は32％になる──米ジョージア工科大学（Georgia Institute of Technology）の研究チームが、地域ごとに感染リスクを評価するツールを開発した。このオンラインダッシュボードでは、米国や欧州の一部の国を対象に、リアルタイムの感染データを用いて新型コロナの感染率を地域レベルで表示。ユーザーが指定した地域で集会に参加するリスクを評価できる。英科学誌「ネイチャー・ヒューマン・ビヘイビア（Nature Hum
- ダジャレ
生成AI評価ツール「Gen AI evaluation service in Vertex AI」を紹介 - G-gen Tech Blog
- 4 users
- blog.g-gen.co.jp
- テクノロジー
- 2024/11/25
G-gen の又吉です。当記事では、生成 AI の出力を迅速かつ効率的に評価できる Vertex AI 上の API である、Gen AI evaluation service を紹介します。概要ユースケース評価指標について評価タイプ計算ベースモデルベース料金使ってみる概要準備実行と結果その他クォータの制限について評価データセットの件数概要 Gen AI evaluation service は、生成 AI アプリケーションの出力を効率的に評価するための機能です。Vertex AI の1機能として、API で提供されます。この機能を使うと、事前定義された評価指標や、ユーザーが独自に定義したカスタム評価指標を用いて、生成 AI アプリケーションのパフォーマンスを定量的に評価できます。同様の LLM 評価ツールとしては、オープンソースのフレームワークである Ra
Vertex AI の LLM 自動評価ツール AutoSxS(automatic side-by-side) 使ってみた！
- 4 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/03/10
1. はじめにこんにちは、クラウドエースデータソリューション部所属の泉澤です。クラウドエースの IT エンジニアリングを担うシステム統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。データソリューション部では活動の一環として、毎週 Google Cloud の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースを本ページ含め記事として公開しています。今回紹介するリリースは、Vertex AI に AutoSxS (automatic side-by-side) という大規模言語モデル (LLM: Large Lanuage Model) の自動評価ツールが追加された、という内容のものです。このリリースは 2024/01/08 にあり
- LLM
- ai
ChatGPT、有料版で「GPT-4 Turbo」が利用可能に。LLM評価ツールも無償提供
- 4 users
- ascii.jp
- テクノロジー
- 2024/04/12
OpemAIは4月12日、同社の提供するAIチャット「ChatGPT」の有料版「ChatGPT Plus」で、同社の最新大規模言語モデル「GPT-4 Turbo」が利用可能になったことを発表した。文章作成、数学、論理的思考、コーディングの能力が向上 GPT-4 Turboは2023年11月に発表されたGPT-4の新バージョンだ。GPT-4に比べてコンテキストウィンドウが128K（GPT-4は8K）に拡大され、API利用コストも下がっている。また、「GPT-4 Vision API」を通じて画像の認識も可能になっている。これまではAPI及びマイクロソフト「Copilot」のみで利用可能だったが、今回「ChatGPT Plus」及び「ChatGPT Team」、「ChatGPT Enterprise」でも利用可能になる。これにより、文章作成、数学、論理的思考、コーディングの能力が向上し、
いわば学術係数？／『６人の学者について標準学術評価ツール；スコーパスで調べてみた驚愕の事実。計測可能だったのはKYさんだけしかも、H-index 2、あとの人みんなゼロ』とネットユーザのコメント
- 4 users
- togetter.com
- 世の中
- 2020/10/08
・『６人の学者について標準学術評価ツール；スコーパスで調べてみた驚愕の事実。計測可能だったのはKYさんだけしかも、H-index 2、あとの人みんなゼロ』理系猿 @chzZCFaSRtxlJBl ６人の学者について標準学術評価ツール；スコーパスで調べてみた驚愕の事実。計測可能だったのはKYさんだけしかも、H-index 2、あとの人みんなゼロ。国際的にはとても学者とは言えない数値。総理はこれを調べてこれらの人はじいたのでは？彼らは科学者ではないしもともと国際学者とは言えない。 2020-10-05 23:28:24
- あとで読む
LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog
- 4 users
- tech.algomatic.jp
- テクノロジー
- 2024/05/26
こんにちは、Algomatic LLM STUDIO インターンのなべ（@_h0jicha）です。前回の記事では、LLM の日本語性能を評価するための様々なベンチマークを紹介しました。 tech.algomatic.jp しかし、こうしたベンチマークには以下のような課題が存在します。ベンチマークの導入に負担がかかってしまうため、もっと気軽に評価したい既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基本的な機能が搭載されている評価ツールを利用したい LLM の評価とともに、LLM を使用する際のプロンプトの評価も同時に行いたいそこで本記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。目次 promptfoo とは？導入方法環境構築実験設定評価実行アサーションについてアサーションタイプの概要決定的評価指
- tool
東芝が制御システム向け脆弱性評価ツールを開発、オープンソース化で展開拡大へ
- 4 users
- monoist.itmedia.co.jp
- テクノロジー
- 2021/08/03
東芝が制御システム向け脆弱性評価ツールを開発、オープンソース化で展開拡大へ：産業制御システムのセキュリティ（1/2 ページ）東芝と米国のPeraton Labsは、発電所や受変電設備、上下水道や交通、工場・ビル施設などで稼働する産業制御システムへのサイバー攻撃に対する脆弱性評価ツール「Automated Attack Path Planning and Validation（A2P2V）」を開発。「Black Hat USA 2021 Arsenal」で発表するとともに、オープンソースソフトウェアとして公開する。東芝と米国のPeraton Labsは2021年8月3日、発電所や受変電設備、上下水道や交通、工場・ビル施設などで稼働する産業制御システムへのサイバー攻撃に対する脆弱性評価ツール「Automated Attack Path Planning and Validation（A2P
- ツール
- あとで読む
AI品質評価ツールとAIクラウドサービスの連携でAI活用を促進
- 3 users
- aismiley.co.jp
- テクノロジー
- 2022/05/31
AI品質評価ツール「Citadel Lens（シタデル・レンズ）」を提供する株式会社Citadel AIが、株式会社グルーヴノーツと協働し、同社が提供する「MAGELLAN BLOCKS（マゼランブロックス）」のAIサービスとのシステム連携に対応ました。このAIニュースのポイント AI品質評価ツール「Citadel Lens」とAIクラウドサービスの「MAGELLAN BLOCKS」が連携連携により、ユーザー自身がAIの品質をわかりやすく客観的に把握可能 AIへの信頼性や透明性を高め、AI活用の定着を促進 Citadel AIが提供するAI品質評価ツール「Citadel Lens（シタデル・レンズ）」と、グルーヴノーツが提供する「MAGELLAN BLOCKS（マゼランブロックス）」のAIサービスがシステム連携を開始しました。 Citadel AIが提供する「Citadel Lens」
プロンプトの評価ツール promptfooって知ってる？ | ドクセル
- 3 users
- www.docswell.com
- テクノロジー
- 2024/03/22
name: - いけだしんのすけ work: - インフラ・情シス like: - バイク - 読書 - 映画 - アニメ - ゲーム
【セキュリティニュース】米CISA、「MS 365」のセキュリティ最低構成と評価ツールを公開（1ページ目 / 全1ページ）：Security NEXT
- 3 users
- www.security-next.com
- テクノロジー
- 2023/12/25
米サイバーセキュリティインフラストラクチャセキュリティ庁（CISA）は、米行政機関向けに「Microsoft 365」を利用する際のセキュリティ構成ベースラインと評価ツールを公開した。同庁では、クラウド環境に保存された行政機関の情報資産を保護するため、2022年4月にSecure Cloud Business Applications（SCuBA）プロジェクトを設置。同年10月に「Microsoft 365」のセキュリティ構成ベースラインのパブリックコメント案を公開し、意見を募集していた。パブリックコメントに寄せられた数百件の意見をもとに100以上の見直しを実施。パイロットプロジェクトを経て、今回「Secure Configuration Baselines for Microsoft 365 Version 1.0」をリリースした。具体的には、「Microsoft Teams」「D
日本学術会議、否認された6名を、標準的学術評価ツールで見てみたら衝撃の結果という告発と、復興増税誰が旗振りだったかの話│上念司チャンネルニュースの虎側
- 3 users
- www.youtube.com
- エンタメ
- 2020/10/07
#上念司八重洲イブニングラボ https://y-e-lab.cd-pf.net/home 『経済で読み解く日本史（飛鳥新社）』第6巻の予約開始！！以下の3つの選択肢よりお選びください。＜第６巻のみ＞経済で読み解く日本史⑥　平成時代 https://amazon.co.jp/dp/4864107521/ref=cm_sw_r_tw_dp_U_x_oHfAEb8AP18TV ＜第６巻＋箱＞【数量限定】経済で読み解く日本史6平成時代+全6巻収納BOX https://amazon.co.jp/dp/4864107548/ref=cm_sw_r_tw_dp_U_x_UGfAEbPY8ZBZQ ＜第１～第６巻＋箱＋豪華ゲストとの対談オーディオブック＞【数量限定】経済で読み解く日本史【文庫版6巻セット】 https://amazon.co.jp/dp/486410753X/
2024年は幻覚やバイアス問題の改善に焦点、生成AIアプリケーションの評価ツールが続々登場する理由 | AMP[アンプ] - ビジネスインスピレーションメディア
- 3 users
- ampmedia.jp
- テクノロジー
- 2024/02/24
大規模言語モデルを活用した生成AIアプリケーションへの期待と懸念 2024年は、大規模言語モデルを活用したユースケース別の生成AIアプリケーションが多数登場する見込みだ。しかし一方で、これらのアプリケーションを導入する、または自社で開発する企業が増えるか否かは、アプリケーションの安全性、正確性、中立性が確保されるかどうかに依拠することになるだろう。法人文脈ではコンプライアンス／セキュリティ遵守が大前提となるため、社外向け・社内向けに関わらず、生成AIアプリケーションがハルシネーション（幻覚）を起こすことなく、事実を正確に生成すること求められるからだ。生成AIアプリケーションを開発する企業は、こうした導入基準を考慮した形で、アプリケーションを開発・提供しなければならない。こうした需要を見込み、この1年ほどで、大規模言語モデルを活用した生成AIアプリケーションを開発する企業向けの評価ツール
- 人工知能
Dappi on Twitter: "上念司「日本学術会議会員になれなかった6名の学者を標準学術評価ツールのスコーパスで調べると計測可能だったのはH-indexが2だった加藤陽子氏の1人だけで後は0と国際的学者と呼べない数字だったとのこと。尚、優秀な生化学分野の数値は… https://t.co/A1CzDRXuxJ"
- 3 users
- twitter.com/dappi2019
- 学び
- 2020/10/07
上念司「日本学術会議会員になれなかった6名の学者を標準学術評価ツールのスコーパスで調べると計測可能だったのはH-indexが2だった加藤陽子氏の1人だけで後は0と国際的学者と呼べない数字だったとのこと。尚、優秀な生化学分野の数値は… https://t.co/A1CzDRXuxJ