並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 2892件

新着順 人気順

Datasetの検索結果241 - 280 件 / 2892件

  • 協力ゲーム理論のシャープレイ値に基づき機械学習モデルの予測を解釈するKernel SHAPの理論と実装のまとめ - Fire Engine

    機械学習の幅広い分野への応用が進むにつれ,機械学習がその予測の根拠などを理解できない「ブラックボックス」となることが問題視されており,機械学習の解釈性や説明性が注目されています.今回のテーマであるSHAP(SHapley Additive exPlanations)は,機械学習モデルへの特定の入力に対する予測の根拠を提示する代表的な手法の一つです.SHAPには用途に応じていくつかのアルゴリズムがありますが,その中でも今回はあらゆる機械学習モデルに適用可能(Model-Agnostic)なKernel SHAPという手法についてまとめました. 構成としては,まずKernel SHAPとは何かについての概要を述べた後に, Kernel SHAPを理解する上で必要な要素である「シャープレイ値」と「SHAP」について説明します.さいごに,Kernel SHAPについて「理論」と「実装」に分けて書い

      協力ゲーム理論のシャープレイ値に基づき機械学習モデルの予測を解釈するKernel SHAPの理論と実装のまとめ - Fire Engine
    • BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note

      電通デジタルで機械学習エンジニアをしている今井です。 本記事では、BigQueryで傾向スコア分析を行うための方法について紹介します。 広告効果ってあったの?広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン(例えば、購入金額や継続期間など)の差である、と言えます。 しかしながら、同一ユーザーにおいて、広告に接触した場合と接触していない場合とを同時に観測することはできません。 これを反実仮想(counterfactual)と呼びます。 そこで提案されたのが平均処置効果(average treatment effect, ATE)です。 広告に接触したユーザー群(𝑤=1)と接触していないユーザー群(𝑤=0)とのその後のコンバージョン(𝑦 )の差を広告効果とするものです。 ここで、介入(広告に接触する)の有無以外の条件が公平になるようにユーザー郡が分かれていれ

        BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note
      • 深層学習モデルの実装を爆速にするVSCodeの設定メモ - May the Neural Networks be with you

        こんにちは。@shunk031です。 新型コロナウイルスが猛威を奮っていますね。 不要不急の外出は控えるのが大切そうです。 こういう時は引きこもって論文を読むのが一番です。 今回はコードエディタであるVSCodeで、深層学習モデルの実装を爆速にするための設定についてメモします。 深層学習モデルの実装をする際にはリモート上にあるGPUを搭載したサーバで実装をしたりデバッグすることが非常に多いです。 VSCodeはこうしたリモートでのコード編集およびデバッグを簡単に行える仕組みを多数揃えています。 本記事では、深層学習モデルの実装に頻繁に利用されるPythonを対象に、以下の観点からモデルの実装を爆速にする設定や機能について紹介します: Pythonの開発環境の構築 リモートのGPUサーバに接続するための設定 深層学習モデルの実装・デバッグを簡単にする機能 おすすめのショートカットキー・拡張機

          深層学習モデルの実装を爆速にするVSCodeの設定メモ - May the Neural Networks be with you
        • How Netflix Scales its API with GraphQL Federation (Part 1)

          Netflix is known for its loosely coupled and highly scalable microservice architecture. Independent services allow for evolving at different paces and scaling independently. Yet they add complexity for use cases that span multiple services. Rather than exposing 100s of microservices to UI developers, Netflix offers a unified API aggregation layer at the edge. UI developers love the simplicity of w

            How Netflix Scales its API with GraphQL Federation (Part 1)
          • SVMを使った類似 embeddings 検索 - kNN ではない類似検索の選択肢 - A Day in the Life

            LangChain v0.0.141 に SVM Retriever という実装が入った。これは embeddings(集合)から、単一 embedding と類似しているもの top-K を SVM を使って見つけるという実装で、えっどうやってるの?と追っかけてみたら、知らない知識で面白かったのでメモ記事に。 kNN vs SVM この実装の元となった、knn_vs_svm.ipynbというnotebookがあって、冒頭を機械翻訳すると以下となる。 よくあるワークフローは、あるデータを埋め込みに基づいてインデックス化し、新しいクエリの埋め込みがあれば、k-Nearest Neighbor検索で最も類似した例を検索することです。例えば、大規模な論文コレクションをその抄録に基づいて埋め込み、興味のある新しい論文を与えると、その論文に最も類似した論文を検索することが想像できます。 私の経験では

            • BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ

              こんにちは、エンジニアリンググループ、データ基盤チームの木田です。 最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。 息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。 この記事は【データ基盤チーム ブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに 費用最適化のアプローチ クラスタ化テーブルとは クラスタ化テーブルの作成方法 実際に速く・安くなるのか 複合キーによるクラスタリング クラス

                BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ
              • 代理モデルによる機械学習モデルの説明 - Qiita

                はじめに 代理モデル (surrogate model) とは複雑な機械学習モデル(e.g., DNN, GBDT)を近似する簡単なモデル(e.g., パラメタ数の少ないDNN, 単純決定木, etc)のことを指します.代理モデルは推論の高速化・機械学習モデルの説明などさまざまな用途に使われています. この記事では代理モデルによる機械学習モデルの説明をハンズオン的に紹介します.これは非常にシンプルかつ柔軟な手法ですが,アドホックな部分が多いためかハンズオン的な解説は見当たりませんでした.Christoph Molnar による Interpretable Machine Learning の Global Surrogate に概要は示されているので機械学習に詳しい人はこちらを読めば十分かもしれません.関連するライブラリに LIME や TreeSurrogate がありますが,わたしがこ

                  代理モデルによる機械学習モデルの説明 - Qiita
                • データ活用視点に立つ「指標」のエンジニアリング 〜DataOps Night#1 登壇後記〜 - MonotaRO Tech Blog

                  データサイエンスグループでエンジニアやっています 竹野です。 本日は先日登壇したDataOps Nightについて参加報告させていただきます。 DataOps Nightについて finatext.connpass.com 「データガバナンス」や「アナリティクスエンジニアリング」、「DataOps」といったキーワードは近年注目の大きい分野となり、イベントも盛んに行われるようになりました。 DataOps Nightもその一つで、そのテーマに「データ品質の向上に取り組むエンジニアを集めて知見を共有する勉強会」を掲げています。 データを溜めるだけではなく活用するところにまで踏み込んでいくためには、解決すべき問題が数多く存在しています。 この知見を共有しようというのがこの勉強会の主旨です。 登壇するにあたってお声がかかった際に悩んだのは、 私自身はモデル開発や施策レポーティングといった形でデータ

                    データ活用視点に立つ「指標」のエンジニアリング 〜DataOps Night#1 登壇後記〜 - MonotaRO Tech Blog
                  • Scaling Kubernetes to 7,500 nodes

                    We’ve scaled Kubernetes clusters to 7,500 nodes, producing a scalable infrastructure for large models like GPT-3, CLIP, and DALL·E, but also for rapid small-scale iterative research such as Scaling Laws for Neural Language Models. Scaling a single Kubernetes cluster to this size is rarely done and requires some special care, but the upside is a simple infrastructure that allows our machine learnin

                      Scaling Kubernetes to 7,500 nodes
                    • 近似最近傍探索ライブラリVoyagerで類似単語検索を試す

                      本記事について 2023年10月にSpotifyが新たな近似最近傍探索ライブラリとして「Voyager」を発表した[1]。本記事ではVoyagerについて調べたことや、単語の類似検索をユースケースとした実装サンプル、Annoyとの性能比較の結果を備忘としてメモしておく。 近似最近傍探索とは Voyagerの話に入る前に、近似最近傍探索について説明する。 最近傍探索 (Nearest Neighbor Search)とは、あるベクトルのクエリが与えられたときに、そのクエリと「最も似ているベクトル」をベクトルの集合から見つける技術である。 ナイーブな方法としては、クエリのベクトルと、集合の一つ一つのベクトルとの距離をコサイン類似度などで計算し、最も距離が近いものを抽出する線形探索が考えられる。しかし、このアプローチではO(N)(Nは集合のサイズ)で探索に時間がかかるため、データセットが膨大にな

                        近似最近傍探索ライブラリVoyagerで類似単語検索を試す
                      • Amazon Personalizeでリアルタイムに変化をするレコメンドを試してみました! - BASEプロダクトチームブログ

                        この記事はBASEアドベントカレンダー2021 17日目の記事です。 はじめに DataStrategyチームの杉です。 ショッピングアプリPay IDではさまざまなショップでの商品購入が可能です。 "探す"タブにはおすすめ機能がついており、利用者にあった商品やショップのレコメンドを行なっています。 おすすめ商品の掲載例 おすすめの商品ではさまざまなアルゴリズムを並行に運用しており、その中のひとつとしてAmazon Personalizeを利用しています。 このアルゴリズムの計算は今まで1日に1回のbatch処理で行なっていました。 しかし、閲覧や購入のログをリアルタイムに利用することでよりマッチしたおすすめ商品を掲載することができるのではという想いでevent trackerを用いたリアルタイムに変化をするレコメンドに挑戦をしました。 この記事では、event trackerをどう実装し

                          Amazon Personalizeでリアルタイムに変化をするレコメンドを試してみました! - BASEプロダクトチームブログ
                        • はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

                          今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transformers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。 (本記事公開後に公開されたデータセットで再検証しています。最新情報は 第18回 をご覧ください。 2021.12.21 追記) 1. はじめに 本記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日本語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

                            はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
                          • BigQuery を使って分析する際の tips (part1)

                            TL;DR BigQuery で分析する際の tips をまとめてみる。長くなりそうなのでいくつかに分割して書く part1 はエディタとして何を使うかとか実行結果の連携などについて書く BigQuery console/DataGrip を使いつつ、結果を GitHub issues/Google Sheets/Bdash Server で共有するという感じで使っている 仕事で BigQuery を使って分析することが多いので、いくつかの回に分けて BigQuery を使って分析する際の tips をまとめていくことにする。今回は part1 としてエディタとして何を使うかとか実行結果の連携などについて書く。 個人的な探索的・アドホック分析用途の話に限定して、組織的にどういうデータ分析基盤を使うかとかそういう話はしない(会社だと ETL の L として dbt https://www.g

                              BigQuery を使って分析する際の tips (part1)
                            • 大規模言語モデルを使って自動車走行時の状況説明をさせてみる? -社内LLMハッカソン記-

                              Turing株式会社の自動運転MLチームでエンジニアをしている岩政です。 Turingの自動運転MLチームでは、完全自動運転の開発に向けて、走行データから自動走行が可能な深層学習モデルの作成およびデータ基盤の整備、視覚情報以外にも言語を活用したマルチモーダルな基盤モデルの作成に取り組んでいます。 本記事では、視覚情報を認識するモデルと大規模言語モデルを組み合わせて、「自動車走行時の特に危険な状況を説明することができないか?」という観点から、社内ハッカソンで取り組んだことを紹介します。 社内LLMハッカソン 事の発端は、4月のある1日に急遽開催された大規模言語モデル(以下LLM)を活用した社内ハッカソンでした。高度な自動運転の実現において、一般的な社会常識のもと複雑な状況を理解して適切に行動するための「知能」は必要不可欠です。現在、Turingでは、LLMはその知能として高いポテンシャルがあ

                                大規模言語モデルを使って自動車走行時の状況説明をさせてみる? -社内LLMハッカソン記-
                              • Apollo Server と Apollo Client を写経しながら GraphQL を学べる「初めての GraphQL」を読んだ - kakakakakku blog

                                2019年11月に発売された「初めての GraphQL」を読んだ.1度ザッと読んだ後に,気になっていた Apollo Server と Apollo Client の実装を写経しながら理解を深めていたため,書評をまとめるのに少し遅れてしまった. タイトルに「初めての」とある通り,GraphQL 初学者をターゲットに網羅的に学ぶことができる1冊だった.特に「背景 → クエリ → スキーマ → リゾルバ → クライアント → 実戦投入」という流れは素晴らしく,一言で表現すると「知りたい!を知れる本」かなと!5章と6章は時間を取って写経するのが良いと思う. 初めてのGraphQL ―Webサービスを作って学ぶ新世代API 作者:Eve Porcello,Alex BanksオライリージャパンAmazon 目次 1章 : GraphQLへようこそ 2章 : グラフ理論 3章 : GraphQLの問

                                  Apollo Server と Apollo Client を写経しながら GraphQL を学べる「初めての GraphQL」を読んだ - kakakakakku blog
                                • BERTによる感情分析を医療記事で実験してみた - エムスリーテックブログ

                                  この記事はエムスリーAdvent Calendar 2020 20日目の記事です。 エンジニアリンググループ AI・機械学習チームの李です。弊社では記事に対して疾患薬剤などのタグを付与するシステムGaussと、記事についたタグとユーザーのPV情報を利用してユーザーに興味のあるタグを紐づけるシステムMaxwellが存在します。Maxwellで使う特徴量を増やしたいというモチベーションがあるのですが、1つ考えられるのは記事についたタグに対して感情分析の結果を追加で利用することです。そこで、感情分析タスクをBERTで解く論文「Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence」 (Sun et al., 2019) を弊社のサービスで提供される医療記事に適用してみました。 各

                                    BERTによる感情分析を医療記事で実験してみた - エムスリーテックブログ
                                  • SHAPで因果関係を説明できる? - Qiita

                                    はじめに 予測モデル(機械学習モデル)を解釈するのに有用なSHAPを用いて因果関係を説明することができるか、についてPythonによるシミュレーションを交えてまとめました。内容に誤り等ございましたら、ご指摘いただけますと幸いです。 結論 基本的に、SHAPで因果関係は説明できません。これは、SHAPが予測モデルの因果ではなく相関を明らかにするものであるからです。 そこで今回は、予測モデルをSHAPで解釈する上でありがちなミスリーディングや、それに関連する因果効果を推定するためのアプローチについて記載しています。 そもそもSHAPとは SHAPとはSHapley Additive exPlanationsの略で、協力ゲーム理論のShapley Valueを機械学習に応用した手法です。「その予測モデルがなぜ、その予測値を算出しているか」を解釈するためのツールとしてオープンソースのライブラリが開

                                      SHAPで因果関係を説明できる? - Qiita
                                    • BigQuery クエリ - pokutuna

                                      BigQuery 関連: Colaboratory 標準 SQL 語彙の構造  |  BigQuery  |  Google Cloud リテラル等の仕様 その場でデータを作ってクエリする 動作確認に便利 code:struct.sql SELECT MIN(status) FROM UNNEST([ STRUCT('unexamined' AS status), STRUCT('unexamined' AS status), STRUCT('ng' AS status) ]) 型ほしい時は型を書く code:complex_struct.sql SELECT * FROM UNNEST( ARRAY<STRUCT<count INT64, time TIMESTAMP>>[ STRUCT(3, TIMESTAMP "2020-07-01 10:00:00"), STRUCT(5, TIM

                                        BigQuery クエリ - pokutuna
                                      • TechCrunch | Startup and Technology News

                                        The prospects for troubled banking-as-a-service startup Synapse have gone from bad to worse this week after a United States Trustee filed an emergency motion on Wednesday.  The trustee is asking…

                                          TechCrunch | Startup and Technology News
                                        • BigQuery で ROW_NUMBER(), RANK() を使うな!

                                          どういうことか たとえば created_at が最も新しいレコード 1 件だけ取ってきたいとか、成績のよいレコード上位 5 件を取ってきたいといったとき、よくある方法として RANK() や ROW_NUMBER() のような番号付け関数を使う方法が思い浮かぶと思いますが、BigQuery ではこれらの関数ではなく ARRAY_AGG() 集計分析関数を使うことが推奨されています。 先に結論を ARRAY_AGG() を使うことでクエリの計算を最適化でき、スロット使用量(計算量)が少なく済みます。スロット使用量の上限を定めている場合、非効率なクエリがいくつも実行されるとキューイングされる可能性があるため理由がなければ ARRAY_AGG() を使いましょう。 ドキュメントによれば ORDER BY 句が各 GROUP BY 句のトップレコードを除くすべてを捨てることができるため効率がいい

                                            BigQuery で ROW_NUMBER(), RANK() を使うな!
                                          • メルカリShopsフロントエンドのパフォーマンスを可視化する | メルカリエンジニアリング

                                            はじめに こんにちは!ソウゾウのSoftware engineerの@yosanです。 「メルカリShops [フライング] アドベントカレンダー2022」5日目を担当します。 今回はメルカリShopsで行っている、フロントエンドのパフォーマンスの可視化について説明したいと思います。 メルカリShopsにおけるフロントエンドのパフォーマンス可視化 メルカリShopsはWebベースのアプリケーションであり、大まかに次のような構成で運用されています。 iOSやAndroidのネイティブアプリケーションに中おいても、メルカリShopsの部分はWebViewによって提供されています。 この記事における「フロントエンドのパフォーマンス」とは、いわゆるWeb Vitalsになります。例えば、ユーザがサイトにアクセスしてからコンテンツが表示されるまでに何秒かかっているか、あるいは意図せず画面レイアウトが

                                              メルカリShopsフロントエンドのパフォーマンスを可視化する | メルカリエンジニアリング
                                            • 【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog

                                              こんにちは。ファンと共に時代を進める、Web3スタートアップ Gaudiy の seya (@sekikazu01)と申します。 この度 Gaudiy では LangSmith を使った評価の体験をいい感じにするライブラリ、langsmith-evaluation-helper を公開しました。 github.com 大まかな機能としては次のように config と、詳細は後で載せますが、LLMを実行する関数 or プロンプトテンプレートと評価を実行する関数を書いて description: Testing evaluations prompt: entry_function: toxic_example_prompts providers: - id: TURBO config: temperature: 0.7 - id: GEMINI_PRO config: temperature:

                                                【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog
                                              • RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った - A Day in the Life

                                                この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。 昨今のLLMの台頭により、外部情報を In-Context Learning として利用しLLMの生成結果の性能を高めることが可能な RAG(Retrieval Augmented Generation) の重要性の高まりを感じる。ただ、RAG を使ったシステムを構築してみようにも、データが少ないと面白みが少なかったりする。その為、Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した。 例えば、Wikipedia から該当の文を検索する用途はこのように使える。 from datasets.download import DownloadMana

                                                  RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った - A Day in the Life
                                                • Google Cloud、機械学習アプリ開発の苦痛を減らすノウハウを紹介

                                                  Google Cloudは2020年9月1日(米国時間)、機械学習モデルを利用したアプリケーション開発の苦痛を減らし、プロトタイプ開発を迅速に進める方法を公式ブログで紹介した。 概要は以下の通り。 トレーニング済みモデルを使用する 機械学習プロジェクトで最も時間がかかり、苦痛な部分の一つは、機械学習アルゴリズムに学習させるラベル付きデータを収集することだ。だが、多くの一般的なユースケースでは、機械学習モデルを一から構築する必要はなくなっている。誰かが構築、調整、メンテナンスした学習済みの機械学習モデルを利用できるためだ。Google Cloudが提供する「Cloud AI API」はその一例だ。Cloud AI APIを使えば、次のような作業に機械学習を適用できる。 音声および動画ファイルのテキスト変換 ドキュメント内のテキストの理解 構造化ドキュメント(フォームや請求書のような)の解析

                                                    Google Cloud、機械学習アプリ開発の苦痛を減らすノウハウを紹介
                                                  • 機械音の異常検知チャレンジ DCASE 2020 Task 2 - Qiita

                                                    (DCASEホームページより) はじめに 音を題材とした異常検知のデータセットによる機械学習コンペが始まりました。 音に関するコンペ自体が珍しいなか、タスクとして一般的な分類などでもなく、更に難しい異常検知が設定されました。 個人的に2019年に画像の異常検知に積極的に取り組んだのですが、音声は周波数領域に変換すると画像のように取り扱えることから、チャレンジしたい題材でした。下記は画像にチャレンジしたときの記事です。 欠陥発見! MVTec異常検知データセットへの深層距離学習(Deep Metric Learning)応用 深層距離学習(Deep Metric Learning)各手法の定量評価 (MNIST/CIFAR10・異常検知) この記事では、そのコンペ「DCASE 2020 Task 2 Unsupervised Detection of Anomalous Sounds for

                                                      機械音の異常検知チャレンジ DCASE 2020 Task 2 - Qiita
                                                    • マイクロインタラクションからクリエイティブ表現まで!Tween24.jsを使った演出表現 - ICS MEDIA

                                                      ウェブサイトのリッチな表現に欠かせないアニメーション。実装にはCSSを使ったものからJavaScriptを使ったもの、WebGLを使ったものまでありますが、今回はTween24.jsを使ったウェブ制作の場面で使える実践的表現を紹介します。 基本的な導入方法や使い方は記事『新感覚!メソッドチェーンでアニメーションがスラスラ書ける「Tween24.js」を作りました』をご覧ください。 CSSアニメーションとの違い CSSのtransitionプロパティや@keyframesを使ったアニメーションなどがあります。これらは比較的手軽にアニメーションを実装できるのがメリットです。手軽さとは引き換えに複雑なアニメーションや動的に変数が変わるようなアニメーションが苦手です。一方でJavaScriptを使った手法は、複雑なものや動的なアニメーションも実装できるメリットがありますが、CSSと比べると記述量も

                                                        マイクロインタラクションからクリエイティブ表現まで!Tween24.jsを使った演出表現 - ICS MEDIA
                                                      • RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ

                                                        こんにちは。研究開発部の深澤(@fufufukakaka)です。 本記事では最近面白いなと思って watch しているレコメンド系のプロジェクト RecBole を紹介いたします。また、クックパッドが展開している事業の一つであるクックパッドマートのデータを使って数多くのレコメンドモデルを試す実験も行いました。その結果も合わせて紹介します。 TL;DR: レコメンドモデルは作者実装に安定性がなく、またモデルをどのように評価したかも基準がバラバラで、再現性が難しいとされている(from RecSys 2019 Best Paper) 再現性に取り組むプロジェクトとして 2020年12月に始まった RecBole がある。 RecBole を利用することでなんと 50個以上のレコメンドモデルを大体1コマンドで試せる クックパッドマートでユーザに対してアイテムをレコメンドするシチュエーションを想定

                                                          RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ
                                                        • 心理統計学の授業で教材に使えるオープンデータ集

                                                          はじめに 統計学の講義や実習の際に使える心理系のデータセットをまとめました。アヤメの分類や経済統計もいいですが、やはり心理学に関連したデータを使う方が心理系の学生には興味をもって統計を学べると思います。ここには私が授業でよく使っているものをリストしました。他に良いものがあれば教えて下さい。 Open Stats Lab https://sites.trinity.edu/osl Psychological Science 誌に掲載された論文のデータが公開されています。データだけでなく、論文の概要や実習の手引きなども揃っています。回帰分析や因子分析など統計手法ごとに分類されているので、教材を選ぶ際にとても便利です。 datarium パッケージ https://rpkgs.datanovia.com/datarium/ R のパッケージです。パッケージをインストールすればすぐ使えるようになる

                                                            心理統計学の授業で教材に使えるオープンデータ集
                                                          • js を書いて URL やページの内容を加工してコピーできる Chrome 拡張ココピーのご紹介 - ぽ靴な缶

                                                            この記事は はてなエンジニア Advent Calendar 2020 - Qiita の23日目の記事です。 qiita.com 昨日は id:Krouton さんの 30日でできる! OS自作入門 を読むために nasm_of_nask というコンパイラを作った話 - KRAZY感情STYLE でした。よかったですね。 コードでコピーするココピーです 今日はちょっと前に作ったブラウザ拡張、cocopy を紹介します。 chrome.google.com しゅぴっと拡張を開いてコピーするフォーマットを選択できます。 このアニメーションはコピー機がブーンとスキャンする感じをイメージしています。 利用者が js を書いてフォーマットを追加できます。 コードからは URL、タイトル、選択中のテキスト、ページの HTML にアクセスできます。 Markdown, Scrapbox HTML, は

                                                              js を書いて URL やページの内容を加工してコピーできる Chrome 拡張ココピーのご紹介 - ぽ靴な缶
                                                            • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                                                              初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                                                                Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
                                                              • Imagen: Text-to-Image Diffusion Models

                                                                Imagen unprecedented photorealism × deep level of language understanding unprecedented photorealism deep level of language understanding We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of language understanding. Imagen builds on the power of large transformer language models in understanding text and hinges on the strength of diffusi

                                                                • PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる - DATAFLUCT Tech Blog

                                                                  こんにちは!nakamura(@naka957)です。本記事では、PyCaretで簡単に探索的データ分析を行う方法をご紹介します。 探索的データ分析(Explanatory Data Analysis: EDA)とは、データセットを様々な視点から分析し、データを考察することを目的に行うことです。EDAで得られた知見や仮説を活用し、その後のデータ分析や機械学習モデルの構築を有効に行うことができます。 データを考察するための最も有効な手法は、可視化することです。そのため、データを可視化するスキルはEDAにおいて非常に重要になります。本記事ではEDAを目的とした可視化する方法をご紹介します。 では、早速始めていきます。 PyCaretとは AutoVizとは ライブラリのインストール 実行の前準備 EDAの実行 散布図 棒グラフ 密度分布 Violinプロット ヒートマップ(相関係数) Auto

                                                                    PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる - DATAFLUCT Tech Blog
                                                                  • Introducing Whisper

                                                                    Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. We show that the use of such a large and diverse dataset leads to improved robustness to accents, background noise and technical language. Moreover, it enables transcription in multiple languages, as well as translation from those languages into Eng

                                                                      Introducing Whisper
                                                                    • 【異常検知】最近の研究動向・2023年夏 - Qiita

                                                                      最近、画像の異常検知研究が活発になってきました。 そこで、本稿では、画像の異常検知研究に関する最新情報をお伝えします。 画像はpaper with codeより転載 先に結論 最近の研究は精度を維持しつつ、メモリの圧迫を抑える。さらに、推論時間も短縮させている。 最近のデータセットは多様性が増し、より難易度が上がっている 予備知識 本題に入る前に、従来の手法・データセットが抱える問題点をおさらいしておきます。2021年くらいまでの情報ですので、ご存知の方は読み飛ばしてください。 従来の手法 PaDimとマハラノビスAD 今でも根強い人気があるのがPaDim[1]です。中身が簡単なことに加え、異常検知性能も高いことが理由だと思います。また、PaDimの基となったのがマハラノビスAD(gaussian AD)[2]です。 上記のスライドは二つの手法を説明したものです。両手法とも、ImageNe

                                                                        【異常検知】最近の研究動向・2023年夏 - Qiita
                                                                      • コンペで使える!?LightGBMで実装する3つの弱教師あり学習 - ABEJA Tech Blog

                                                                        ABEJAでデータサイエンティストをしている小林です。 今回は、もしかしたらいつか業務や機械学習コンペに役立つかもしれない情報、LightGBMで弱教師あり学習を行う方法についてお話します。 コードはこちらで公開しております。 目次 はじめに 弱教師あり学習の例(マルチインスタンス学習) LightGBMで弱教師あり学習がしたい! PU分類 問題設定 解き方 LightGBMの実装 実験 Partial Label Learning 問題設定 解き方 LightGBMの実装 実験 マルチインスタンス学習 問題設定 解き方 LightGBMの実装 実験 おわりに はじめに 機械学習を行うためには、一般的に、大量の入力データと、それら一つ一つに対応した正確なラベルが必要です。 例えば、犬と猫の画像分類を行う場合には、それぞれの画像一つ一つに犬か猫のラベルがついていてほしいですね。 一方で場合に

                                                                          コンペで使える!?LightGBMで実装する3つの弱教師あり学習 - ABEJA Tech Blog
                                                                        • 実写をアニメ風に変換してくれるAnimeGANやーる(Windows10、Python3.6) - Qiita

                                                                          はじめに 実写をアニメ風に変換してくれるAnimeGANをやってみました。 システム環境 Windows10(RTX2080 Max-Q、i7-8750H、RAM16GB) Anaconda 2020.02 Python 3.6 CUDA 9.0 導入 AnimeGANをクローンします。 animegan用の環境を作成します。 $ conda create -n animegan python=3.6 $ conda activate animegan $ pip install tensorflow-gpu==1.8.0 $ pip install tqdm $ pip install scipy $ pip install opencv-python $ cd AnimeGAN-master AnimeGAN-masterにdatasetを置きます。 Haoyao-styleの中身をc

                                                                            実写をアニメ風に変換してくれるAnimeGANやーる(Windows10、Python3.6) - Qiita
                                                                          • 2020年機械学習総まとめ 興味深い論文/記事85選|akiraTOSEI

                                                                            この記事では、2020年に発表された論文や記事のうち、特に興味深かったものを合計85紹介します。下記12のトピックに分けて紹介していますが、あくまで便宜上の分類です。私の個人的な2020年総括は以下の通りです。 ---------------------   個人的2020年総まとめと所感  --------------------- 2020年はTransformerが大躍進しました。自然言語処理では大規模なTransformerモデルであるGPT-3が高い精度を多くのタスクで叩き出しています。大量のデータと大量のパラメータを使って画像分類でも最高精度であったBig Transferを超えるものが出てきています。 差別的要素や著作権の問題のないフラクタル画像データセットはAIの倫理がさらに重視されるであろう今後は、非常に重要なものになってくるかもしれません。ImageNetにアクセスでき

                                                                              2020年機械学習総まとめ 興味深い論文/記事85選|akiraTOSEI
                                                                            • llama2のファインチューニング(QLORA)のメモ|Kan Hatakeyama

                                                                              2023/11/13追記以下の記事は、Llama2が公開されて数日後に書いた内容です。 公開から数ヶ月経った23年11月時点では、諸々の洗練された方法が出てきていますので、そちらも参照されることをおすすめします。 (以下、元記事です) 話題のLamma2をファインチューニングします。 QLoRAライブラリを使うパターンと、公式推奨の2つを試しました。前者が個人的にはオススメです。 前提Hugging faceで配布されている公式のモデルが必要です。以下を参考に、ダウンロードしておきます。 データセット作成 (7/20 15:20追記 設定ミスってたので修正しました) test.jsonを適当に作ります。 [ { "input": "", "output": "### Human: 富士山といえば?### Assistant: なすび" }, { "input": "", "output":

                                                                                llama2のファインチューニング(QLORA)のメモ|Kan Hatakeyama
                                                                              • Introducing Amazon S3 Object Lambda – Use Your Code to Process Data as It Is Being Retrieved from S3 | Amazon Web Services

                                                                                AWS News Blog Introducing Amazon S3 Object Lambda – Use Your Code to Process Data as It Is Being Retrieved from S3 March 15, 2023 – You can now use S3 Object Lambda with Amazon CloudFront to tailor content for end users. When you store data in Amazon Simple Storage Service (Amazon S3), you can easily share it for use by multiple applications. However, each application has its own requirements and

                                                                                  Introducing Amazon S3 Object Lambda – Use Your Code to Process Data as It Is Being Retrieved from S3 | Amazon Web Services
                                                                                • 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話

                                                                                  3行でまとめると LLM分散学習ハッカソンに参加し、Vision-Languageモデルの一つであるBLIP2のHuggingFaceモデルを拡張して動画からテキスト生成するVideoBLIPを作成しました。ソースコードはGithubで公開しています。 運転映像に対する説明文章を学習に用いてVideoBLIPの学習を行い、運転映像を説明するモデルを作成しました。(以下のように運転映像に対して説明文が出力されます) 学習を高速化するためにマルチノードで学習を行えるようにし、実際にABCIのGPU80台を使って分散学習を行い、4GPUで行った場合の20倍の計算速度が実現できました(Strong Scaling!) 分散並列学習にはDeepSpeedを用いました。 はじめに Brain Researchチームで自動運転AIを開発している棚橋です。Brain Researchチームではレベル5の完

                                                                                    走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話