並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 2799件

新着順 人気順

Datasetの検索結果201 - 240 件 / 2799件

  • ZOZOTOWNにおけるマーケティングメール配信基盤の構築 - ZOZO TECH BLOG

    はじめに こんにちは、MA部の松岡(@pine0619)です。MA部ではマーケティングオートメーションシステムの開発・運用に従事しています。 ZOZOTOWNでは、マーケティングオートメーションシステム(以下、MAシステム)を使い、メールやLINE、アプリプッシュ通知といったチャネルへのキャンペーンを配信しています。 MA部では、複数のMAシステムが存在しており、MAシステムそれぞれに各チャネルへの配信ロジックが記述されていました。これにより、現状の運用保守ならびに今後の改修コストが高いかつ、使用している外部サービスのレートリミットの一元管理が出来ていないなどの問題を抱えていました。そのため、外部サービスへのリクエスト部分をチャネルごとにモジュールとして切り出し、複数のMAシステムから共通で使える配信基盤を作成しました。 また、社内の他チームの持つシステムからのキャンペーン配信の要望があっ

      ZOZOTOWNにおけるマーケティングメール配信基盤の構築 - ZOZO TECH BLOG
    • BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog

      背景 & Disclaimer 自分自身はこれまでBigQuery Scriptingをほぼ使っていませんでした BigQuery自体は3年くらいの利用歴 SQL単発で済ませるのが苦しそうな場合は、Pythonなどのプログラミング言語 + ワークフローエンジンの組み合わせで戦っており、自分としては特に困っていなかった 社内で他の方が使うケースをぼちぼち見ることがある 自分は困っていなくても、社内のBigQueryユーザーでBigQuery Scriptingを使っていて困っている人がそれなりにいる 著者はそれなりのBigQueryユーザーがいる企業のデータ基盤の人間です さすがに「使ったことないので、分からないですねー」で済ませるわけにはいかなくなってきた そもそもどんなユースケースで便利なのかすらも分かっていない状態なので、便利そうに思える場合をまとめてみることにしました というわけで、

        BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog
      • Rust の機械学習ライブラリ smartcore に入門してみた。

        はじめに たまには Rust も書きます。機械学習に興味があり、興味があれば何でも触ります。 smartcore とは とある Rust の機械学習に詳しい人に、最近の Rust の機械学習ライブラリのデファクトぽいのを聞いたところ、丁寧に linfa か smartcore を教えて貰いました。はじめに linfa を試したのですが、うまく行きませんでした。僕は Rust の toolchain で gnu(mingw) を使う派なのですが、linfa は Intel MKL をリンクする必要があり、Intel MKL は MSVC 形式のライブラリしか提供していません。DLL から .a を生成してリンクしてみたりもしましたが、結局うまくリンクできず諦めてしまいました。MSVC の toolchain や他の OS(Linux) だと問題なく動くんだと思います。 しかたなく、残りの s

          Rust の機械学習ライブラリ smartcore に入門してみた。
        • ChatGPTで自然言語処理のData Augmentationやってみた。|tdual

          ※ChatGPTと言っていますが、正確にはOpenAIの「code-davinci-003」というGPT-3のモデルを使っています。 ChatGPT、すごいですよね! 質問すれば、ある程度のことはいい感じの返答をしてくれますね。 例えば「〜と似た文章を作って。」メッセージをChatGPTに投げることで、似たような文章を生成できます。 入力: import openai openai.api_key = key #keyはopenaiのページから取得してください。 model_engine = "text-davinci-003" prompt = """ 「MatrixFlowは、AIの開発に特化したノーコード開発のプラットフォームです。 画面上でブロックを動かすという視覚的な操作だけでAIを開発できます。 様々な課題や要望に応じたAIモデルのテンプレートが用意されているため、テンプレート

            ChatGPTで自然言語処理のData Augmentationやってみた。|tdual
          • 最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk

            今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。 実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング 事前準備必要なライブラリをインストールします。 また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t

              最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk
            • グラフってこんなにすごい!深層学習との融合をレビュー

              3つの要点 ✔️ GNNの表現力の強さから、急速にアプリケーションが進んでいる。 ✔️ GNNの柔軟かつ複雑な構造への、従来深層学習手法の展開についてのレビュー ✔️ 一方で、深層学習に共通、グラフに固有の課題も継続中 Graph Neural Networks: A Review of Methods and Applications written by Jie Zhou, Ganqu Cui, Shengding Hu, Zhengyan Zhang, Cheng Yang, Zhiyuan Liu, Lifeng Wang, Changcheng Li, Maosong Sun (Submitted on 20 Dec 2018 (v1), last revised 9 Apr 2021 (this version, v5)) Comments: Published on AI O

                グラフってこんなにすごい!深層学習との融合をレビュー
              • Python(PyTorch)で自作して理解するTransformer

                1. はじめに Transformerは2017年に「Attention is all you need」という論文で発表され、自然言語処理界にブレイクスルーを巻き起こした深層学習モデルです。論文内では、英語→ドイツ語翻訳・英語→フランス語翻訳という二つの機械翻訳タスクによる性能評価が行われています。それまで最も高い精度を出すとされていたRNNベースの機械翻訳と比較して、 精度(Bleuスコア) 訓練にかかるコストの少なさ という両方の面で、Transformerはそれらの性能を上回りました。以降、Transformerをベースとした様々なモデルが提案されています。その例としては、BERT,XLNet,GPT-3といった近年のSoTAとされているモデルが挙げられます。 ここで、「Attention is all you need」内に掲載されているTransformerの構造の図を見てみま

                  Python(PyTorch)で自作して理解するTransformer
                • Raspberry Pi 3 B+ & PyTorchの深層学習で、カメラ映像内の複数物体をリアルタイム分類 - Qiita

                  Raspberry Pi 3 B+ & PyTorchの深層学習で、カメラ映像内の複数物体をリアルタイム分類PythonOpenCVRaspberryPiDeepLearningPyTorch 大学の授業関係でラズパイ3B+とpicameraをゲット。暇なので、ラズパイに深層学習を用いた分類をさせてみようと思い立ちました。ただ、前もって撮った写真を分類させるのではなく、picameraからのリアルタイムの映像内の物体を分類させ、いい感じに表示させます。 学生レベルかもしれませんが、一部分でも参考になれば幸いです。 思い描いたこと 「固定されたpicameraの視野内に複数の私物を置くと、それをリアルタイムに分類し、表示する機能」をラズパイ内に作ってみようと思いました。 具体的には、背景差分(背景画像と変化した部分を抜き出す手法)で物体を抽出し、PyTorch [パイトーチ](Keras,

                    Raspberry Pi 3 B+ & PyTorchの深層学習で、カメラ映像内の複数物体をリアルタイム分類 - Qiita
                  • モザイク坂とは何だったのか?その変態性に就いて

                    新宿のモザイク坂が先週で営業終了との事で話題になっていたが、知る人は少なかろうがあそこは実は高架道路なんである。 斜路の高架道路に階段設えたりタイル貼ったりしたのがモザイク坂だったのだな。 じゃあなんでこうなったのかというのには経緯があるのでちょいと書いてみたい。 西口大歩道橋時代に空中駐車場への通路として開通モザイク坂は京王デパートと小田急デパートに挟まれているように見えるが、実は小田急の駅上の京王デパートに隣接した所を通っている。 例えば小田急の降車ホームをよく観察すると 1.南側が狭くなっている 2.南側の天井が斜めに低い という事に気付くはずだ。https://goo.gl/maps/LoyBvgAkdnU7oubeA この斜めは何かと言えば、そう、モザイク坂の高架道路斜路が上にあるんである。 1966年に今の地下広場を擁する西口の立体ロータリーが完成するのだが、その前には大歩道橋

                      モザイク坂とは何だったのか?その変態性に就いて
                    • GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ - Overview of Japanese LLMs

                      [ English | Français | 日本語 ] 日本語LLM・英語LLMのパラメータ数の推移。日本語モデルの情報は本記事、英語モデルの情報は LifeArchitect.ai の Models table を参照しています(ただし、図のスペース上一部のモデルは省略。また、英語モデルのパラメータ数は推測値を含む)。修正・追加等ありましたらお知らせ下さい。 この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。 ⚠ 以下の点について、あらかじめご理解とご了承をお願いいたします: 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提

                        GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ - Overview of Japanese LLMs
                      • 写真内の不要な顔だけ“実在しない顔”に置き替えるAI プライバシー保護に活用 Intelなどが開発

                        知人や他人が写り込んだ写真を知人や他人に許可なくSNSに投稿すると、インターネット上で誰でもアクセスできる。そのため、画像認識系の機械学習モデルのデータセットの一部として訓練に用いられ、悪用される可能性がある。 そこでこの研究では、共有したくない写り込んだ顔だけを偽の顔に置き換える深層学習モデル「MFMC」を提案する。ここでいう偽の顔とは、頭部姿勢や表情、光の反射具合はそのままに、年代や性別も維持した状態で、画像認識モデルに特定されない別人の顔を意味する。 モデルは、ArcFaceを用いて512の特徴量を持つ顔を抽出し、InsightFaceを利用して性別と年齢に基づく分類を行い、潜在空間における方向性に利用する。ディープフェイク生成にはSimSwapライブラリを用いる。 実際のデータセットについては、多様な環境をカバーするFacial Descriptors Datasetのpartyサ

                          写真内の不要な顔だけ“実在しない顔”に置き替えるAI プライバシー保護に活用 Intelなどが開発
                        • SVMは復権し得るか? - 渋谷駅前で働くデータサイエンティストのブログ

                          Kaggleはすっかりただの野次馬の一人になって久しいんですが、しばらく前に行われたPetFinder.my - Pawpularity Contestというコンペで優勝者がSVR(サポートベクター回帰)を使ったことが話題になっていたというのを聞いて、NN全盛のこのご時世に意外だなと思ったのでした。 しかし、よくよく考えてみればかのVapnik御大がかつてSVMを考案する際にベースとしたアイデアはNNとは方向性の違う代物だったわけです。故に、例えばSVMとNNとがどのような点で異なるかが「見える化」出来れば、SVMが復権するための条件のようなものが見えてきそうです。 ということで、久しぶりに「サンプルデータで試す機械学習シリーズ」をやってみようと思います。実はDNNについては6年前にも似たようなことをやっているのですが、SVMとDNNとでサンプルサイズを変えながら比較するというのはやったこ

                            SVMは復権し得るか? - 渋谷駅前で働くデータサイエンティストのブログ
                          • Google Colab で PEFT による大規模言語モデルのファインチューニングを試す|npaka

                            「Google Colab」で 「PEFT」による大規模言語モデルのファインチューニングを試したので、まとめました。 1. PEFT「PEFT」(Parameter-Efficient Fine-Tuning)は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 大規模言語モデルのファインチューニングは、多くの場合、法外なコストがかかりますが、「PEFT」は少数のパラメータのみをファインチューニングするため、計算コストとストレージ コストが大幅に削減でき、さらには、完全なファインチューニングに匹敵するパフォーマンスを実現します。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ・P-Tuning ・Prompt Tuning 2. Colabでの実行Google Colab

                              Google Colab で PEFT による大規模言語モデルのファインチューニングを試す|npaka
                            • MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

                              こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M

                                MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
                              • Google ColabとVSCodeを用いた分析環境運用方法 〜kaggle Tipsを添えて〜 - ギークなエンジニアを目指す男

                                こんにちは。takapy(@takapy0210)です。 本エントリは下記イベントでLTした内容の元に、補足事項やコードスニペットなどをまとめたものになります。 kaggle-friends.connpass.com ちなみに今回LTしようと思ったきっかけは以下のような出来事からだったので、みなさんのTipsなども教えていただけると嬉しいです! 情報出回ってる感あるけど、colab pro × vscode ssh のオレオレ運用方法を晒すことにより、もっと良い方法のフィードバックもらえるのではドリブンでLTするのはありなのかもしれない・・・?— takapy | たかぱい (@takapy0210) 2021年8月1日 LT資料 当日みなさんから頂いたコメント 環境構築手順 ngrokアカウント作成と認証キーの取得 ColabにGoogleドライブを接続、ngrok、sshサーバー起動

                                  Google ColabとVSCodeを用いた分析環境運用方法 〜kaggle Tipsを添えて〜 - ギークなエンジニアを目指す男
                                • 画像生成AI「Stable Diffusion」開発元がチャットAI「StableVicuna」をリリース

                                  Stable Diffusionの開発元であるStability AIが、オープンソースのチャットボットAI「StableVicuna」のリリースを発表しました。StableVicunaは、Metaが開発した大規模言語モデルのLLaMA 13BをベースとするチャットボットAI「Vicuna-13B」をさらに調整して訓練したチャットボットAIです。 Stability AI releases StableVicuna, the AI World’s First Open Source RLHF LLM Chatbot — Stability AI https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot StableVicunaは、「プロンプトのファインチューニング」と「人間のフィードバックによる強化学習(RLHF)」とい

                                    画像生成AI「Stable Diffusion」開発元がチャットAI「StableVicuna」をリリース
                                  • 数学に強いエンジニアむけの機械学習勉強法

                                    今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。 巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。 前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門~のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。 プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分

                                    • 不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ

                                      はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題ってなに? 何かしらのカテゴリを機械学習などで分類予測しようとする際、カテゴリごとのデータ件数に偏りがある、特に正例のデータが極端に少ないケースで予測精度が上がりにくい、という問題をこのように呼んでいます。 例: 不正決済と正常な注文、不正商品と健全な商品、がん患者と正常な患者 普通はどうやって対処するの? ベースとなるアプローチは下記3つにまとめられます。 アプローチ 内容 デメリット アンダーサンプリング 多数派データを

                                        不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ
                                      • 画像生成AIの「高品質なプロンプト」を0.01秒で盗むサイバー攻撃 ドイツの研究機関が発表

                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 ドイツの研究機関CISPA Helmholtz Center for Information Securityに所属する研究者らが発表した論文「Prompt Stealing Attacks Against Text-to-Image Generation Models」は、テキストから画像を生成するモデルで生成した画像からテキストプロンプトを盗用する攻撃を提案した研究報告である。 Stable Diffusion、DALL-E 2、Midjourneyなどのテキストから画像を生成するモデルの登場以来、プロのアーティストに頼るのではなく、プロンプトと呼

                                          画像生成AIの「高品質なプロンプト」を0.01秒で盗むサイバー攻撃 ドイツの研究機関が発表
                                        • 生成AIの本を執筆する者は一切の希望を捨てよ~2023年の生成AIと『生成AIで世界はこう変わる』執筆振り返り~|今井翔太@えるエル(ImAI_Eruel)

                                          はじめに 東京大学 松尾研究室でAIの研究をしている今井翔太と申します.最近,『生成AIで世界はこう変わる』という本を出版させていただきました. https://www.amazon.co.jp/dp/B0CM2YJ34N?ref_=cm_sw_r_cp_ud_dp_TRV649GZXZBTAPW2M0XB_1 本記事は,2024年1月7日に発売された生成AIに関する私の著書『生成AIで世界はこう変わる』の執筆(+発売後の動き)の振り返りと,その補強となる2023年(正確にはChatGPT登場の2022年後半〜です)の生成AIの展開に関するものです.実はnoteにおける初の記事になります. AIの一般書の執筆というのは割とレア経験だと思われますので,読者層がイマイチわからない記事な気もしますが,本の性質上,生成AIという分野一般の2023年の展開と連動する部分があり,いくらかは参考になる部

                                            生成AIの本を執筆する者は一切の希望を捨てよ~2023年の生成AIと『生成AIで世界はこう変わる』執筆振り返り~|今井翔太@えるエル(ImAI_Eruel)
                                          • Colaboratoryで分析コンペをする時のテクニック集 - カレーちゃんブログ

                                            3月2日に開催された、分析コンペ 勉強会で、「Colaboratoryで分析コンペをする時のテクニック集」として発表をしました。 speakerdeck.com この記事では、その内容を書きたいと思います。 Colaboratoryテクニック9つ 1. テーマの設定(darkモード等)、エディタの設定(インデント幅等) 2. ColaboratoryかKaggleNotebookか判別 3. Notebook名を取得 4.Google Driveのファイルへのアクセスを許可 5.学習する際は、MyDriveはなるべく使わない 6.a Kaggle Apiを使用する 6.b データのKaggleDatasetsへのアップロード 7 Mydriveからのweightのロードが遅い場合 8 Githubのrepositoryをclone public repositoryをcloneする場合 p

                                              Colaboratoryで分析コンペをする時のテクニック集 - カレーちゃんブログ
                                            • 日本語BERTモデルをPyTorch用に変換してfine-tuningする with torchtext & pytorch-lightning - radiology-nlp’s blog

                                              TL;DR ①TensorFlow版訓練済みモデルをPyTorch用に変換した (→方法だけ読みたい方はこちら) ②①をスムーズに使うための torchtext.data.Dataset を設計した ③PyTorch-Lightningを使ってコードを短くした はじめに 日本語Wikipediaで事前学習されたBERTモデルとしては, 以下の2つが有名であり, 広く普及しています: SentencePieceベースのモデル (Yohei Kikuta さん提供) TensorFlow版 Juman++ベースのモデル (京大黒橋研提供) TensorFlow版 PyTorch版(Hugging Face transformers準拠) このうち, SentencePieceベースのものは現在TensorFlow版のみの提供となっており, PyTorch版は存在しません。 そのため, 私のよう

                                                日本語BERTモデルをPyTorch用に変換してfine-tuningする with torchtext & pytorch-lightning - radiology-nlp’s blog
                                              • Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ

                                                TL;DR TransformersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。 長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。 検出漏れが問題になるようであれば、ストライド付きのwindow処理を追加するのが良い。 サンプル実装: github.com 背景 この記事を目に留めていただいた方にはおそらくおなじみであろう Hugging Face の Transformers *1。 BERT等のTransformer素子ベース事前学習モデルを用いた転移学習が容易に実験できるライブラリである。 最新モデルのモジュールがすごいスピードで実装されることに加えて、事前学習モデルおよび依存するトークナイザが一緒に管理・ダウンロードできる点がご利益として特に大きい。

                                                  Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ
                                                • PyTorch vs TensorFlow in 2023

                                                  Should you use PyTorch vs TensorFlow in 2023? This guide walks through the major pros and cons of PyTorch vs TensorFlow, and how you can pick the right framework. PyTorch and TensorFlow are far and away the two most popular Deep Learning frameworks today. The debate over which framework is superior is a longstanding point of contentious debate, with each camp having its share of fervent supporters

                                                    PyTorch vs TensorFlow in 2023
                                                  • SageMakerとStep Functionsを用いた機械学習パイプラインで構築した検閲システム(前編) - コネヒト開発者ブログ

                                                    皆さん,こんにちは!機械学習エンジニアの柏木(@asteriam)です. 今回はタイトルにもあるようにモデルの学習からデプロイまで一気通貫した機械学習パイプラインをSageMakerとStep Functionsで構築し,新しく検閲システムを開発したお話になります. こちらのエントリーで紹介されている機械学習を用いた検閲システムの技術的な内容になります. ※ 検閲システムの細かい要件や内容については本エントリーでは多くは触れないのでご了承下さい. tech.connehito.com はじめに 今回のエントリーは内容が盛り沢山になっているので,前編と後編の2つに分けて紹介することにします. 前編:SageMaker TrainingJobを用いたモデル学習を行い,SageMaker Experimentsに蓄積された実験結果をS3に保存するまでの話 前回紹介したテックブログ「SageMak

                                                      SageMakerとStep Functionsを用いた機械学習パイプラインで構築した検閲システム(前編) - コネヒト開発者ブログ
                                                    • Bandai-Namco-Research-Motiondataset/README_Japanese.md at master · BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset

                                                      このリポジトリでは、株式会社バンダイナムコ研究所が収集したモーションキャプチャのデータセットを公開しています。 ゲームや映画といったメディアはリアルで表現力豊かなキャラクターアニメーション表現を追求しており、多様なスタイルのモーションをAIで生成することに長年の関心があります。コンテンツ制作の規模が大きくなるにつれ、モーションキャプチャなどの方法を使用した収録で多様なモーションを揃えられなくなる将来が予想されます。近年注目を集めているのは、特定のコンテンツを含むクリップ内のモーションを、同じコンテンツを維持しながら別のスタイルの別のモーションに変換することを目的としたモーションスタイル転送(Motion Style Transfer 以下、MST)です。モーションはコンテンツとスタイルで構成され、コンテンツはモーションのベースであり、スタイルはモーションに関連付けられたキャラクターの気分や

                                                        Bandai-Namco-Research-Motiondataset/README_Japanese.md at master · BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset
                                                      • SHAPで因果関係を説明できる? - Qiita

                                                        はじめに 予測モデル(機械学習モデル)を解釈するのに有用なSHAPを用いて因果関係を説明することができるか、についてPythonによるシミュレーションを交えてまとめました。内容に誤り等ございましたら、ご指摘いただけますと幸いです。 結論 基本的に、SHAPで因果関係は説明できません。これは、SHAPが予測モデルの因果ではなく相関を明らかにするものであるからです。 そこで今回は、予測モデルをSHAPで解釈する上でありがちなミスリーディングや、それに関連する因果効果を推定するためのアプローチについて記載しています。 そもそもSHAPとは SHAPとはSHapley Additive exPlanationsの略で、協力ゲーム理論のShapley Valueを機械学習に応用した手法です。「その予測モデルがなぜ、その予測値を算出しているか」を解釈するためのツールとしてオープンソースのライブラリが開

                                                          SHAPで因果関係を説明できる? - Qiita
                                                        • BERTの精度を向上させる手法10選 - Qiita

                                                          はじめに 自然言語処理タスクでBERTをfinetuningして使うことが当たり前になってきました。Kaggleなどのコンペや精度要件がきつい案件を行う場合に少しでも精度を向上させたいというシーンが増えてくると考えられます。そこで、精度向上手法をまとめます。タスクとしては分類タスクを想定しています。 文字数調整 学習済みのBERTに入力可能な単語数は最大512個です。そのため、512単語以上のテキストを使用する場合は特別な工夫が必要となります。ここの処理方法の変更が精度向上に寄与することが多いので要チェックです。 例として次のテキストから6単語取得することを考えます(句点も1単語とします) 吾輩 / は / 猫 / で / ある / 。 / 名前 / は / まだ / ない / 。 1. Head-Tail 吾輩 / は / 猫 / で / ある / 。 / 名前 / は / まだ / な

                                                            BERTの精度を向上させる手法10選 - Qiita
                                                          • 深層学習モデルの実装を爆速にするVSCodeの設定メモ - May the Neural Networks be with you

                                                            こんにちは。@shunk031です。 新型コロナウイルスが猛威を奮っていますね。 不要不急の外出は控えるのが大切そうです。 こういう時は引きこもって論文を読むのが一番です。 今回はコードエディタであるVSCodeで、深層学習モデルの実装を爆速にするための設定についてメモします。 深層学習モデルの実装をする際にはリモート上にあるGPUを搭載したサーバで実装をしたりデバッグすることが非常に多いです。 VSCodeはこうしたリモートでのコード編集およびデバッグを簡単に行える仕組みを多数揃えています。 本記事では、深層学習モデルの実装に頻繁に利用されるPythonを対象に、以下の観点からモデルの実装を爆速にする設定や機能について紹介します: Pythonの開発環境の構築 リモートのGPUサーバに接続するための設定 深層学習モデルの実装・デバッグを簡単にする機能 おすすめのショートカットキー・拡張機

                                                              深層学習モデルの実装を爆速にするVSCodeの設定メモ - May the Neural Networks be with you
                                                            • BigQueryのオンデマンドクエリの利用量にフタをする (上限を設ける) - G-gen Tech Blog

                                                              G-gen の杉村です。BigQuery のオンデマンドクエリの利用量にフタをする、つまりスキャンデータ量に上限を設けて突発課金を防止する工夫について紹介します。 はじめに 割り当て (Quota) の設定 Query usage per day 設定手順 割り当て画面へ遷移 対象の割り当てをフィルタ 編集ボタンをクリック 割り当てを設定 新しい割り当ての確認 動作確認 クエリのサイズ上限設定 クエリ単位での上限設定 設定手順 (コンソール) クエリ設定を開く 詳細オプションの設定 動作確認 設定手順 (bq コマンドライン) はじめに BigQuery の課金体系にはオンデマンドと Editions の2つから選択できます。前者はスキャンしたデータ量に応じた従量課金です。後者は確保するコンピュートリソースの量に応じた課金で、オートスケールの幅 (上限と下限) を設定できます。 Editi

                                                                BigQueryのオンデマンドクエリの利用量にフタをする (上限を設ける) - G-gen Tech Blog
                                                              • 元データを Python や SQL を使わずに機械学習モデルに変える | Google Cloud 公式ブログ

                                                                ※この投稿は米国時間 2020 年 4 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。 機械学習はかつては専門の研究者の領域で、ソリューションの構築には複雑なモデルや独自のコードが必要でした。しかし、Cloud AutoML によって機械学習はこれまでになく身近なものになりました。モデルの構築プロセスを自動化することで、ユーザーは最小限の機械学習の専門知識(しかも最小限の時間)で高性能のモデルを作成できます。 ただし、多くの AutoML チュートリアルや入門ガイドでは、適切に整理されたデータセットがすでに用意されていることを前提としています。とはいえ実際には、データを前処理して特徴量エンジニアリングを行うために必要な手順は、モデルの構築と同じくらい複雑になることもあります。この投稿では、実際の元データからトレーニングされたモデルに至るまでどのような道のり

                                                                  元データを Python や SQL を使わずに機械学習モデルに変える | Google Cloud 公式ブログ
                                                                • 最近の7B小型日本語LLMはエージェントになれるのか?

                                                                  あれから進化的マージの試行錯誤を繰り返していたが、ついに相当性能が高そうなモデルが生まれた。 Umievo-itr012-Gleipnir-7Bである。 umiyuki/Umievo-itr012-Gleipnir-7B · Hugging Face ElyzaTasks100の平均スコアは3.91に達して、ついにGPT-3.5Turboのスコア(3.88)を上回ってしまった。 ただし、スコアが上回ってるからと言って性能が勝ってるというわけではない事に注意して欲しい。例えるなら、身長が高いからと言って強いわけではないみたいな話である。 前回の記事では少し誤解を招く書き方だったかもしれないが、そもそも7Bの小型日本語LLMなんてのは基本的にドアホである。間違ってもChatGPTの代わりに使えるなんて考えてはいけない。 とは言うものの、単なるドアホではスコア3.91なんて取れないという事もまた

                                                                    最近の7B小型日本語LLMはエージェントになれるのか?
                                                                  • LangSmith で始める LLMOps - Gaudiy Tech Blog

                                                                    こんにちは。ファンと共に時代を進める、Web3スタートアップ Gaudiy の seya (@sekikazu01)と申します。 弊社では今 LLM をプロダクトに活用しているのですが、実際にユーザに提供するクオリティのものを作る・運用しようとすると様々な課題が立ちはだかってきました。 そんな数々の課題を解くために LangSmith というツールが活躍してくれた、また今後の活用・発展にもかなり期待ができるため、本記事ではそんな LangSmith について解説していきます。 LLM を使ったプロダクト開発において課題を感じている方々の参考になれば幸いです。 出てきた課題 まず LangSmith 自体の解説に入る前に、我々が直面した・ほぼ間違いなく今後するであろう課題たちをサラッとご紹介しようと思います。 大まかには次のような課題がありました。 プロンプトがアプリケーションコード内に書か

                                                                      LangSmith で始める LLMOps - Gaudiy Tech Blog
                                                                    • 協力ゲーム理論のシャープレイ値に基づき機械学習モデルの予測を解釈するKernel SHAPの理論と実装のまとめ - Fire Engine

                                                                      機械学習の幅広い分野への応用が進むにつれ,機械学習がその予測の根拠などを理解できない「ブラックボックス」となることが問題視されており,機械学習の解釈性や説明性が注目されています.今回のテーマであるSHAP(SHapley Additive exPlanations)は,機械学習モデルへの特定の入力に対する予測の根拠を提示する代表的な手法の一つです.SHAPには用途に応じていくつかのアルゴリズムがありますが,その中でも今回はあらゆる機械学習モデルに適用可能(Model-Agnostic)なKernel SHAPという手法についてまとめました. 構成としては,まずKernel SHAPとは何かについての概要を述べた後に, Kernel SHAPを理解する上で必要な要素である「シャープレイ値」と「SHAP」について説明します.さいごに,Kernel SHAPについて「理論」と「実装」に分けて書い

                                                                        協力ゲーム理論のシャープレイ値に基づき機械学習モデルの予測を解釈するKernel SHAPの理論と実装のまとめ - Fire Engine
                                                                      • Doing RAG? Vector search is *not* enough

                                                                        I'm concerned by the number of times I've heard, "oh, we can do RAG with retriever X, here's the vector search query." Yes, your retriever for a RAG flow should definitely support vector search, since that will let you find documents with similar semantics to a user's query, but vector search is not enough. Your retriever should support a full hybrid search, meaning that it can perform both a vect

                                                                          Doing RAG? Vector search is *not* enough
                                                                        • BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note

                                                                          電通デジタルで機械学習エンジニアをしている今井です。 本記事では、BigQueryで傾向スコア分析を行うための方法について紹介します。 広告効果ってあったの?広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン(例えば、購入金額や継続期間など)の差である、と言えます。 しかしながら、同一ユーザーにおいて、広告に接触した場合と接触していない場合とを同時に観測することはできません。 これを反実仮想(counterfactual)と呼びます。 そこで提案されたのが平均処置効果(average treatment effect, ATE)です。 広告に接触したユーザー群(𝑤=1)と接触していないユーザー群(𝑤=0)とのその後のコンバージョン(𝑦 )の差を広告効果とするものです。 ここで、介入(広告に接触する)の有無以外の条件が公平になるようにユーザー郡が分かれていれ

                                                                            BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note
                                                                          • How Netflix Scales its API with GraphQL Federation (Part 1)

                                                                            Netflix is known for its loosely coupled and highly scalable microservice architecture. Independent services allow for evolving at different paces and scaling independently. Yet they add complexity for use cases that span multiple services. Rather than exposing 100s of microservices to UI developers, Netflix offers a unified API aggregation layer at the edge. UI developers love the simplicity of w

                                                                              How Netflix Scales its API with GraphQL Federation (Part 1)
                                                                            • SVMを使った類似 embeddings 検索 - kNN ではない類似検索の選択肢 - A Day in the Life

                                                                              LangChain v0.0.141 に SVM Retriever という実装が入った。これは embeddings(集合)から、単一 embedding と類似しているもの top-K を SVM を使って見つけるという実装で、えっどうやってるの?と追っかけてみたら、知らない知識で面白かったのでメモ記事に。 kNN vs SVM この実装の元となった、knn_vs_svm.ipynbというnotebookがあって、冒頭を機械翻訳すると以下となる。 よくあるワークフローは、あるデータを埋め込みに基づいてインデックス化し、新しいクエリの埋め込みがあれば、k-Nearest Neighbor検索で最も類似した例を検索することです。例えば、大規模な論文コレクションをその抄録に基づいて埋め込み、興味のある新しい論文を与えると、その論文に最も類似した論文を検索することが想像できます。 私の経験では

                                                                              • BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ

                                                                                こんにちは、エンジニアリンググループ、データ基盤チームの木田です。 最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。 息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。 この記事は【データ基盤チーム ブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに 費用最適化のアプローチ クラスタ化テーブルとは クラスタ化テーブルの作成方法 実際に速く・安くなるのか 複合キーによるクラスタリング クラス

                                                                                  BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ
                                                                                • 代理モデルによる機械学習モデルの説明 - Qiita

                                                                                  はじめに 代理モデル (surrogate model) とは複雑な機械学習モデル(e.g., DNN, GBDT)を近似する簡単なモデル(e.g., パラメタ数の少ないDNN, 単純決定木, etc)のことを指します.代理モデルは推論の高速化・機械学習モデルの説明などさまざまな用途に使われています. この記事では代理モデルによる機械学習モデルの説明をハンズオン的に紹介します.これは非常にシンプルかつ柔軟な手法ですが,アドホックな部分が多いためかハンズオン的な解説は見当たりませんでした.Christoph Molnar による Interpretable Machine Learning の Global Surrogate に概要は示されているので機械学習に詳しい人はこちらを読めば十分かもしれません.関連するライブラリに LIME や TreeSurrogate がありますが,わたしがこ

                                                                                    代理モデルによる機械学習モデルの説明 - Qiita