並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 51件

新着順 人気順

教師データ テストデータの検索結果1 - 40 件 / 51件

  • JVNVU#99619336: 勾配降下法を使用する機械学習モデルに、誤った識別をさせるような入力を作成することが可能な問題

    勾配降下法を用いて学習させたモデルを用いた分類を行う場合に、任意の分類結果が得られるような入力を意図的に作成することが可能です。これは、Kumar et al. による攻撃分類では、perturbation attacks や adversarial examples in the physical domain に該当します。 攻撃対象のシステムに対して、攻撃者がデータの入力や出力の確認などを行うことができる余地が大きいほど、攻撃が成功する可能性は大きくなります。 また、学習プロセスに関する情報(教師データ、学習結果、学習モデル、テストデータなど)があれば、攻撃はより容易に行えるようになります。 現状では、数秒で攻撃できるものから何週間も必要になるものまで様々な事例が知られています。 本件はアルゴリズムの脆弱性であり、攻撃対象となるシステムにおいて機械学習の仕組みがどのように使われている

    • 【人類最難関の挑戦】サイゼリヤの間違い探しを現代技術を駆使し片面だけで解く(深層学習) - Qiita

      プロローグ ※この章は読み飛ばしても構いません 多くの人が挑むも解くことが叶わなかった人類史上の難問といわれるものがいくつかある. 数学界で最も有名な難問といえばおそらく「フェルマーの最終定理」であろう.弁護士であり数学者であったフェルマーが「解答を書くにはこの余白は狭すぎる」と書き残してこの世を去って以来,天才ワイルズが現代数学の成果を結集して証明を完成させるまで300年以上も数学者たちの挑戦を退け続けた.その他にも,京都大学の望月教授が宇宙際タイヒミュラー理論を用いて証明したといわれるABC予想や,7つのうち6つが現在も未解決であるミレニアム懸賞問題などはあまりにも有名である. 一方数学以外でも,例えば宇宙の始まりを巡る議論は多くの人を惹きつけてきた難問であり,アインシュタインやホーキングら天才たちの研究によって徐々にその姿が明らかになってきた.「我々はどこから来たのか,我々は何者か,

        【人類最難関の挑戦】サイゼリヤの間違い探しを現代技術を駆使し片面だけで解く(深層学習) - Qiita
      • 時系列データを前処理する際のPython逆引きメモ - EurekaMoments

        機械学習のための「前処理」入門 作者:足立悠リックテレコムAmazon 目的 データ分析の仕事をする中で最も扱う機会が多いのが 時系列データだと思います。その中で欠損値を扱ったり、 統計を取ったり、特徴量を作り出したりするのですが、 毎回やり方を忘れてググっているので、上記の書籍を読んで こういった前処理の方法をいつでも確認できるように メモしておこうと思います。 目次 目的 目次 日時のデータをdatetime型に変換する 最初の日時からの経過時間を計算する 各データの統計量を計算する 欠損値の確認と補完 経過時間の単位を変換する データフレーム結合する 基準日時からの経過時間を計算する 重複した行を削除する 特定のデータ列をインデックスにする 部分的時系列を抽出して統計量を計算する データフレームの各列をリストにして結合する 不均衡データから教師データを作成する データの読み込みと可視

          時系列データを前処理する際のPython逆引きメモ - EurekaMoments
        • DeepLearningの歴史、学習方法について (E資格対策) - Qiita

          まずディープラーニングがどのように発展していったのかお話しします。 第一次ニューラルネットワークブーム ある時、脳の神経細胞を仕組みを再現した人工ニューロンを作ります。 人工ニューロンとは上図のようなものを指します。 この複数の信号から1つの信号を出力するアルゴリズムをパーセプトロンと呼びます。 この人工ニューロンを2つ重ねるとが学習できるらしくブームが起こります。下図。 ですが世の中の多くを占めている非線形の問題が解けなく、ブームが終わります。 第二次ニューラルネットワークブーム 実は3層以上重ねるとどうやら非線形問題が解けることは知られていましたが、誰も実装まで手が付けられませんでした。 ところがある時、BackPropagationという方法が発見され、3層以上を重ねられました。 何層も重ねたものをニューラルネットワークと呼びます。 (アルゴリズムを多層パーセプトロンといいます。)

            DeepLearningの歴史、学習方法について (E資格対策) - Qiita
          • Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog

            こんにちは! 画像システムグループで機械学習エンジニアをやっている小島です。 この記事では、今ホットな「Zero-shot Learning」と「Vision & Language」に関する最新情報を、CLIPという研究を起点として網羅的にサーベイをしていきます。このために論文1000本に目を通し、70本程度を記事にしました。 Zero-shotやVision & Languageは、Stable Diffusionに代表される画像生成AIとも密接に関連している技術です。この記事を通して、Vision & Languageの奥深い世界を体感できるでしょう。 注意事項 この記事は非常に長いため、全部読むのに1時間以上かかる可能性があるので、休憩を取りながら、または必要な部分だけ読んでください。各セクションを個別に読んでも問題ありません。 また、文章中の画像は、特別な記載がない限り、引用元の論

              Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界 - エクサウィザーズ Engineer Blog
            • nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ

              事業開発部の @himkt です.好きなニューラルネットは BiLSTM-CRF です. 普段はクックパッドアプリのつくれぽ検索機能の開発チームで自然言語処理をしています. 本稿では,レシピテキストからの料理用語抽出システム nerman について紹介します. nerman の由来は ner (固有表現抽出 = Named Entity Recognition) + man (する太郎) です. クックパッドに投稿されたレシピから料理に関する用語を自動抽出するシステムであり,AllenNLP と Optuna を組み合わせて作られています. (コードについてすべてを説明するのは難しいため,実際のコードを簡略化している箇所があります) 料理用語の自動抽出 料理レシピには様々な料理用語が出現します. 食材や調理器具はもちろん,調理動作や食材の分量なども料理用語とみなせます. 「切る」という調理

                nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ
              • 【理論から実践まで】動かしながら学ぶ!ゼロからわかる再帰的ニューラルネットワーク(RNN) - LABOT 機械学習ブログ

                この記事では再帰的ニューラルネットワーク (RNN) について解説をします。RNN の理論的な説明から入り、Keras を用いて実際に RNN を動かしてみます。単純RNN (SimpleRNN), LSTM, 双方向RNN (bidirectional RNN), deep RNN を用いてモデリングをします。なおこの記事はGoogle Colaboratory で動かすことができ、実行しながら読むことをおすすめします。 ノートブックを開く 再帰的ニューラルネットワーク 再帰的ニューラルネットワーク(リカレントニューラルネットワーク、RNN))は系列データのモデルです。 各時刻 $t_1, t_2, \cdots,t_n$で$\vec{x_1}, \cdots, \vec{x_n}$が入力されたときベクトル$\vec{y_1}, \cdots, \vec{y_n}$ を予測するモデルです

                • 職務経歴書を構造化データに変換して分析する事例のご紹介 - Leverages データ戦略ブログ

                  ■人材紹介業におけるデータ入力・データ活用の課題 レバレジーズのデータ戦略室で室長をしている阪上です。今回はレバレジーズの運営する人材紹介系サービスにおけるデータ活用の課題について扱いたいと思います。 一般的に人材紹介業は、「企業での就業を目指す人材」と「人材を欲している企業」のマッチングを行っています。しかしながら、経済学におけるマッチング理論が扱うような、「各々の人材がつけた、行きたい企業ランキングTop100」、「各々の企業がつけた、欲しい人材ランキングTop100」などの顕示的な選好のデータはありません。 そこで、マッチングをうまく実現するためには選好データではなく、営業管理システムなどに蓄積されたデータを使う必要があります。人材も企業も納得した状態、すなわち、「内定の承諾という状態を生み出した人材と企業のペアのデータ」と、「内定の承諾に至らなかったペアのデータ」を分析することで、

                    職務経歴書を構造化データに変換して分析する事例のご紹介 - Leverages データ戦略ブログ
                  • オノマトペ(擬音語)から環境音を合成するニューラルネットワーク(Onoma-to-Wave)をPyTorchで実装した - 備忘録

                    はじめに 事前準備 ソースコード 実装の概要と動かし方 補助的に作成したモジュールの概要 おまけ:訓練済みモデルのリリース 環境音合成実験 音響イベントによる条件付けなし 音響イベントによる条件付けあり 実装の舞台裏とかTIPS おわりに 参考文献 はじめに 下記の雑誌論文が最近出版された。 Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori and Yoichi Yamashita, "Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words", APSIPA Transactions on Signal and Information Processing: Vol. 11: No.

                      オノマトペ(擬音語)から環境音を合成するニューラルネットワーク(Onoma-to-Wave)をPyTorchで実装した - 備忘録
                    • 機械学習のシステム開発の難しさを独断でまとめてみた - aptpod Tech Blog

                      aptpod Advent Calendar 2019 11日目 先日お菓子のデモの記事を投稿したキシダがまたお送りします。みなさま、ここ最近『機械学習』とか『AI』とか耳にすることが多くなってきていると思いますが、現実はどれくらいの導入率かご存知ですか? なんと、14〜15% (※1)らしいです。 意外に導入まで成功しているプロジェクトはまだ増えてきていません。 そこで、『機械学習プロジェクトって具体的にどういうふうにすすめるの?』とか『普通のシステム開発と違って何が難しいの?』という疑問の声に勝手にお答えして、完全な独断と偏見ですが、一般的な機械学習案件に対してよくある困った事例のご紹介とそれに対して私個人が意識していることをこちらにまとめてみようかと思います。 技術的なところではなく、案件における考え方や進め方的なところを中心に掘り下げてます。 ※この記事で出てくる事例は架空のもので

                        機械学習のシステム開発の難しさを独断でまとめてみた - aptpod Tech Blog
                      • コンピュータビジョン分野のトップカンファレンスであるECCV2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog

                        目次 目次 はじめに ECCV2022概要 Workshop Instance-Level Recognition Workshop Keynote talk: Image Search and Matching Kaggle Google Universal Image Embedding Challenge Keynote talk: Few-Shot Learning for Object Aware Visual Recognition Language Assisted Product Search Granularity aware Adaptation for Image Retrieval over Multiple Tasks Where in the World is this Image? Transformer-based Geo-localization in t

                          コンピュータビジョン分野のトップカンファレンスであるECCV2022からワークショップの模様を紹介(前編) - NTT Communications Engineers' Blog
                        • あなたはデータに対する「正しい技術」を選択できますか?〜数理モデリングによる現象理解に向き合うときの気持ち | gihyo.jp

                          あなたはデータに対する「正しい技術」を選択できますか?〜数理モデリングによる現象理解に向き合うときの気持ち はじめまして。株式会社博報堂の熊谷です。 筆者は広告会社の黒子として広告やマーケティング、メディアプランニングのためにどのようなデータをどのように収集するべきかを設計したり、収集したデータを用いて機械学習モデルを構築して施策を行ったりと、データ分析や機械学習にまつわる小さな相談から大きな意思決定に至るまでさまざまな業務に携わっています。 このたび『データ活用のための数理モデリング入門』(以降、本書)を共著者として執筆しました。本稿では本書の紹介を兼ねて「数理モデリングとは何か」についての筆者の思いを書きます。いわば、収録されなかった「前書き」です。 数理モデリングとは何か そもそもタイトルにある「数理モデリング」とは一体何でしょうか。本書の1章では 現象を理解するために立てる数理的な

                            あなたはデータに対する「正しい技術」を選択できますか?〜数理モデリングによる現象理解に向き合うときの気持ち | gihyo.jp
                          • 深層学習×集合マッチングによるコーディネート選択 - ZOZO TECH BLOG

                            ※AMP表示の場合、数式が正しく表示されません。数式を確認する場合は通常表示版をご覧ください ZOZO Researchの斎藤です。私たちはファッションコーディネートの推薦や生成の基礎として、深層集合マッチングという技術を研究しています。本記事では、深層集合マッチングを理解する上で必要な諸概念の説明と、ファッションデータを使った実験結果について紹介します。対象読者としては、機械学習系のエンジニアや学生を想定しています。 集合マッチングとは ある集合が与えられたとき、その集合にもっともマッチする集合を解の候補から選ぶという問題を考えます。 例えばコーディネートを画像集合として捉えると、あるコーディネートの一部分(部分コーデと呼びます)に対して合う部分コーデを選択するという問題設定を考えることができます。 図: ある部分コーデ(左)にマッチする部分コーデを候補(右)の中から1つ選ぶ このような

                              深層学習×集合マッチングによるコーディネート選択 - ZOZO TECH BLOG
                            • scikit-learn の機械学習パイプライン

                              はじめに 機械学習で予測モデルを作るときは データの分割 データの前処理 予測モデルの学習 クロスバリデーションによるハイパーパラメータチューニング といった手順を踏む必要がある。慣れるまではこれらの手順に対応する scikit-learn のクラスをひとつひとつ呼び出して自分で一連の処理をやってみるのが勉強になるが、慣れてしまうと似たような手続きを毎回書くのは非常に面倒くさい。 scikit-learn には、この一連の処理を簡潔に記述するためのパイプラインの仕組みがあるので、その使用方法について説明する。 一連のコードは Google Colab 上にアップロードしてある。 データの分割 これは人間が管理すべき問題なので、自動化もやろうと思えばできるだろうが、人間がいちいちやったほうがよい。機械学習をやるとき、データは基本的に 訓練データ 教師データともいう。予測モデルを学習させるため

                                scikit-learn の機械学習パイプライン
                              • EMNLP2019の気になった論文を紹介 - 株式会社ホクソエムのブログ

                                ホクソエムサポーターの白井です。 EMNLP-IJCNLP 2019 (以降 EMNLP) が先日、香港で開催されました。 EMNLPは Empirical Methods in Natural Language Processing の略称で、ACLやNAACLと並ぶ、計算機科学のTop conferenceと言われてます*1。 今年採択されたEMNLPの論文は682本 (+システム/デモ論文45本) です。 (年々増えています。) 今回は、EMNLP2019の論文から、いくつか気になったものを紹介します。 前回に引き続き、検証系の論文とデータ構築についての論文をメインに扱います。 以降、記載する図表は、明記しない限り、論文から引用しています。 1. ner and pos when nothing is capitalized 2. A Little Annotation does a

                                  EMNLP2019の気になった論文を紹介 - 株式会社ホクソエムのブログ
                                • 基盤モデルでAIルンバを動かす方法 - karaage. [からあげ]

                                  基盤モデル×Robotics Advent Calendar 2022の7日目の記事です。 基盤モデルとは 最近話題の基盤モデルとはなんのことか。要は大量のデータを学習したデカい凄いモデルのことです(乱暴)。詳細は基盤モデル×Robotics Advent Calendar 2022の1日目の以下記事を参照ください。 そのデカいモデルとロボットを組み合わせてうまいことやろうというのが基盤モデル×Robotics Advent Calendar 2022のテーマですが、当然基盤モデルを使ったロボット制御は、最先端の研究でなかなか簡単にできるものではありません。 そんな無茶を、実用性は置いておいてとりあえず動くところまで実機でやってみたので、事例として紹介したいと思います。 基盤モデルでAIルンバを動かす 今回は基盤モデルとして画像生成AIとして話題のStable Diffusionを使います

                                    基盤モデルでAIルンバを動かす方法 - karaage. [からあげ]
                                  • Kaggle NFLコンペ紹介(優勝ポエムを添えて) - Qiita

                                    KaggleのNFL Health & Safety - Helmet Assignmentというコンペで優勝したので調子に乗って、コンペの紹介とポエムを書かせていただくことにしました。 多種多様なアプローチがとれる楽しいコンペでしたので、そのお気持ちを少しでもお伝えできれば甚幸です 自己紹介 機械学習/プログラム歴はもうすぐ3年 巷に溢れるKaggle (Notebook) Expert 画像系コンペが好み。pandas力はゴミ。 パパ Kaggler。とてもかわいい息子と娘がいる。 2年前にポエムを書いて以来、久々のkaggleコンペになりました。この2年「メダルは取れないんじゃなくて取っていないだけww」とほざき続けてきた中でのコンペ参戦です。 コンペ紹介 [NFL Health & Safety - Helmet Assignment] コンペの趣旨 NFL(National Fo

                                      Kaggle NFLコンペ紹介(優勝ポエムを添えて) - Qiita
                                    • 【超初心者向け】コピペで動かして楽しむPython環境構築&スクレイピング&機械学習&実用化【SUUMOでお得賃貸物件を探そう!】 - Qiita

                                      で大丈夫です。 これで環境構築は終わりです。 お手軽すぎる...! 適当にデスクトップにフォルダを作成してそこでnotebookを作成しましょう。 スクレイピング編 さて、そもそも「スクレイピング」とはなんでしょうか? wikipediaさんによると ウェブスクレイピングはWWWから自動的に情報を収集する処理に他ならない。 つまり「インターネットから情報を自動で収集する」、ということですね。(そのまんますぎる) 今回の分析では、何千、場合によっては何万といった賃貸物件のデータを利用するわけですが、1つの物件に対して ・物件名 ・家賃 ・広さ ・間取り ・立地(最寄り駅、最寄り駅までの距離、詳細な住所) etc... これを手動でExcelに何千回、何万回と打ち込んでいく...、考えただけでもいやになりますよね。 そこでプログラミングで一気にデータを集めます。 ここで一つ大事な注意があります

                                        【超初心者向け】コピペで動かして楽しむPython環境構築&スクレイピング&機械学習&実用化【SUUMOでお得賃貸物件を探そう!】 - Qiita
                                      • GCP AutoML Vision で鍵かけ忘れを防ぐ仕組みを作る - kurainの壺

                                        slack にカギの開閉が通知される様子 玄関ドアのカギが開いた時、閉じたときに slack に通知が来る仕組みを作りました。今のところうまく運用できていて、外出後にカギが不安になって玄関まで戻ってくることがなくなりQoLがあがった感があります。 この仕組はドアの画像から閉じたサムターンを検出することで実現しています。Raspbeery Pi 3 で毎秒1画像くらいの処理ができるので、カギの通知としては問題ないレイテンシーです。 物体識別を可視化してみる 肝となる画像認識部分は GCP の AutoML Vision で学習させています。画像10枚で実用的な精度が出るDNNモデルが取得できる手軽さはなかなかすごいものがあります。 もちろんこんな簡単な画像認識なら、OpenCV を使ってテンプレートマッチングでも良いのでは? と思う向きもあるでしょう。実際その手法も試していて、頑張ってチュー

                                          GCP AutoML Vision で鍵かけ忘れを防ぐ仕組みを作る - kurainの壺
                                        • Kaggle のデータ分析コンペ Shopee - Price Match Guarantee で『10位 / 2,426チーム』を獲得しました | MoT Lab (GO Inc. Engineering Blog)

                                          初めまして。MoTのAI技術開発部アルゴリズム第一グループの島越 [1]です。本ブログでは、私が最近ソロで10位を獲得したKaggleのコンペティション「Shopee - Price Match Guarantee」で行った取り組みについてと上位の手法について紹介したいと思います。なお、本記事で使用している画像は特に断りがない限り、上記コンペの画像を使用しております。 1. 本コンペについて まず、今回のコンペがどのようなタスクを解く問題だったのかについてご紹介します。このコンペは、東南アジア最大級のECプラットフォームであるShopeeが開催したもので、データとしてはユーザが登録した商品画像と商品のタイトルが与えられます。また、ラベルとしてはユーザが登録した商品の種別が与えられています。このラベルは、ユーザが登録したものなので、ノイズが多く載っているものになっており、同じ画像や同じタイト

                                            Kaggle のデータ分析コンペ Shopee - Price Match Guarantee で『10位 / 2,426チーム』を獲得しました | MoT Lab (GO Inc. Engineering Blog)
                                          • 公平な機械学習モデルの構築(Threshold Optimizer) - Qiita

                                            はじめに 公平な機械学習モデルを構築する手法を検証します。 Jupyter Notebookは下記にあります。 概要 公平性指標としてEqualized Oddsを使用します。 Threshold Optimizerを用いて、公平な機械学習モデルを構築します。 公平性指標 Equalized Odds 今回考える公平性指標は、性別や人種などの各グループが公平に扱われているか(group fairness)を評価するために用いられます。 Equalized Oddsは、positiveとnegativeの2クラス分類において、positiveと判定される確率に着目した指標です。 具体的には、正しくpositiveと判定される確率(true positive rate)と、誤ってpositiveと判定される確率(false positive rate)がグループによらず等しいかを評価します。

                                              公平な機械学習モデルの構築(Threshold Optimizer) - Qiita
                                            • Neural Tangentsによる無限幅深層ニューラルネットワークの構築とベイズ推論

                                              要点¶Neural TangentsはGoogle AIが開発したJAXのラッパーライブラリです。無限幅 (中間層のユニット数$\to \infty$)のニューラルネットワーク (以後, NN: neural networks)を高速かつ簡単に構築及び学習させることを目的としています。 Neural Tangentsでは無限幅のNNを学習させる手法としてNNGP (Neural Network Gaussian Process)と NTK (Neural Tangent Kernel)の2つを実装しています。 この記事ではNNGPとNTKの要点を紹介し、Neural Tangentsを用いた実装について紹介していきます。 Neural-Tangentsに関連する文献¶ Paper : https://arxiv.org/abs/1912.02803 OpenReview : https:/

                                              • Kaggleランカーの9人に聞いた、2022年面白かったコンペ7選と論文7選 | 宙畑

                                                そして本年も9名のKagglerの方にアンケートにご協力いただき、2022年に面白かったコンペと論文を教えていただきましたのでその結果を紹介します。 (1)回答いただいたKaggler9名のご紹介 まずは今回のアンケートに回答いただいたのは以下9名のKagglerの方です。 杏仁まぜそば YujiAriyasu カレーちゃん shinmura0 俺人〜Oregin〜 Hiroki Yamamoto SiNpcw ころんびあ regonn_haizine ※Twitterアカウント、アルファベット順 業務でのデータ解析分野 普段業務で利用しているデータ解析分野は、以下の通りです。今年は画像解析業務の方が多くいました。 過去に参加したことがあるコンペ・コンペに参加する理由 過去に参加したことがあるコンペは以下の通りです。やはりKaggleが最も多く、次いでProbSpace、Nishikaとい

                                                  Kaggleランカーの9人に聞いた、2022年面白かったコンペ7選と論文7選 | 宙畑
                                                • Create MLとCore MLを使って、カメラに写った人が嵐のメンバーの誰かをリアルタイムで判定する - Qiita

                                                  Create MLとCore MLを使って、カメラに写った人が嵐のメンバーの誰かをリアルタイムで判定するXcodeiOS機械学習coreMLCreateML この記事は iOS#2 Advent Calendar 2019 15日目の記事です。 初めて Advent Calendar に参加するので若干の緊張があります笑 よろしくお願いします!※Qiita界隈に愛嬌を振りまいていくスタンス 今回は、「Create MLとCore MLを使って、カメラに写った人が嵐のメンバーの誰かをリアルタイムで判定する」という題でやっていきます。Core MLに興味ある方は、私の他にも @cthxn77r さんや @takashico さんが今年のアドベントカレンダーに投稿されていましたので、そちらもどうぞ!※Qiita界隈に"全力で"愛嬌を振りまいていくスタンス Appleの機械学習がヤバい Swift

                                                    Create MLとCore MLを使って、カメラに写った人が嵐のメンバーの誰かをリアルタイムで判定する - Qiita
                                                  • 論文の分類をするモデルを作ろうとしてみる〜教師データ作成編〜

                                                    こんにちは!逆瀬川 ( https://twitter.com/gyakuse ) です。 今日はGPT-3.5を使って論文を自動分類するモデルのための教師データを作ってみました。 これから文章分類とかやってみたいな〜って人の参考になれば嬉しいです。 まだまだ勉強中なので、おかしなところとかあるかもしれませんが、もしそういうところあったらぜひ指摘してください! 前段 arXivに投稿されるCS論文は多い月で8000本程度あります。これを全部チェックしようとするとものすごく時間がかかってしまいます。そのため、自動的にAbstractを要約して、Discordの各カテゴリ速報チャンネルに投稿しようと思いました。 全体構成としては、以下のような構造になっていると論文読みが捗りそうです(なお、オープンで無償のサービスであっても、論文のライセンスに気をつける必要があります)。 自動要約・自動翻訳の仕

                                                      論文の分類をするモデルを作ろうとしてみる〜教師データ作成編〜
                                                    • BASEアプリのリコメンドにGraph Neural Networkを導入するよ(予定) - BASEプロダクトチームブログ

                                                      この記事はBASE Advent Calendar 2020の21日目の記事です。 はじめに お久しぶりです。BASEビール部部長(兼Data Strategyチーム)のbokenekoです。 今年はほんと辛い1年でしたね。コロナで全くビール部の活動ができませんでした。 その反動で通販でクラフトビール買いまくって冷蔵庫が溢れました。定期便の利用は計画的に。 と、まあそんな私生活はおいておいて、今日はData Strategyチームでのリコメンドにおける取り組みについてお話しします。 BASEでは、ネットショップ作成サービス「BASE」で開設された130万のショップが集まる購入者向けのショッピングアプリ「BASE」を提供しています。アプリでは商品やショップのおすすめを表示していますが、ここに使われているリコメンドのアルゴリズムは実は複数アルゴリズムの組み合わせになっています。例えば協調フィル

                                                        BASEアプリのリコメンドにGraph Neural Networkを導入するよ(予定) - BASEプロダクトチームブログ
                                                      • CyberAgentのアドテクインターンに行ってきた話をするよ - kitchen_pyの日記

                                                        ぱじめまして。 先日、CyberAgentが主催するアドテクインターンに行って参りました。 学ぶことが本当に多いインターンで、自分の考えをまとめてそれに対して他の人からのフィードバックを貰いたいという思いが積もったために一筆したためました。 書き終えてみれば文字数も1万字を超えており、そこでふと振り返ってみる自分の頭に浮かび上がる1つのワードがありました。 今日はこれを是非みなさんに伝えたいと思います。 それでは聞いてください。 一万字越えててマジ万字 アドテクインターンis何 アドテクっていうのは広告に関するテクノロジーのことです。 \AI事業本部の19新卒主体で運営をしているアドテクコンペ(短期インターン)開催中です!/ 早速、AI事業本部の大島より広告/アドテクノロジーについての説明がはじまりました!☺️ 昨日の前日懇親会も盛り上がり参加学生もやる気全開です💪! ▼アドテクコンペと

                                                          CyberAgentのアドテクインターンに行ってきた話をするよ - kitchen_pyの日記
                                                        • 量子自然言語処理〜量子回路で文章を理解する〜 - GMOインターネットグループ グループ研究開発本部

                                                          こんにんちは、次世代システム研究室のT.I.です。 前回のBlogでは、現在実用化されている量子コンピュータ(NISQデバイス)の機械学習への応用を紹介しました。今回も引き続き量子コンピュータの話題として、量子計算に基づいた自然言語処理(参考文献 [1-5]) について解説したいと思います。 TL;DR 最近、量子コンピュータを用いた自然言語処理の実証実験がCambridge Quantum Computing (CQC) によってなされました。 この量子自然言語処理のモデル(DisCoCat)では、文章を単語のネットワークに書き換えて、それを量子回路に変換し実行します。その出力結果を文章の真偽として、教師データを元に量子回路のパラメータを学習させます。その結果、簡単な推論タスク(ex. Alice is rich. & Alice loves Bob. ⇒ Is Alice who lo

                                                            量子自然言語処理〜量子回路で文章を理解する〜 - GMOインターネットグループ グループ研究開発本部
                                                          • 【PyTorch】MNISTのサンプルを動かしてみた

                                                            今まではTensorFlowバックエンドのKerasでディープラーニングをやっていましたが,そろそろKerasを卒業したいなと思いまして,PyTorchを少し触ってみました。 PyTorchにした理由は, 実行速度が速い ユーザが多い Define by Run 論文の実装がPyTorchの場合が多い(重要) といったようなところです。 まずはMNISTでやってみる Kerasでは2種類ほど過去にディープラーニングの実装はやってみました。 【Keras+TensorFlow】Deep Learningで顔検出をしてみた 【Keras+TensorFlow】Deep Learningでテロップ位置を検出してみた このときに自前(といってもオープンデータですが)を用意して実装したので,この2つをPyTorchに書き換えてもいいかなーとも思ったのですが,とりあえずはサンプル通りにということでMI

                                                              【PyTorch】MNISTのサンプルを動かしてみた
                                                            • 現場で潰しが効くディープラーニング講座 修了レポート1 - Qiita

                                                              修了課題レポート1 現場で潰しが効くディープラーニング講座の修了レポートです。 応用数学 線形代数学 要点 行列とはスカラー・ベクトルの集まりである。 行列を用いて連立方程式を機械的に解くことができる。 行列同士の積はl行m列の行列$\mathbb{A}$とm行n列の行列$\mathbb{B}$とでしか演算できない。 $\mathbb{A} \times \mathbb{B}$でできあがる行列$\mathbb{C}$はl行n列の行列になる。 行列$\mathbb{A}$に対する逆数のような存在として 逆行列 $\mathbb{A}^{-1}$がある。 対角のすべての要素が1でその他の要素が0な行列を 単位行列 $\mathbb{I}$と呼び、下記のような性質を持つ。 $$ \mathbb{A}^{-1}\mathbb{A} = \mathbb{A}\mathbb{A}^{-1} = \ma

                                                                現場で潰しが効くディープラーニング講座 修了レポート1 - Qiita
                                                              • 第3章 機械学習(教師あり学習)

                                                                - 37 - 第 3 章 機械学習(教師あり学習) 教師あり学習にはどのような手法があって、どんな課題解決に役立てられているのでしょうか。この章では、 実践例とともに、手法の種類とそのアルゴリズムについて学んでいきます。 教師あり学習の基本的な手法と実践例を理解する - 38 - 教師あり学習とは 教師あり学習とは、既知となった過去の入力データと出力データを機械学習アルゴリズムにあらかじめ与える ことで、それらを「正解データ」として計算する機械学習の手法です。 例えば、大量の動物の画像データが存在した時に、「これは“ネコ”」「これは“イヌ”」・・・といったようにあらかじ めラベリングをしておきます。十分な正解データを用意し、それらを教師(正解)として機械学習を行います。未 学習の画像を読み込ませた場合にも、正解の中から一致するデータを見つけ出し、“ネコ”か“イヌ”を判定するこ とができます

                                                                • Kaggleで学んだBERTをfine-tuningする際のTips⑤〜ラベルなしデータ活用編〜 | 株式会社AI Shift

                                                                  こんにちは!AIチームの戸田です! 本記事では私がKaggleのコンペティションに参加して得た、Transformerをベースとした事前学習モデルのfine-tuningのTipsを共有させていただきます。 以前も何件か同じテーマで記事を書かせていただきました。 Kaggleで学んだBERTをfine-tuningする際のTips①〜学習効率化編 Kaggleで学んだBERTをfine-tuningする際のTips②〜精度改善編〜 Kaggleで学んだBERTをfine-tuningする際のTips③〜過学習抑制編〜 Kaggleで学んだBERTをfine-tuningする際のTips④〜Adversarial Training編〜 今回はラベルなしデータの活用について書かせていただきます。 世の中の様々な問題を、蓄積された大量のデータを使った教師あり学習で解こうとする試みは多くなされてい

                                                                    Kaggleで学んだBERTをfine-tuningする際のTips⑤〜ラベルなしデータ活用編〜 | 株式会社AI Shift
                                                                  • 人工知能学会(JSAI2023@熊本)に参加しました - アダコテック技術ブログ

                                                                    人工知能学会全国大会2023 エントランス こんにちは! アダコテックでAIエンジニアをしている酒井 です。 今回の記事は、6/6〜6/9 にかけて開催された人工知能学会全国大会2023*1の参加報告となります。 今年の人工知能学会は、数年ぶりの現地開催でした。 現地会場は熊本城ホールで、熊本空港からバスに乗って30分ほどの場所にありました。アダコテックからは酒井、伊藤、大曽根、村井、永井の5名が現地で参加しました。 アダコテックでの普段の僕の開発業務では異常検知(画像処理)がメインなのですが、人工知能学会では画像処理系だけでなく、動画系、言語メディア系、時系列系など多岐にわたり、基礎研究だけでなく産業・医療・金融・ゲームAIなどの多種多様な応用分野の発表がありました。普段は触れる機会が少ない技術にたくさん巡り合うことができ、大変刺激的な体験となりました。以下に各参加者が気になった発表をい

                                                                      人工知能学会(JSAI2023@熊本)に参加しました - アダコテック技術ブログ
                                                                    • [初心者向け] はじめてのSageMaker みんな大好きアイリスデータを使って組み込みアルゴリズムで分類してみる | DevelopersIO

                                                                      はじめに おはようございます、もきゅりんです。 最近は個人的な取り組みの一環として、機械学習の学習に取り組み始めました。 さて、AWSで機械学習に取りかかるならば、Amazon SageMaker。 まずは、組み込みアルゴリズムのLinearLearner。 そんなオレは、ML beginner。 (LinearLearnerが何だ?という話は、ドキュメントを確認して欲しいのですが、ターゲットの分類や予測したい数値を推定するために使用される、教師あり学習アルゴリズムです。) 初めてのデータセットは、みんな大好きな Iris でやってみます。 作業の流れは、完全に下記の通りで進めます。 Amazon SageMaker のコンソールの開始方法 なお、自分は専門的なデータサイエンティストでも何でもないので、無駄、非効率な作業を行っているかもしれない点、ご了承下さい。 前提 IAM権限を設定・更

                                                                        [初心者向け] はじめてのSageMaker みんな大好きアイリスデータを使って組み込みアルゴリズムで分類してみる | DevelopersIO
                                                                      • 【日本語モデル付き】2022年にマルチモーダル処理をする人にお勧めしたい事前学習済みモデル - Qiita

                                                                        要点 OpenAI CLIPの日本語モデルを作り、公開しました。ご活用ください。 CLIPとは画像とテキストの埋め込みモデル(意味を表す固定長のベクトルに変換するモデル)であり、意味が近い画像とテキスト同士が近いベクトルになるという性質を持っています。4億枚の多様な画像とテキストのペアを用いて学習されており、高いゼロショット性能を備えています。 応用例:テキストによる画像の検索、類似画像検索、画像 and/or テキストの分類、クラスタリング、画像やテキストの特徴量生成など 日本語CLIPモデルはHugging Face Model Hubからダウンロードできます。 応用方法を理解するためのサンプルコードとその解説を、4つの記事にして順次公開する予定です。進捗状況: 1/4。 日本語CLIPモデルの使い方、サンプルコード(鋭意作成中) 長くなるので使い方の解説は別の記事にしました。 すぐに

                                                                          【日本語モデル付き】2022年にマルチモーダル処理をする人にお勧めしたい事前学習済みモデル - Qiita
                                                                        • 判例の個人情報の自動マスキング コンペ振り返り|Nishika株式会社

                                                                          こんにちは。Nishika CTOの松田です。 先日終了した「判例の個人情報の自動マスキング」コンペについて、振り返りたいと思います。 今回の振り返りでは少し趣向を変えて、コンペ開催に至る背景や上位ソリューションのご紹介とともに、他にあまり例がないと思われる 個人情報に関する固有表現抽出のデータセット作り の過程についてもご紹介します。 尚、本コンペは、述べ228名の方にご参加いただきました。 改めて感謝申し上げます。 本記事の要点 - 裁判の判例文中にある個人情報(人名、組織名、地名など)を、 自動で抽出する機械学習モデルを構築するコンペティション - 約200の判例文に30000弱の個人情報へのラベルが付られたデータセットを作成し、教師データとした - 1位のソリューションは91.4%の精度で抽出可能。 特に人名は94.5%、組織名・施設名は81.4%の高精度で抽出可能なモデルが構築で

                                                                            判例の個人情報の自動マスキング コンペ振り返り|Nishika株式会社
                                                                          • セーフィーで画像認識コンペを行いました - Qiita

                                                                            はじめに こんにちは。 セーフィー株式会社で画像認識エンジニアをしている柏木です。 こちらはセーフィー株式会社アドベントカレンダーの17日目の記事になります! 今回セーフィー社内で画像認識のコンペを行いました。 その内容についてまとめて紹介します! 事の発端 セーフィーでは現在開発中の解析プラットフォームというシステムがあります。作成したAIモデルをセーフィーのクラウド上で動作させ、カメラの映像を解析することができるサービスです。詳細はこちらの記事で紹介しているのでご覧ください。 解析プラットフォームを主に開発しているメンバーは、セーフィーのサーバーエンジニアになります。そのサーバーエンジニアから実際に自分たちでAIモデルを作成し、解析プラットフォーム上で動作させてみたいとのお話がありました。 そこで、画像認識エンジニアも協力しつつ、サーバーエンジニアの方々にモデルを開発してもらい、コンペ

                                                                              セーフィーで画像認識コンペを行いました - Qiita
                                                                            • 異常検知とは?AI・機械学習手法や活用事例を紹介

                                                                              AI・人工知能の技術が進歩したことにより、近年は多くの企業が業務にAIを導入するなどして、商品やサービスの向上を図っている状況です。特にAIは大量のデータを分析し、予測することを得意としているため、そのような業務をすべてAIに置き換えている企業も決して少なくありません。 そんな、大量のデータを扱う現代だからこそ、データの異常を検出する技術にも注目が集まっています。扱うデータの量が増えていけば、当然その中に異常なデータが含まれる可能性も増していくからです。今回は、そんな異常データの検出を行う「異常検知」について詳しくご紹介していきますので、ぜひ参考にしてみてください。 AIソリューションについて詳しく知りたい方は以下の記事もご覧ください。 AIソリューションの種類と事例を一覧に比較・紹介! 異常検知とは 異常検知とは、大量のデータから通常とは異なるもの(異常)を検出することをいいます。大量の

                                                                                異常検知とは?AI・機械学習手法や活用事例を紹介
                                                                              • Causal Treeはどうやって個別の因果効果を推定しているのかを整理(しきれなかった) - 名前はまだない

                                                                                はじめに ここ最近で機械学習と因果推論の融合が有名になってきました。 その中で、決定木(回帰木)のアルゴリズムを用いて条件付き処置効果(CATE)を推定するCausal Treeという手法の話がでてきています。 しかし、概要を聞いても何をしているのかよくわからないので、Causal Treeの提案者であるS.Atheyが書いた論文を読みました。 arxiv.org Causal Treeでどのように条件付き処置効果(CATE)を推定しているのかまとめてみました。 といっても個人的なメモに過ぎません(免責事項)。 いつも通り、少しずつ修正を加えていきます。 正直これらのスライドの方が簡潔でわかりやすいです。 私も参考にさせていただきました。 計量経済学と 機械学習の交差点入り口 (公開用) 勉強会準備資料備忘:causal forest & r-learner - Speaker Deck

                                                                                  Causal Treeはどうやって個別の因果効果を推定しているのかを整理(しきれなかった) - 名前はまだない
                                                                                • 公平な機械学習モデルの構築(Correlation Remover) - Qiita

                                                                                  はじめに 公平な機械学習モデルを構築する手法を検証します。 Jupyter Notebookは下記にあります。 概要 公平性指標としてEqualized Oddsを使用します。 Correlation Removerを用いて、公平な機械学習モデルを構築します。 公平性指標 Equalized Odds 今回考える公平性指標は、性別や人種などの各グループが公平に扱われているか(group fairness)を評価するために用いられます。 Equalized Oddsは、positiveとnegativeの2クラス分類において、positiveと判定される確率に着目した指標です。 具体的には、正しくpositiveと判定される確率(true positive rate)と、誤ってpositiveと判定される確率(false positive rate)がグループによらず等しいかを評価します。

                                                                                    公平な機械学習モデルの構築(Correlation Remover) - Qiita