並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 201件

新着順 人気順

k-meansの検索結果1 - 40 件 / 201件

  • アルゴリズムの世界地図 - Qiita

    0. アルゴリズムとは? まず、アルゴリズムとは何かを説明します。(0 節の説明はスライド「50 分で学ぶアルゴリズム」 の説明を参考にして書きました) さて、次の問題を考えてみましょう。 問題: 1 + 2 + 3 + … + 100 の値を計算してください。 単純な方法として、式の通りに 1 つずつ足していく方法が考えられます。すると、以下の図のように答えが計算されることになります。 これで答え 5050 が正しく求まりました。これはれっきとした アルゴリズム であり、この問題を 99 回の足し算 で解いています。しかし、計算回数が多く、計算に時間がかかるのではないかと思った方もいると思います。 ここで、方法を変えて、「1 + 100」「2 + 99」「3 + 98」…「50 + 51」の合計を求めることで、1 + 2 + 3 + … + 100 の値を計算してみましょう。 50 個の

      アルゴリズムの世界地図 - Qiita
    • 30分で完全理解するTransformerの世界

      はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

        30分で完全理解するTransformerの世界
      • 後編 プログラミングを学ぼうと思い立つ 行列はVBAなんかじゃ無理っぽいし、..

        後編 プログラミングを学ぼうと思い立つ行列はVBAなんかじゃ無理っぽいし、なんかプログラミング言語を覚えようと決める。 なんでも、統計やるならRという言語がいいらしい。 最近じゃPythonというのも人気らしい。 とりあえず両方試そうということで、RのためにRとRstudioをインストール。 Pythonはanaconda プログラミングはなんかを製作する目標がないと挫折すると聞いていたので。 深層学習というものが流行ってると聞いて、ちょっと触りを勉強したくなる。 「Excelでわかるディープラーニング超入門」 https://www.amazon.co.jp/Excel%E3%81%A7%E3%82%8F%E3%81%8B%E3%82%8B%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3

          後編 プログラミングを学ぼうと思い立つ 行列はVBAなんかじゃ無理っぽいし、..
        • 統計検定準1級 合格体験記 - Qiita

          はじめに 統計検定準1級は(一財)統計質保証推進協会が実施、(一社)日本統計学会が公式認定する「2級までの基礎知識をもとに、実社会の様々な問題に対して適切な統計学の諸手法を応用できる能力を問う」試験です。現在はCBTでの実施となっています。 主観を込めて言いますと、2級と準1級では難易度に雲泥の差があります。 強調して言っておきます。まったく違います! 準1級では統計的推定や検定に加えて、多変量解析(重回帰、PCA、主成分分析、数量化)、時系列解析、マルコフ連鎖、確率過程、分散分析、ベイズ統計、MCMC...と範囲が広いのが特徴です。 以下、かなりの長文になりましたが、受験して得た知見をかなり具体的に記述しました。読者の皆様の合格への一助となれば幸いです。 目的 私はとある私立中高で物理と情報を教えています。統計の勉強を始めたのは、教科「情報」を教えるにあたってのスキルアップが目的です。も

            統計検定準1級 合格体験記 - Qiita
          • AI・Python活用レシピ100選 - Qiita

            ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

              AI・Python活用レシピ100選 - Qiita
            • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

              (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

                データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
              • クックパッドマートの配送ルートを自動生成している仕組み - クックパッド開発者ブログ

                こんにちは、クックパッドマート流通基盤アプリケーション開発グループのオサ(@s_osa_)です。 生鮮食品の EC サービスであるクックパッドマートでは、「1品から送料無料」をはじめとするサービスの特徴を実現するために、商品の流通網を自分たちでつくっています。 このエントリでは、商品をユーザーに届けるための配送ルートを自動生成している仕組みについて紹介します。 解決したい問題 配送ルートとは クックパッドマートにはいくつかの流通方法がありますが、ここでは「ステーション便」と呼ばれるものについて解説します。他の流通方法などを含む全体像が気になる方は以下のエントリがオススメです。 クックパッド生鮮 EC お届けの裏側 2022 年版 - クックパッド開発者ブログ ステーション便では、ハブと呼ばれる流通拠点からユーザーが商品を受け取りに行く場所であるステーションへと商品を運びます。東京都、神奈川

                  クックパッドマートの配送ルートを自動生成している仕組み - クックパッド開発者ブログ
                • 『マスターアルゴリズム』は全ての人々を機械学習(人工知能)の世界へといざなう「冒険物語」 - 渋谷駅前で働くデータサイエンティストのブログ

                  しましま先生(@shima__shima)こと神嶌敏弘先生から、訳書『マスターアルゴリズム』をご恵贈いただきました。 マスターアルゴリズム 世界を再構築する「究極の機械学習」 作者:ペドロ・ドミンゴス講談社Amazon 本書はビル・ゲイツが「AIを知るための本」と絶賛したという"The Master Algorithm"の邦訳版で、実際に「難しい理論や数式は書かれていないがこの一冊を読むだけで現代の機械学習(人工知能)の世界の全容を一望できる」優れた本だと個人的には感じました。また縦書き本ゆえいわば「読み物」的な立ち位置の書籍であり、研究者や技術者のみならずビジネスパーソンさらには一般の読書家にとっても読みやすく、尚且つ得るものの大きい一冊だと思います。 ということで、以下簡単にレビューしていきたいと思います。なお実は僕自身もしましま先生から発刊前の段階で翻訳内容の閲読を依頼されて一通り目

                    『マスターアルゴリズム』は全ての人々を機械学習(人工知能)の世界へといざなう「冒険物語」 - 渋谷駅前で働くデータサイエンティストのブログ
                  • 「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ

                    最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。 要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。 とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後

                      「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
                    • 機械学習概論~ディープラーニングGAN、本格的に学べる全20時間の大学講義が無償公開

                      機械学習概論~ディープラーニングGAN、本格的に学べる全20時間の大学講義が無償公開:AI・機械学習の独学リソース 機械学習概論、単回帰、重回帰から、k-means、主成分分析、ニュートラルネットワーク、CNN/RNN/GANまで、全20回の講義概要と目次を紹介。本稿独自に考察した、難易度や前提知識、お勧めの学習方法、注意点についても示す。

                        機械学習概論~ディープラーニングGAN、本格的に学べる全20時間の大学講義が無償公開
                      • 28歳、一念発起して未経験からデータサイエンティストを志した2年間の軌跡 - Qiita

                        はじめに 経済産業省の試算によるとAIやビッグデータといったデータサイエンティストが関わる分野では2020年に4.8万人が不足すると言われています。 まだまだ、世の中的に需要があり、将来性のある職業ですので、これから目指そうと思われている方も少なくないのではないでしょうか。 私も時代の流れに乗って、データサイエンティストを目指した人の一人です。 「一念発揮して未経験からデータサイエンティストを目指した普通の社会人が、2年後どのような姿になったのか?」 ということに、少しでも興味のある方に読んで頂けましたら幸いです。 そもそもデータサイエンティストとは データサイエンティストは大きく分けて2種類あると考えています。 企業の課題解決のために大規模データを分析し、その結果をもとに状況の改善をすべく施策立案を行うデータアナリスト・コンサルタント寄りのDS サービスに機械学習を用いた機能を実装したり

                          28歳、一念発起して未経験からデータサイエンティストを志した2年間の軌跡 - Qiita
                        • K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ

                          クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。 で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。 タイトルを読んで字の如く「K-meansのクラスタ数を決めるのにエルボー法を使うのはやめろ」という論文なんですね。全体で7ページと非常にコンパクトで読みやすい内容なので、簡単にまとめて紹介してみようと思います。なおいつもながらですが、僕の技術的理解が不足しているが故の誤りなどが混じる可能性がありますので、その際はコメント欄などでご指摘くださると幸いです。 あるtoy dataに対するK-meansの結果 目検に頼らないエルボー法について考える ならば、既存のクラスタ数決定法の中では何を選ぶべきか そもそもK-meansが有効でないケースもあるこ

                            K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ
                          • 【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita

                            AI Academy Bootcamp 6ヶ月35,000円にてチャットで質問し放題の環境で、機械学習やデータ分析が学べるサービスを提供しております。 数十名在籍しているデータサイエンティストや機械学習エンジニアに質問し放題の環境でデータ分析、統計、機械学習、SQL等が学べます。AI人材に必要なスキルを効率よく体系的に身に付けたい方は是非ご検討ください! https://aiacademy.jp/bootcamp この記事の対象者 ・将来Pythonでデータ解析をしたいと考えているが、何から手をつけたら良いか知りたい方 ・将来、人工知能に関連した業務に携わりたいと検討中の初学者の方 ・未経験者からAIエンジニアになりたく、そのためにどのような知識が必要か知りたい方 ・AIプログラミングスクールや専門学校に進学しようか考えているが、独学で勉強できる方法を知りたいという方 対象ではない方 ・既

                              【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita
                            • 【無料】データサイエンス入門:機械学習編全35回まとめと目次

                              こんにちは,米国データサイエンティストのかめ(@usdatascientist)です. (追記)動画版も公開しました!全38時間の3部作という超大作です 【日本一の高評価】機械学習超入門講座(前編&後編)を公開しました!! 【ついに3部完結】機械学習超入門講座の本番編を公開しました!! いやーついに長かったデータサイエンス入門機械学習編35回分の記事を書き終えました!! 本記事はそのまとめです.目次として使ってください. 目次 線形回帰 第1回: 機械学習とは?なにをしているのか? 第2回: 線形回帰の損失関数をわかりやすく解説 第3回: 最急降下法を図と数式で理解する(超重要) 第4回: 正規方程式を完全解説(導出あり) 第5回: scikit-learnを使って線形回帰モデルを構築する 第6回: 線形回帰の係数の解釈の仕方(p値) 評価 第7回: (超重要)過学習と汎化性能を理解する(

                                【無料】データサイエンス入門:機械学習編全35回まとめと目次
                              • Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog

                                2.3k{icon} {views} 複数のLLM(GPT/Claude3)とArxivの検索APIをRAGで統合し、論文サーベイの自動生成を作りました。検索結果の前処理や、サーベイ特有のプロンプトエンジニアリングやソートが重要で、最適化手法として古くからある巡回セールスマン問題(TSP)が有効に機能しました。また、生成部分ではGPTよりClaude3の明確な有効性を確認できました。 できたもの Arxivの検索APIを使って検索拡張生成(RAG)したらサーベイを自動生成できた やっていること Arxivの検索ワードをGPT-4-Turboで生成 ArxivのAPIを叩いてヒューリスティックでフィルタリング OpenAIのEmbedding APIを叩く Embeddingに対して巡回セールスマン問題(TSP)を解いてソートをかける 論文の要旨をGPT-3.5-Turboで要約 ソートした

                                  Arxiv RAGによる論文サーベイの自動生成 | Shikoan's ML Blog
                                • Rustで扱える機械学習関連のクレート2021 - Stimulator

                                  - はじめに - 本記事では、Rustで扱える機械学習関連クレートをまとめる。 普段Pythonで機械学習プロジェクトを遂行する人がRustに移行する事を想定して書くメモ書きになるが、もしかすると長らくRustでMLをやっていた人と視点の違いがあるかもしれない。 追記:2021/02/24 repositoryにしました。こちらを随時更新します github.com 追記;2021/07/26 GitHub Pagesでウェブサイトにしました vaaaaanquish.github.io - はじめに - - 全体感 - - 機械学習足回り関連のクレート - Jupyter Notebook Numpy/Scipy Pandas 画像処理 形態素解析/tokenize - scikit-learn的なやつ - 各ライブラリと特徴比較 - Gradient Boosting - XGBoos

                                    Rustで扱える機械学習関連のクレート2021 - Stimulator
                                  • SQLで始める自然言語処理 - やむやむもやむなし

                                    こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。 しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ

                                      SQLで始める自然言語処理 - やむやむもやむなし
                                    • ベイズ統計・ベイズ機械学習を始めよう | AIdrops

                                      ベイズ統計・ベイズ機械学習を始めよう コンピュータやネットワークの技術進化により,これまでにないほどの多種多様なデータを取り扱う環境が整ってきました.中でも統計学や機械学習は,限られたデータから将来を予測することや,データに潜む特徴的なパターンを抽出する技術として注目されています.これらのデータ解析を行うためのツールはオープンソースとして配布されていることが多いため,初学者でも手軽に手を出せるようになってきています. しかし,データ解析を目的に合わせて適切に使いこなすことは依然としてハードルが高いようです.この原因の一つが,統計学や機械学習が多種多様な設計思想から作られたアルゴリズムの集合体であることが挙げられます.毎年のように国際学会や産業界で新たな手法が考案・開発されており,一人のエンジニアがそれらの新技術を1つ1つキャッチアップしていくのは非常に困難になってきています. 1つの解決策

                                        ベイズ統計・ベイズ機械学習を始めよう | AIdrops
                                      • 「Python実践データ分析100本ノック」を写経してみた - Qiita

                                        » Python実践データ分析100本ノック | 下山輝昌, 松田雄馬, 三木孝行 はじめに この本を手にした動機 元々データ分析に以前から興味があったものの、次に繋げられなかった 非エンジニアがR言語を始めるときの手引き|Kaggle Masterによるデータ分析技術者養成講座【R言語版】Day1メモ|中野ヤスオ|ARI |note 2021年10月から12月まで受講した初級Python講座で得たことをなにか繋げたかった 講座受講の経緯等こちら:若手エンジニア成長支援No1企業を目指して|中野ヤスオ|ARI |note コードを書くことが楽しくなってきたので、毎日少しづつ出来るテーマを見つけたかった 今回の読み方 冒頭にある「本書の効果的な使い方」を参照し、それに準拠 各章各ノックの内容を「写経」しつつ、本文とコードを読み進め、分からないところをGoogleで調べる感じ 人それぞれだが、

                                          「Python実践データ分析100本ノック」を写経してみた - Qiita
                                        • 機械学習の実装とアルゴリズムをバランス良く学べる書籍を執筆しました - Qiita

                                          scikit-learnライブラリを用いて、機械学習の実装とアルゴリズムをバランス良く学んでいただく書籍を執筆しました。 AIエンジニアを目指す人のための機械学習入門 実装しながらアルゴリズムの流れを学ぶ(電通国際情報サービス 清水琢也、小川雄太郎 、技術評論社) https://www.amazon.co.jp/dp/4297112094/ 既に発売開始しています。 機械学習の ・各種アルゴリズムの実装 ・それぞれのアルゴリズムの動作の仕組み これらを学んでみたい方に向けて執筆いたしました。 ご活用いただければ幸いです。 昨年書いた書籍 つくりながら学ぶ! PyTorchによる発展ディープラーニング(小川雄太郎、マイナビ出版) の、機械学習版のような位置付けです。 本記事では、 ・本書を書いたモチベーション ・本書の概要 ・本書の目次 を紹介いたします。 本書を書いたモチベーション 本書

                                            機械学習の実装とアルゴリズムをバランス良く学べる書籍を執筆しました - Qiita
                                          • 「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見

                                            はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何

                                              「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
                                            • 高校の「情報II」でデータサイエンスがしっかり学べる!すごい!

                                              高校の「情報II」でデータサイエンスがしっかり学べる!すごい! 2020-06-25-1 [Programming][Python][BookReview] データサイエンティストに俺はなる!! Python 初学者のタツヲです。 いまどきは高校の授業(情報II)でデータサイエンスをやるのですね。 文部科学省から教員用の資料が公開されてるのを知りました。 「情報II」を取った高校生がどんなことを学んでいるのかを知るために、さっそく調査です! 高等学校情報科「情報Ⅱ」教員研修用教材(本編):文部科学省 第3章がデータサイエンスの話題ですので、そこを読みました。 で、読んでみた感想ですが、内容が本格的すぎて震える。 大学のデータサイエンス演習のテキストじゃないのかよ、これ。 流し読みでは一部ついていけないところも(真面目に読む必要あり)。 高校生のうちからこの辺をマスターできれば将来安泰でしょ

                                                高校の「情報II」でデータサイエンスがしっかり学べる!すごい!
                                              • k-means法を用いて画像をドット絵風に変換する

                                                はじめに k-means法を用いて画像を減色しドット絵風に変換するWebアプリを作りました。 (よろしければstarを頂けると幸いです) 変換例 Lenna k=4 75x75 Mandrill k=8 50x50 海中のイラスト k=12 54x30 寿司のイラスト k=16 34x21 方針 k-means法を利用します。処理の流れは以下の通りです。 ランダムにK(定数)個の画素を選び、クラスタ分けに用いる代表色を決定する。 各画素について、最も近い代表色を選びクラスタ分けをする。 各クラスタについて平均色を計算し、新たな代表色とする。 上記の処理でクラスタの割当てが変化しない、または変化量が閾値を下回った場合に収束したと判断して処理を終了する。そうでなければ処理を繰り返す。 実装 画像の読み込み 変換前の画像がoriginalCanvasで、変換後の画像がconvertedCanva

                                                  k-means法を用いて画像をドット絵風に変換する
                                                • Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita

                                                  こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S

                                                    Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita
                                                  • 使える統計モデル10選(後編) | AIdrops

                                                    使える統計モデル10選(後編) 前回の記事では、使える統計モデル10選の前編として、主に回帰モデルに焦点を絞って紹介しました。 今回はその後編に当たる生成モデル編です。生成モデル(generative model)は、端的に言うと、コンピュータシミュレーションによりデータを人工的に作ることができるモデルです。データが作られる過程をうまく表現したモデルを構築することができれば、予測だけではなく異常検知やデータ圧縮など幅広いタスクに応用することができます。 生成系(教師なし系) 回帰モデルと同様、生成モデルも数個のパラメータから構成される簡単なものから、複数のモデルを巧みに組み合わせた複雑なものまで無限に存在します。ここでは、データ圧縮から自然言語処理、ソーシャルネット解析までさまざまなデータ解析のタスクで利用されている代表的な生成モデルを5つ選んで紹介します。また、生成モデルのすべては潜在変

                                                      使える統計モデル10選(後編) | AIdrops
                                                    • 統計学・機械学習を自分なりに概観してみた - Qiita

                                                      *この記事は統計学や機械学習を専門としていない学生が書いた主観的なまとめ記事です。間違いが含まれている可能性があります。 統計学・機械学習を学んでいると、たくさんの手法や考えが出てきてよくわからなくなります。 特に自分が何かに取り組んでいるときには、今やっている手法が全体から見てどういうものなのか、より良い手法が無いのかが気になってしまいます。 まるで地図を持たず森の中を彷徨っているような感覚です。 そこで、統計学・機械学習で使われる概念や手法を自分なりにまとめて頭を整理したいと思います。 以下のような図になりました。 以下にそれぞれを説明します。 数理科学 統計学・機械学習のベースとなる学問です。 主に解析学、代数学、幾何学からなります。 微分積分学と線形代数学が基本になってるのは言うまでもないと思います。 その他に個人的に関わりが深いと思う分野を3つ挙げます。 確率論 大数の法則(中心

                                                        統計学・機械学習を自分なりに概観してみた - Qiita
                                                      • Rust の機械学習ライブラリ smartcore に入門してみた。

                                                        はじめに たまには Rust も書きます。機械学習に興味があり、興味があれば何でも触ります。 smartcore とは とある Rust の機械学習に詳しい人に、最近の Rust の機械学習ライブラリのデファクトぽいのを聞いたところ、丁寧に linfa か smartcore を教えて貰いました。はじめに linfa を試したのですが、うまく行きませんでした。僕は Rust の toolchain で gnu(mingw) を使う派なのですが、linfa は Intel MKL をリンクする必要があり、Intel MKL は MSVC 形式のライブラリしか提供していません。DLL から .a を生成してリンクしてみたりもしましたが、結局うまくリンクできず諦めてしまいました。MSVC の toolchain や他の OS(Linux) だと問題なく動くんだと思います。 しかたなく、残りの s

                                                          Rust の機械学習ライブラリ smartcore に入門してみた。
                                                        • 機械学習の手法13選 ー 初級者、中級者別に解説! | AI専門ニュースメディア AINOW

                                                          こんにちは、AINOWインターンのゆかわです。 早速ですが、機械学習を勉強し始めたばかりの初級者の方は、機械学習に用いられている手法が多過ぎて、どれを知っておいた方がいいのかわからなくなっていませんか? また、ある程度勉強を進めてきた中級者の方の場合は、実際に機械学習を使うにあたって、どのようにして手法を選択すれば良いか困っていませんか? 今回はそのような初級者、中級者の方へ向けた記事となっています。 この記事の構成について ①チートシート この記事ではまず、チートシートと呼ばれる、解決したい課題ごとにどの手法を使えばいいかが一目でわかる表を用意しています。 この表は中級者の方の手法選択の手助けはもちろん、初級者の方にとっても機械学習の手法の概観を捉えるものとして役に立つはずですので、ぜひご活用ください。 ②手法選択のコツ 上で述べたチートシートを使って機械学習の手法を選ぶ際の、ポイントを

                                                            機械学習の手法13選 ー 初級者、中級者別に解説! | AI専門ニュースメディア AINOW
                                                          • 機械学習モデルはSQLで作る、DXで存在感増すデータベース3つの新常識

                                                            今回はクラウドにデータベースを新たに構築したり、移行する際に知っておくべき、デジタルトランスフォーメーション(DX)時代のデータベースの「新常識」を3つ紹介しよう。 DXの要請から素早い環境変化に対応するために進むクラウド活用。データベースもクラウドでの構築がスタンダードになりつつある。DXの進展でデータベースに対して、これまでより高い次元の要件が求められてきた。 その1つが、収集するデータや分析・利用形態の多様化だ。例えば小売業などでは、従来の顧客や売り上げのデータをベースに、天候や気温、交通情報、店舗近隣のイベント情報などさまざまなデータを組み合わせて分析したいとのニーズが高まっている。分析結果を迅速な予測に生かしたいとなれば、発生してからタイムラグのないデータの取得も求められる。 高度化する要件に応えるため、データベースは進化を続けている。その結果、データベースにも新たな常識が生まれ

                                                              機械学習モデルはSQLで作る、DXで存在感増すデータベース3つの新常識
                                                            • 動画で学べる機械学習/AIまとめ – ツクレル – 自分自身のためにプログラミングしよう

                                                              機械学習をこれからはじめるにあたって、基礎知識も何もなくはじめても効率的とはいえません。便利なライブラリによって、数学の知識をしっかり押さえる必要はなくなってきていますが、それでも基本的な考え方は覚えておく方がいいでしょう。 今回はそんな機械学習について学べる動画を紹介します。 機械学習入門 01 機械学習とは – YouTube サイボウズ・ラボの中谷さんによる機械学習講座です。 機械学習入門 01 機械学習とは – YouTube 機械学習入門 02 線形回帰を学ぶ 機械学習入門 03 ディープラーニング入門 機械学習入門 04 総まとめ 上記4本構成になっています。 機械学習入門 01 機械学習とは – YouTube 【機械学習】AIとは? | 機械学習とAIの関係/機械学習入門 – YouTube AIとは、からはじまって各技法について細かく解説されています。 AIとは? | 機

                                                                動画で学べる機械学習/AIまとめ – ツクレル – 自分自身のためにプログラミングしよう
                                                              • アイコン変えた - 見返すかもしれないメモ

                                                                旧アイコンはこれだった↓ 服部平次が好きなので*1、服部の肌の色をアニメや映画から6色取って並べたアイコン。 でも以下の点が気に入ってなかった。 色のチョイス 特に明確な基準もなく、手元にあった服部の色から6色を「なんとなく」で選んだ。 描き方 GIMPでラスター画像として作ったので、拡大/縮小でぼやけてしまう。おまけに、角度とかは目分量で描いたので、歪んでるように見えてもやもやする。 もともとはTwitterの閲覧用アカウントのためのアイコンとして作ったので、めっちゃ適当だったけど、今のバイト先でも流れでこのアイコン使ってるし、来年の4月からの就職先でもずっと使い続けそうなので、もうちょっと整えようと思った。何らかの基準をもって色を選びたいし、ちゃんと座標を計算してパスを描きたい。 配色 服部の肌の色の豊富さに感動して作ったアイコンなので、今回もいろんな色をまんべんなく選びたい。 どうや

                                                                  アイコン変えた - 見返すかもしれないメモ
                                                                • 職務経歴書を構造化データに変換して分析する事例のご紹介 - Leverages データ戦略ブログ

                                                                  ■人材紹介業におけるデータ入力・データ活用の課題 レバレジーズのデータ戦略室で室長をしている阪上です。今回はレバレジーズの運営する人材紹介系サービスにおけるデータ活用の課題について扱いたいと思います。 一般的に人材紹介業は、「企業での就業を目指す人材」と「人材を欲している企業」のマッチングを行っています。しかしながら、経済学におけるマッチング理論が扱うような、「各々の人材がつけた、行きたい企業ランキングTop100」、「各々の企業がつけた、欲しい人材ランキングTop100」などの顕示的な選好のデータはありません。 そこで、マッチングをうまく実現するためには選好データではなく、営業管理システムなどに蓄積されたデータを使う必要があります。人材も企業も納得した状態、すなわち、「内定の承諾という状態を生み出した人材と企業のペアのデータ」と、「内定の承諾に至らなかったペアのデータ」を分析することで、

                                                                    職務経歴書を構造化データに変換して分析する事例のご紹介 - Leverages データ戦略ブログ
                                                                  • 近傍探索ライブラリ「Annoy」のコード詳解 - ZOZO TECH BLOG

                                                                    はじめまして、ZOZO研究所福岡の家富です。画像検索システムのインフラ、機械学習まわりを担当しています。 今回は画像検索システムでお世話になっているAnnoyについてじっくり紹介したいと思います。 目次 目次 Annoyについて 近傍探索について Annoyのソースコードを読むときのポイント AnnoyIndexというクラスのインスタンスを作る インストール過程について PythonのC/C++拡張 Annoyの実装 1. add_item 2. build 3. get_nns_by_vector 4. build再考 他に問題となる点について CPU依存部分 ディスクかメモリか まとめ さいごに Annoyについて Annoyは、SpotifyによるPython近傍探索ライブラリです。 github.com 弊社のテックブログでも以前に取り上げています。 techblog.zozo.c

                                                                      近傍探索ライブラリ「Annoy」のコード詳解 - ZOZO TECH BLOG
                                                                    • 画像検索のwebアプリを雑に作ってみる - Re:ゼロから始めるML生活

                                                                      可愛かったのでアイキャッチ画像にしました ちょっと画像検索が必要になることがあり、良い機会なので復習しようということになりました。 過去にはこんなのをやってみたりしました。 www.nogawanogawa.com 今回は改めて、主にこちらの資料を参考に画像検索に関して復習してみました。 docs.google.com 今回はこちらを参考にアプリを作ってみたのでそのメモです。 画像検索 TBIRとCBIR CBIRの実現方法 画像検索として使用する特徴量 RGB Histgram Average Hash Perceptual Hash SIFT SURF NN Embedding 類似度の評価方式 Bag of keypoints Earth Mover's Distance SVM ハミング距離 コサイン類似度 要するに 作ってみる 対象画像 画面まわり 検索周り pHash - ハミ

                                                                        画像検索のwebアプリを雑に作ってみる - Re:ゼロから始めるML生活
                                                                      • Transformer Memory as a Differentiable Search Index (NeurIPS 2022)

                                                                        論文紹介: Transformer Memory as a Differentiable Search Index (NeurIPS 2022) この記事は情報検索・検索技術 Advent Calendar 2022 の 16 日目の記事です. この記事では,NeurIPS 2022 に採択された T5 を用いた検索手法に関する Google Research の論文を紹介します.紹介する論文の情報は以下の通りです. タイトル: Transformer Memory as a Differentiable Search Index 著者: Yi Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuste

                                                                          Transformer Memory as a Differentiable Search Index (NeurIPS 2022)
                                                                        • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                                                                          こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                                                                            最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                                                                          • BERTopic で文書のクラスタリングを試す - Sansan Tech Blog

                                                                            こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.com 目次 目次 BERTopic とは 文書の埋め込み 文書のクラスタリング トピック表現 手法の概要まとめ BERTopic を試してみる インストール モデルのロード クラスタリングの実行 結果の確認 トピックごとの単語の重要度 トピックごとの文書を眺めてみる 次元削減手法・クラスタリング手法の変更 使ってみての所感 BERTopic とは BERTopic はいわゆるトピックモデリングを行うための OSS です。 トピックモデルは、文書集合から「トピック」は何が含まれ

                                                                              BERTopic で文書のクラスタリングを試す - Sansan Tech Blog
                                                                            • 「言語処理100本ノック 2020」をPythonで解く - u++の備忘録

                                                                              「言語処理100本ノック 2020」が4月6日に公開されました。2015年以来、5年ぶりの改訂です。昨今の自然言語処理の研究動向を鑑み、深層ニューラルネットワークに関する問題追加などの変更があります。 nlp100.github.io 実装のためのプログラミング言語としては、Python3系を利用します。バージョンは初公開時は3.6.8で、2023年11月に3.11.3に更新しました。ソースコードは、GitHubで公開しています。 github.com 第1章: 準備運動 00. 文字列の逆順 01. 「パタトクカシーー」 02. 「パトカー」+「タクシー」=「パタトクカシーー」 03. 円周率 04. 元素記号 05. n-gram 06. 集合 07. テンプレートによる文生成 08. 暗号文 09. Typoglycemia 第2章: UNIXコマンド 10. 行数のカウント 11.

                                                                                「言語処理100本ノック 2020」をPythonで解く - u++の備忘録
                                                                              • AWS認定機械学習専門知識(MLS)を、2ヶ月の集中期間で取得したやったことまとめ - Qiita

                                                                                昨年12月にラスベガスで開催された re:Invent 2019 で 多くの機械学習関連のサービスのアップデートがアナウンスされました。 今回の受験モチベーションは、機械学習の知識は、エンジニアの教養としてもはや特別なものではなくなってきていると感じ、これらの知識ついて一度体系立てた学習をしてみたくなったのがきっかけです。 今回のスコア(2020-02-23受験) 総合スコア: 755/1000 (ボーダー750) スコアと評価 分野 1: データエンジニアリング -> 十分な知識を有する 分野 2: 探索的データ解析 -> 十分な知識を有する 分野 3: モデリング -> 再学習の必要あり 分野 4: 機械学習の実装と運用 -> 十分な知識を有する AWS認定機械学習専門知識(MLS)について ここからが本題となります。 まずは、以下の公式ページから試験概要の把握を行いました

                                                                                  AWS認定機械学習専門知識(MLS)を、2ヶ月の集中期間で取得したやったことまとめ - Qiita
                                                                                • マーケティング担当者なら使えるべき5つの超重要な分析手法 - Qiita

                                                                                  マーケティング担当者にとって、より多くの新規顧客を開拓し、既存顧客のエンゲージメントを高めることが何よりも重要となります。 データを使うとより効率的に、顧客セグメントを発見しそれぞれの顧客に合ったプロモーションを行ったり、自社サービスを購入される可能性の高い見込み顧客に的を絞った効果的なマーケティング活動を実行していくことができるようになります。 しかし、いざデータを活用し始めようとすると困るのが、そもそもどういった分析手法を使えば良いのかわからないということです。 そこで、マーケティング担当者が使いこなせるようになるべき5つの分析手法を、どのようなシーンで利用できるかという例を使って紹介します。 5つの分析手法 今回は、以下の5つの分析手法と、それぞれのアナリティクスがどのような目的で利用できるのかを紹介します。 1. 相関分析: 自社にとっての最適な顧客層を見つける 「相関」とは、2つ

                                                                                    マーケティング担当者なら使えるべき5つの超重要な分析手法 - Qiita