並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 686件

新着順 人気順

次元削減の検索結果1 - 40 件 / 686件

  • 例の機械学習コースが良いらしいと知りながらも2年間スルーし続けたがやはり良かったという話 - Qiita

    先日、オンライン学習サイトCourseraの"Machine Learning"コースを修了しました。これが最高に勉強になったわけですが、機械学習に興味があって情報収集を始めてる人にとって、「Courseraの機械学習コースがおすすめですよ」という話は 「はい、知ってます」 という感じではないでしょうか。 (たとえば、Qiitaで検索してみると、以下のような同コースに関連する超人気記事が出てきます) 数学を避けてきた社会人プログラマが機械学習の勉強を始める際の最短経路 - Qiita 機械学習をゼロから1ヵ月間勉強し続けた結果 - Qiita 僕もそんな感じで、幾度となく人や記事に同コースを薦められたりしつつ、たぶん2年ぐらいスルーし続けてきたと思います。 しかし約2ヶ月前、ひょんなきっかけから本講座を始めてみて、やはり評判通り最高だったと思うと同時に、僕と同じような感じでこのコースが良い

      例の機械学習コースが良いらしいと知りながらも2年間スルーし続けたがやはり良かったという話 - Qiita
    • 数学を避けてきた社会人プログラマが機械学習の勉強を始める際の最短経路 - Qiita

      巷ではDeep Learningとか急に盛り上がりだして、機械学習でもいっちょやってみるかー、と分厚くて黄色い表紙の本に手をだしたもののまったく手が出ず(数式で脳みそが詰む)、そうか僕には機械学習向いてなかったんだ、と白い目で空を見上げ始めたら、ちょっとこの記事を最後まで見るといいことが書いてあるかもしれません。 対象 勉強に時間が取れない社会人プログラマ そろそろ上司やらお客様から「機械学習使えばこんなの簡単なんちゃうん?」と言われそうな人 理系で数学はやってきたつもりだが、微分とか行列とか言われても困っちゃう人 この記事で行うこと 数学の基礎知識に慣れるための、数式が最初から出てこないプログラマ向けの数学入門書の紹介 機械学習の初学者には鉄板の、オンライン講座(MOOC)の機械学習コース紹介 環境 WindowsでもMacでもLinuxでも大丈夫(MATLAB/Octaveというツール

        数学を避けてきた社会人プログラマが機械学習の勉強を始める際の最短経路 - Qiita
      • NoSQLデータモデリング技法

        NoSQLデータモデリング技法.markdown #NoSQLデータモデリング技法 原文:NoSQL Data Modeling Techniques « Highly Scalable Blog I translated this article for study. contact matope[dot]ono[gmail] if any problem. NoSQLデータベースはスケーラビリティ、パフォーマンス、一貫性といった様々な非機能要件から比較される。NoSQLのこの側面は実践と理論の両面からよく研究されている。ある種の非機能特性はNoSQLを利用する主な動機であり、NoSQLシステムによく適用されるCAP定理がそうであるように分散システムの基本的原則だからだ。一方で、NoSQLデータモデリングはあまり研究されておらず、リレーショナルデータベースに見られるようなシステマティック

          NoSQLデータモデリング技法
        • Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog

          この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook この章では機械学習について、Webサービスの開発で必要とされる知識を中心に、とくに自然言語処理にフォーカスしながら解説します。 Webサービス開発と機械学習 実現困難な機能の例 闇雲な実装 もう少しましな実装 機械学習によるパラメータ決定 分類問題のための機械学習手法 パーセプトロン 判別アルゴリズム 学習アルゴリズム 特徴量のとり方 形態素解析 量をともなう特徴 組み合わせ特徴量 モデル 機械学習の種類 教師あり学習 分類 (質的変数の予測) 回帰 (量的変数の予測) 教師あり学習でのデータセット 教師なし学習 クラスタリング 次元削減(次元圧縮) 頻出パターンマイニング 異常値検出 アルゴリズムの評価 訓練データとテストデータ 学

            Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog
          • 機械学習を初めて勉強する人におすすめの入門書 - old school magic

            概要 私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。 目標としては、機械学習全般について、コンパクトなイメージを持てるようになることです。 そのためにも、簡単な本から始めて、少しずつ難しい本に挑戦して行きましょう。 入門書 何はともあれ、まずは機械学習のイメージを掴むことが大切です。 最初の一冊には、フリーソフトでつくる音声認識システムがおすすめします。 フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで 作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/17メディア: 単行本(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (38件) を見るレビュー :

              機械学習を初めて勉強する人におすすめの入門書 - old school magic
            • NoSQLデータモデリング技法

              NoSQLデータモデリング技法.markdown #NoSQLデータモデリング技法 原文:NoSQL Data Modeling Techniques « Highly Scalable Blog I translated this article for study. contact matope[dot]ono[gmail] if any problem. NoSQLデータベースはスケーラビリティ、パフォーマンス、一貫性といった様々な非機能要件から比較される。NoSQLのこの側面は実践と理論の両面からよく研究されている。ある種の非機能特性はNoSQLを利用する主な動機であり、NoSQLシステムによく適用されるCAP定理がそうであるように分散システムの基本的原則だからだ。一方で、NoSQLデータモデリングはあまり研究されておらず、リレーショナルデータベースに見られるようなシステマティック

                NoSQLデータモデリング技法
              • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

                (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

                  エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
                • データサイエンス教育用の講義資料1000ページ、教員向けに無償公開 NVIDIAと滋賀大が連携

                  NVIDIAと滋賀大学は9月8日、データサイエンス教育用の講義資料「DLI データサイエンス教育キット」の日本語版の無償提供を始めた。同資料はNVIDIAのデジタルスキル育成プログラム「Deep Learning Institute」(DLI)の講義資料で、滋賀大学が日本語に翻訳したもの。教育機関の教員向けに提供する。利用にはNVIDIAの開発者アカウントが必要。 講義資料では「データサイエンスとRAPIDSの入門」「データ収集と前処理(ETL)」「データセットにおけるデータ倫理とバイアス」「データ統合と分析」「データビジュアライゼーション」「Hadoop、Hive、SparkとHBaseによるスケールと分散コンピューティング」「機械学習(分類)」「機械学習(クラスタリング、次元削減)」「ニューラルネットワーク」などの分野を取り上げる。 資料の元になった「DLI データサイエンス教育キット

                    データサイエンス教育用の講義資料1000ページ、教員向けに無償公開 NVIDIAと滋賀大が連携
                  • 機械学習/ディープラーニング初心者が2018年にやったこと、読んだ論文 - Qiita

                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 2018年もいよいよ本日が最後となりました。皆さんいかがお過ごしでしょうか。この記事では機械学習/ディープラーニング初心者だった自分が2018年にやったことをまとめていきたいと思います。ポエムじみた記事になってしまいましたが、何らかの参考になれば幸いです。 2018年のBefore-After Before 今年(4月)ぐらいまで機械学習の「き」の字も知らなかった。k-Nearest Neighbor?Support Vector Machine?なにそれ美味しいのってレベル 昔統計をやっていたので、ロジスティクス回帰ぐらいは知っていた

                      機械学習/ディープラーニング初心者が2018年にやったこと、読んだ論文 - Qiita
                    • 機械学習アルゴリズムへの招待 | POSTD

                      機械学習の問題 については以前に紹介したので、次はどんなデータを収集し、どんな機械学習アルゴリズムを使うことができるのかを見ていきましょう。本投稿では、現在よく使用されている代表的なアルゴリズムを紹介します。代表的なアルゴリズムを知ることで、どんな技法が使えるかという全体的なイメージもきっとつかめてくるはずですよ。 アルゴリズムには多くの種類があります。難しいのは、技法にも分類があり拡張性があるため、規範的なアルゴリズムを構成するものが何なのか判別するのが難しいということですね。ここでは、実際の現場でも目にする機会の多いアルゴリズムを例にとって、それらを検討して分類する2つの方法をご紹介したいと思います。 まず1つ目は、学習のスタイルによってアルゴリズムを分ける方法。そして2つ目は、形態や機能の類似性によって(例えば似た動物をまとめるように)分ける方法です。どちらのアプローチも非常に実用的

                        機械学習アルゴリズムへの招待 | POSTD
                      • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

                        朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

                        • Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog

                          この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook 機械学習編1(基礎編)では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基本について勉強しました。機械学習編2(実用編)では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴリズムの使い分け、高次元データへの対処法、といったトピックについて解説していきます。 実問題に機械学習を適用する タスクを定義する データを特徴ベクトルに変換する 評価方法を決める 正解データの正例と負例は均等に ベースラインとなる手法を実装する 実データに向き合うときの心構え 機械学習のワークフロー 1. 前処理 データセット作成 サンプリング 特徴抽出 欠損値・欠測値への対応 値のスケーリング 特徴選択 次元削減 2. 学習 モデ

                            Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog
                          • 世界で74万人以上が受講した海外講座を“日本語で”学ぼう! Udemyで初夏のビッグセール開催&大人気講座をチェック - はてなニュース

                            多くの企業から「人手不足だ」という話が聞こえてきます。なんでも、新しいビジネスを始めようとしたり、新規サービスを立ち上げようとしたり、はたまた事業規模を拡大したり、ということで人材を募集しても、なかなか集まらないんだとか。それも、大企業からスタートアップまで、会社の規模の大小や領域に限らず、ありとあらゆる分野の企業が当てはまっています。 特にIT業界は、ただでさえ業界全体が成長しているうえに、技術の進歩と陳腐化が激しいため、基礎的な技術や知識を持ちながら、新たな情報やトレンドもフォローしているようなエンジニアは、引く手あまた。さらに最近では、エンジニアでなくてもビジネス分野で活躍するためには、データを扱うことができる高度な知識と経験が求められるケースが増えてきていることもあって、人手不足に拍車が掛かっているのだそうです。 そんな社会の中で、自分を成長させ、新たな分野に踏み出していくためには

                              世界で74万人以上が受講した海外講座を“日本語で”学ぼう! Udemyで初夏のビッグセール開催&大人気講座をチェック - はてなニュース
                            • 【Day-23】機械学習で使う"距離"や"空間"をまとめてみた - プロクラシスト

                              データ分析ガチ勉強アドベントカレンダー 23日目。 ここまでデータをどういう風に処理したり、どういうタスクをこなしていくかについて勉強してきたが、 一度基礎的な事項に戻ってみたいと思う。基礎だから簡単というわけではない。基礎だからこそ難しく、また本質的な内容。 データ分析で使われている手法などをまとめて集約して、簡単な説明を付け加えていく。 しかし、このあたりの数学*1は苦手なので、なるべく直感的に自分のイメージを書いていく。 われわれが生きている空間や、距離は"正しい"のか ユークリッド空間/ユークリッド距離 点の距離 分布の距離 wasserstein計量 カーネル(再生核ヒルベルト空間) Topological Data Analysis(TDA) 次元削減/Embedding PCA(principal component analysis) t-SNE(t-Distributed

                                【Day-23】機械学習で使う"距離"や"空間"をまとめてみた - プロクラシスト
                              • NoSQLデータモデリング技法 · GitHub

                                NoSQLデータモデリング技法.markdown #NoSQLデータモデリング技法 原文:NoSQL Data Modeling Techniques « Highly Scalable Blog I translated this article for study. contact matope[dot]ono[gmail] if any problem. NoSQLデータベースはスケーラビリティ、パフォーマンス、一貫性といった様々な非機能要件から比較される。NoSQLのこの側面は実践と理論の両面からよく研究されている。ある種の非機能特性はNoSQLを利用する主な動機であり、NoSQLシステムによく適用されるCAP定理がそうであるように分散システムの基本的原則だからだ。一方で、NoSQLデータモデリングはあまり研究されておらず、リレーショナルデータベースに見られるようなシステマティック

                                  NoSQLデータモデリング技法 · GitHub
                                • 自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷

                                  最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。 以下

                                    自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷
                                  • 計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について - デー

                                    まだgithubにはpushしていないのですが、さいきょうの組み込み型画像検索エンジンotamaに計量学習を用いて与えられたデータにあった画像間の距離関数を学習してそれを使って検索するというドライバを入れたので、先行的なデモとしてアニメ顔類似検索v3を作ってみました。 計量学習は、ベクトル間の距離の計り方を機械学習で決めるみたいな分野です。 アニメ顔類似検索v3 AnimeFace Search v3 - Otama LMCA_VLAD_HSV Driver randomボタンを押すと顔画像がランダムに出るのでどれかクリックするとそれをクエリに検索します。color weightは色の重みを調節するパラメーターで、1にすると色だけで検索します。0にすると形状やテクスチャだけで検索します。結果画像の上の数字は類似度的なもので、その横のgglは元画像をGoogle Search by Imag

                                    • ”仕事で始める機械学習”の要点をまとめてみたらとても良い入門書だった

                                      最近、販売された仕事で始める機械学習を買ったので、購入を考えられている方や機械学習を始めたいと思っている方に読んで、参考になればと思います。 この記事の目的と全体の流れただ読むのと、アウトプット(ブログに書く)前提で読むのとはインプットの質が違うということがわかったので、ブログに書きながら理解していく形を取ります。 全体の流れとしては、章の要約。あぁこの内容知ってるなって人は買わずに済むし、わからないこと多いという人は購入を検討して頂ければ。(出版関係者でもなければ、アフィリエイトなどの営利目的でもなく、いち消費者としての個人的意見になります。 ご了承ください。) 結論から言うと(書評)いままでのオライリーのデータサイエンス本だと英語から翻訳したのでわかりにくい日本語が非常にうっとうしいのですが、 この本は、日本の方が書かれており、日本語スムーズに理解できます。 また、非常に論理立てられて

                                        ”仕事で始める機械学習”の要点をまとめてみたらとても良い入門書だった
                                      • 「洋楽離れ」をデータから検証する:日本だけじゃない? 変わる音楽の世界地図|こちら徒然研究室(仮称)

                                        皆さんは最近「洋楽」を聴いていますか…? ここ数年、音楽業界では「日本の洋楽離れ」が話題になっているようです。 洋楽離れ止まらぬ日本 K-POP人気、邦楽も台頭https://t.co/IvJHSz5Jkl 日本の2023年ストリーミングランキングの上位100曲に洋楽は1曲も入りませんでした。2月の東京公演が話題となったテイラー・スウィフトさんも、2020年代は20位圏内に入っていません。 — 日本経済新聞 電子版(日経電子版) (@nikkei) March 4, 2024 確かに、日本のヒットチャートを席巻しているのはほとんどが日本の音楽かもしれません。一見すると日本独自の現象のようにも思えます。ただ、データから世界を見てみると、少しちがった風景が浮かび上がってきます。 実は「洋楽離れ」は、日本だけの現象ではないようです。世界中で、いわゆる「洋楽」のヒット曲、特にアメリカのポップミュー

                                          「洋楽離れ」をデータから検証する:日本だけじゃない? 変わる音楽の世界地図|こちら徒然研究室(仮称)
                                        • どうすれば脳を「理解」できるのか:「コンピュータチップの神経科学」から考える - 重ね描き日記(rmaruy_blogあらため)

                                          今回は「探求メモ」の特別版といった位置づけで、長めの記事を投稿します。2017年に出た神経科学についてのちょっと面白い論文を読み、友人と議論しながらあれこれ考えて書いたものです。昆虫の神経科学と合成生物学を研究している、鈴木力憲(@Mujinaclass)氏との共著です。この文章は、鈴木氏の研究ブログにも同時掲載されています。(同ブログには、研究者として本稿を書いた意図をまとめた「序文」がありますので、このテーマのご専門の方はまずそちらをご覧ください。) どうすれば脳を「理解」できるのか:「コンピュータチップの神経科学」から考える 文章:丸山隆一(@rmaruy)・鈴木力憲(@Mujinaclass) 近年、神経科学の進歩がすさまじい。さまざまな技術革新によって、脳に関して得られるデータは飛躍的に増えた。「記憶を書き換える」「全脳をシミュレーションする」といった華々しい研究の数々は、神経科

                                            どうすれば脳を「理解」できるのか:「コンピュータチップの神経科学」から考える - 重ね描き日記(rmaruy_blogあらため)
                                          • これさえ読めばすぐに理解できる強化学習の導入と実践

                                            強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識することや病気の診断、多言語間の翻訳をする性能を著しく向上させることができました。 すでにその性能は専門的な教育を受けた人間の能力と同等 [1] か超えている分野もあるほどです。 一方で、人間にはデータを与えなくとも自ら経験から学び、スキルを上達させることができます。特に何も教えられなくとも、経験からゲームを攻略することやロボットの正しい動作の仕方を学んでいくことができます。 機械学習の中でも、こ

                                              これさえ読めばすぐに理解できる強化学習の導入と実践
                                            • 機械学習プロジェクトが失敗する9つの理由 - 渋谷駅前で働くデータサイエンティストのブログ

                                              (Image by Pixabay) 勉強が進まないので、今回は与太記事でも書いてお茶を濁すことにします(笑)。ネタはこちらです。 Why your machine learning project will fail – THE DATA SCIENCE NINJA 9 Reasons why your machine learning project will fail 読んで字の如し、「あなたの機械学習プロジェクトが失敗する9つの理由」というグサグサ刺してくる論評記事です。あまりにもオリジナルの記事が素晴らしかったということか、KDnuggetsに誘われてrepostされた模様です*1。 最近は機械学習の学術・技術的研究開発も極めに極まったところで一息つく感じになってきている印象で、どちらかというとインダストリーサイドではML Opsという考え方が提唱されるようになってきています。そ

                                                機械学習プロジェクトが失敗する9つの理由 - 渋谷駅前で働くデータサイエンティストのブログ
                                              • 全ゲノム解析で明らかになる日本人の遺伝的起源と特徴

                                                理化学研究所(理研)生命医科学研究センター ゲノム解析応用研究チームの寺尾 知可史 チームリーダー(静岡県立総合病院 臨床研究部 免疫研究部長、静岡県立大学 薬学部ゲノム病態解析講座 特任教授)、劉 暁渓 上級研究員(研究当時:ゲノム解析応用研究チーム 研究員; 静岡県立総合病院 臨床研究部 研究員)、東京大学医科学研究所附属ヒトゲノム解析センター シークエンス技術開発分野の松田 浩一 特任教授らの共同研究グループは、大規模な日本人の全ゲノムシークエンス(WGS)[1]情報を分析し、日本人集団の遺伝的構造、ネアンデルタール人[2]およびデニソワ人[3]由来のDNAと病気の関連性、そしてゲノムの自然選択が影響を及ぼしている領域を複数発見しました。 本研究成果は、日本人集団の遺伝的特徴や起源の理解、さらには個別化医療[4]や創薬研究への貢献が期待されます。 今回、共同研究グループは、バイオバン

                                                  全ゲノム解析で明らかになる日本人の遺伝的起源と特徴
                                                • 東京大学 杉山・本多研究室

                                                  東京大学 杉山・本多研究室:機械学習と統計的データ解析 機械学習の基礎理論の構築と実用的なアルゴリズムの開発,及び,実問題への応用研究を行っています [ English | Japanese ] 研究概要 教科書 機械学習のための確率と統計 イラストで学ぶ機械学習:最小二乗法による識別モデル学習を中心に 統計的機械学習 統計的学習の基礎:データマイニング・推論・予測 パターン認識と機械学習 強くなるロボティック・ゲームプレイヤーの作り方~実践で学ぶ強化学習 学習の種類 教師付き学習 教師なし学習 半教師付き学習 強化学習 機械学習の理論とアルゴリズム モデル選択 不偏モデル選択規準 正則化モデル選択規準 能動学習 単一のモデルに対する能動学習 複数のモデルに対する能動学習 追加学習/オンライン学習 次元削減 教師付き次元削減 半教師付き次元削減 教師無し次元削減 類似度データからの学習/カ

                                                    東京大学 杉山・本多研究室
                                                  • 機械学習の全体像をまとめてみた

                                                    教師あり学習 概要 入力値から何かしらの予測をしたい場合を考えます. 予測する対象の正解データが事前に得られる場合、 入力値から正解データを出力するモデルを学習する手法を教師あり学習と言います. 主なタスク 何を入力して、何を出力するかでタスクが分類されます. 代表的なものに以下が挙げられます 時系列予測: 現在以前の時系列データ ⇒ 未来の時系列データ 画像分類: 画像 ⇒ ラベル 物体検出: 画像 ⇒ 物の位置と種類 セグメンテーション: 画像をピクセル単位で分割 文章分類: 文章 ⇒ ラベル 機械翻訳: ある言語の文章 ⇒ 別の言語の文章 時系列予測 現在以前のデータから将来のデータを予測します. 実用例 株価予測 災害予測 自動車の事故防止システム 主要なアルゴリズム 自己回帰モデル(AR・MA・ARMA・ARIMA) 時系列間の関係を数学的に定量化、モデル化する. 周期性のあるデ

                                                      機械学習の全体像をまとめてみた
                                                    • 「機械学習のための特徴量エンジニアリング」が良かったので訳者に媚を売る - Stimulator

                                                      - はじめに - 本ブログでは恒例になりつつある、献本されたので媚を売るシリーズです。 「機械学習のための特徴量エンジニアリング」は2/23に発売される、機械学習エンジニアのための書籍です。 本記事は、筆者に媚びを売りつつ、どういった内容の書籍か、どういう人が読むと良さそうか、私がどう感じたかをつらつら書いていくもでのす。 機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 作者: Alice Zheng,Amanda Casari,株式会社ホクソエム出版社/メーカー: オライリージャパン発売日: 2019/02/23メディア: 単行本(ソフトカバー)この商品を含むブログを見る - はじめに - - 書籍の概要 - - どんな層に向けた書籍か - - 感想とか - - おわりに - - 書籍の概要 - 「機械学習のための特徴量エンジニアリング」は、謎のデータサイエン

                                                        「機械学習のための特徴量エンジニアリング」が良かったので訳者に媚を売る - Stimulator
                                                      • 機械学習をゼロから1ヵ月間勉強し続けた結果 - Qiita

                                                        追記 2018年の機械学習勉強法などをまとめました! 2018年版もっとも参考になった機械学習系記事ベスト10 はじめに 2016/12/14 から約1ヵ月間、機械学習の勉強をし続けました。これは会社の自由研究という制度を利用させて頂いて、1ヶ月間は業務から離れて、機械学習の勉強だけをやり続けた記録です。 勉強してきたもののうち教師あり学習までは、Qiita にその記録をまとめましたので過去記事一覧からご覧ください。 過去記事一覧 1日目 とっかかり編 2日目 オンライン講座 3日目 Octave チュートリアル 4日目 機械学習の第一歩、線形回帰から 5日目 線形回帰をOctave で実装する 6日目 Octave によるVectorial implementation 7日目 ロジスティック回帰 (分類問題) その1 8日目 ロジスティック回帰 (分類問題) その2 9日目 オーバーフ

                                                          機械学習をゼロから1ヵ月間勉強し続けた結果 - Qiita
                                                        • 機械学習ライブラリ scikit-learn で簡単ツイート分類 | ぱろすけのメモ帳

                                                          皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。本記事では、過去の

                                                          • ディープラーニングチュートリアル 応用編

                                                            Transcript 1. 大規模データから単語の 意味表現学習-word2vec ボレガラ ダヌシカ 博士(情報理工学) 英国リバープール大学計算機科学科准教授 2. 2 2005 2008~10 学部 修士 博士 助教/講師 東京大学 工学部 東京大学大学院情報理工学系 文書自動要約における 重要文順序学習 同姓同名抽出 別名抽出 属性類似性計測 関係類似性計測 評判分類の分野適応 関係抽出の分野適応 進化計算を用いたWeb 検索結果順序学習 ソーシャルネットワーク の関係予測 対話型協調 Web検索エンジン 潜在関係検索 エンジン 自己紹介 専門分野:自然言語処理, 機械学習,データマイニング 2006~07 2010~13 2010~現在 准教授 リバープール大学 深層学習 3. 今回の講演の背景 •深層学習に関する活動 •2014年9月に深層学習のチュートリアルをCyberAge

                                                              ディープラーニングチュートリアル 応用編
                                                            • 画像の機械学習が劣化する理由 - Qiita

                                                              前書き 注意:ここに書いていることは2020年代としては、古すぎる見解になっている。 近年の自己教師あり学習の大幅な進展で、ここで述べているようなアプローチは大幅に古めかしいものになっている。 ・自己教師あり学習の進展は、画像認識タスクに対する共通のbackbone を作り出しており、後段で個々の画像認識タスクに対するfine-tuningをするアプローチに変わってきている。 ・そのため、ラベル付きの限られたデータで特徴量の抽出をしていたのが、自己教師あり学習に基づく特徴量の抽出になっている。 ・各人、自己教師あり学習について調べることをお勧めする。 主旨 単純に学習データを追加するだけでは学習が改善しないことがある。そのような場合へのヒントを著者の限られた経験の中から記述する。 はじめに 画像認識の機械学習を改善するためにはデータを追加すればよい。 そう思っている人が大半だろう。 ただ、

                                                                画像の機械学習が劣化する理由 - Qiita
                                                              • ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

                                                                今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス

                                                                  ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
                                                                • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

                                                                  Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

                                                                    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
                                                                  • 時系列データ分析コンテンツ「ごちきか」を公開します - NTT Communications Engineers' Blog

                                                                    この記事は、 NTT Communications Advent Calendar 2022 24日目の記事です。 はじめに イノベーションセンターの木村と申します。初めてのアドベントカレンダー&Engineers’blog投稿です。普段の業務は、機械学習をもちいた時系列データ分析の研究開発やお客様データ分析案件支援を主として行っています。プライベートでは自転車にお熱でZwiftでバーチャルライドをしたり、最近ではテクニック向上のためバニーホップの練習に励んでいます(なかなか上達しません…)。 今日はクリスマスイブということで、時系列データ分析コンテンツ「ごちきか」 をプレゼント(?)します!年末休みのお供にぜひご照覧ください。 サマリー 時系列データ分析コンテンツ「ごちきか」を公開しました (余談として)基盤やデプロイ方法を紹介します What is 「ごちきか」? 私たちのチームでは、

                                                                      時系列データ分析コンテンツ「ごちきか」を公開します - NTT Communications Engineers' Blog
                                                                    • 協調フィルタリングについてまとめてみた。 - Analyze IT.

                                                                      A Survey of Collaborative Filtering Techniques(Xiaoyuan Su and Taghi M. Khoshgoftaar, 2009,Advances in Artificial Intelligence) 仕事で協調フィルタリングについて調べる必要が出てきたのだが、あまりよい日本語の文献を見つけられなかったため(後にしましま先生の文献を見つけた)やむなく英語の論文を検索したところ、 上記のよいサーベイ論文を見つけた。というわけでこのサーベイ論文に書かれていることに自分なりに調べたことを加えて、自分用にまとめておく。 また、一部の人達の間ではとても有名なしましま先生の論文(ドラフト版)があるので、英語が苦手な人はそちらをご覧になるとよいと思われる。 協調フィルタリングは、一言で言えばユーザとアイテムのマトリックスを用いた顧客への商品のレコメン

                                                                        協調フィルタリングについてまとめてみた。 - Analyze IT.
                                                                      • 機械学習による株価予測 いろはの”ろ” - Qiita

                                                                        はじめに 前回記事「機械学習による株価予測 いろはの"い"」の公開後、筆者の機械学習モデルの獲得利益はめでたく1億を突破することができた。運用モデルの概要については筆者のブログにて紹介したが、折角の機会なので技術的な内容についてここに続編を執筆する。今回の記事では、株価を予測するための特徴量についてその考え方をまとめる。 特徴量の種類 個別銘柄を説明するための代表的なデータとは、財務諸表とチャート(価格系列)である。一昔前は個人投資家がこれらのデータを揃えるのにかなりの苦労が必要だった(特に財務諸表が面倒であった)が、最近ではQiitaでXBRL用のライブラリが紹介されていたり、バフェットコードでAPI(有料)が提供されていたりと、随分と手間要らずになってきたように思う。 個別銘柄を説明するための材料についてさらに進んだ話をすると、IRを自然言語処理に掛けてセンチメントを抽出したり、経営陣

                                                                          機械学習による株価予測 いろはの”ろ” - Qiita
                                                                        • Pythonでゼロから機械学習/データ分析を学ぶためのサイトマップ - プロクラシスト

                                                                          データ分析ガチ勉強アドベントカレンダー 24日目。 当サイトでも、Pythonを使ったデータ分析や機械学習について、勉強しながらそれをアウトプットとして出すと言うかたちで、何個も記事を書いてきました。 記事数で言えば50とかそのくらいあるような気がします。 カレンダーも完成しつつあるので、個々では当サイトの総まとめとして、機械学習やデータ分析に触れたいという人がゼロから始めて触れられるように、記事をまとめていきたいと思います。 何か面白いことを勉強したい学生、就職までの勉強に、急に機械学習を使わなければならない社会人方々は、読んで見てください。 0. 環境構築 0.1. Pythonの導入 (Anaconda) 0.2. エディタ (Pycharm/VSCode) 0.3. バージョン管理 (Git) 1. Pythonの使い方(基本ライブラリ) 1.1. 数値計算 : numpy 1.2

                                                                            Pythonでゼロから機械学習/データ分析を学ぶためのサイトマップ - プロクラシスト
                                                                          • ヴォイニッチ手稿について - Qiita

                                                                            ヴォイニッチ手稿ハッカソンという謎のイベントが開催されるので主催でもなんでもないけど勝手にそれ向けの資料をまとめていく。 計算言語学の論文を書いた時に、ネタでVoynich manuscriptとRongorongoも一緒に計算対象にしたりして、サーベイをしたのでその時の知見をまとめて行く。書いた論文は別に未解決文字にフォーカスした論文ではなく面白いかどうかはわからないけどかなり真面目な内容の奴なのであしからず。 voynich maniscriptとは 謎の文字と気持ち悪い絵がいっぱい書かれた変な本。何らかの未知言語で書かれているかもしれないし、適当にそれっぽく作って詐欺に使われた道具かもしれない。個人的には、アラビア語系の言語で書かれたなんらかの文書をもとに適当に作ってそれっぽい絵を付けた美術品だと思ってる。 以下のページが、これまでの歴史的経緯について詳しい http://www.v

                                                                              ヴォイニッチ手稿について - Qiita
                                                                            • 実践 機械学習システム

                                                                              本書は、実際に手を動かしながらシステムを作成し、そのエッセンスを身につけることを目的とした機械学習システムの実践的な解説書です。「データといかに向き合うか」という視点から、生のデータからパターンを見つける方法を解説します。Pythonと機械学習の基本、ライブラリの使い方をはじめ、具体的な例に基づいたデータセット、モデル化、レコメンドと、その改良、音声や画像の処理など、より重要な問題についても解説します。さらに、テキストや画像、音声に対して機械学習の手法を適用する方法を学び、機械学習関連技術の評価方法や、最適な選択を行うための比較方法について学びます。本書で学んだツールと知識があれば、実際の問題を解決できる独自のシステムを作成できるようになるでしょう。 謝辞 原書の監修者について はじめに 1章  Pythonではじめる機械学習 1.1 機械学習と Pythonはドリームチーム 1.2 本書

                                                                                実践 機械学習システム
                                                                              • Coursera を利用した機械学習勉強会 - Hatena Developer Blog

                                                                                はてなアプリケーションエンジニアの id:takuya-a です。 はてなでは、 BrandSafe はてな や、はてなブックマーク のカテゴリ分類など、様々なところで機械学習を利用していますが、今月の初めより、 Coursera の機械学習のコースを参加者全員が修了する ことを目的とした勉強会を開催しています。 今回は、その機械学習勉強会についてご紹介します。 機械学習の学習をするうえでの課題 機械学習は、独力で勉強するのが難しい分野です。 教科書を一人で読み通すのは大変でしょうし、体系的な知識を得るのはさらに困難です。 各地で機械学習の輪読会が開かれているようですが、 発表の準備が大変 参加者に詳しい人がいないと、わからないまま終わってしまう箇所がある 参加者の理解度を測るのが難しい 発表を聞いているだけだと、身につかない(実体験として) といった課題があります。その点、 Course

                                                                                  Coursera を利用した機械学習勉強会 - Hatena Developer Blog
                                                                                • エムスリーの機械学習エンジニアが語る、医療用語に注目した文書の類似度計算のしくみ

                                                                                  エムスリーの機械学習エンジニアが語る、医療用語に注目した文書の類似度計算のしくみ 医療用語に注目した文書の類似度計算 2019年1月22日、freee株式会社にて、Data Driven Developer Meetupが主催するイベント「Data Driven Developer Meetup #4」が開催されました。サービスをより良いものにするために日々データと向き合っているデータサイエンティストやエンジニアなど、様々な職種で活躍する人々が集い、知見を共有する本イベント。今回は日本経済新聞社とエムスリー株式会社の2社がメインセッションに登壇し、自社の取り組みについて語りました。プレゼンテーション「医療用語に注目した文書の類似度計算 」に登場したのは、株式会社エムスリーのnishiba氏。医療用語が用いられた文書の類似度を計算するために用いた仕組みとその裏側を語ります。講演資料はこちら

                                                                                    エムスリーの機械学習エンジニアが語る、医療用語に注目した文書の類似度計算のしくみ