【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本本機械学習数学データ分析データサイエンス Update版2023年版データ分析の100冊を書きましたよ! 必読10冊を更新。データサイエンス、データ分析、機械学習周りでおすすめ図書10選のような記事は良く見ますが、網羅的な紹介記事はあまり見かけないので自分が欲しいと思い書きました。私よりたくさん読んでいる方は多々いらっしゃると思いますが、記事を書いてくださいな。 別の観点でデータ分析プロジェクトのフェーズ毎の参考書籍紹介という記事を新たに書きました。 データ分析の各フェーズ(データ分析プロジェクト全体-ビジネス状況の理解-データの理解-データの準備-モデルの作成-評価-展開)毎に参考書籍を紹介しています。 本記事の対象と想定 Qiitaはプログラマやコンピューター系技術者のための記事と思っ
※本記事は、Lionbridge AI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。 本記事は、日本語のデータセットを紹介いたします。日本語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日本語のテキストデータセットを含みます。 機械学習に使える日本語のデータセットポータル DATA GO JP: 日本政府のデータカタログサイト。日本政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイ
人間は、不完全な対象を補間して完全なものとして知覚できる。人間の脳をモデルにしたニューラル・ネットワークにおいて、こうした心理学の法則は成立するのだろうか。グーグル・ブレインの研究チームが答えを出した。 by Emerging Technology from the arXiv2019.03.22 137 93 7 0 20世紀初頭にドイツの実験心理学者のグループは、人間の脳が予測不可能な混沌とした世界を意味ある世界として認識する方法に疑問を持ち始めた。そして、この疑問に答えるために「ゲシュタルト効果」という概念を発展させた。知覚を考えるとき、部分の集合体ではなく全体性に重点を置いて捉える考え方だ。 それ以来、心理学者たちは人間の脳が断片的な情報に基づいて全体像を知覚するのに著しく優れていることを発見してきた。その良い例が以下に示した図だ。脳は三角形や四角形などの2次元形状に加え、3次元の
これはなに? デジタルマーケター 兼 プロダクトマネージャー 兼 データアナリスト (肩書長い…) の私が Kaggle に挑戦した約半年間の記録です。現時点で2つのコンペに真面目に取り組んで2つの銀メダル(入賞)を獲得出来ています。 Kaggle挑戦期間を通して、有識者の素晴らしい資料に助けられたのでとても感謝しています。同じような志を持つ方に自分の記録が少しでも役に立てばと思い、有用な資料のリンク集に私のKaggle参戦記ポエムをつけてまとめてみました。 自分の得意領域で勝負しようと思ってテーブルデータのコンペばかり選んでいるのでDeepLearning系の話は全然ないです、すみません。 目次 プロローグ Kaggleへの興味の芽生え 初参戦 → 即撤退 ガチ参戦に向けた修行 初ガチコンペデビュー 初ガチコンペ…、のはずが。 初ガチコンペ参戦 ベースモデル作成 特徴量エンジニアリング
さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。 ベイジアンフィルタの実装 ここから本格的にベイジアンフィルタの実装に入っていきます。 その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。 リスト2 文章の分割をする関数(naivebayes.py) # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)
We’re releasing a Neural MMO, a massively multiagent game environment for reinforcement learning agents. Our platform supports a large, variable number of agents within a persistent and open-ended task. The inclusion of many agents and species leads to better exploration, divergent niche formation, and greater overall competence. In recent years, multiagent settings have become an effective platfo
久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる
OpenAIが先ごろ発表していた「GPT-2」というテキスト処理関連のアルゴリズムについて、「危険なほどよくできている」ことを理由に公開を見送るという方針を打ち出していた。そして、この判断に対して一部の人工知能(AI)研究者・開発者の間から「おかしいのではないか」という反論の声が上がっている。その話を今回は紹介する。 「GPT-2」発表のニュースについては下記のCNET記事をご覧いただきたい。 マスク氏が支援するOpenAI、大規模な教師なし言語モデル「GPT-2」の情報を公開 実はこの記事、依拠したオリジナル(英語記事)のほうは次のような見出しになっていた。直訳すると「Musk氏が支援するAI組織:われわれのテキストジェネレーターは恐ろしいほど優秀だ」となる。 Musk-backed AI group: Our text generator is so good it's scary -
「機械学習が出来るようになりたい」そう思いつつも、中々身についた感じがしない。 そんな方々に向けて、Kaggleで公開されているデータ分析の手順を追いかけながら、そこで必要とされている知識を解説したいと思います。全体像を把握することで、より理解が進むはずです。 1. データを分析するために必要な統計的知識 機械学習の目的は未知の事柄を推定することです。そのために既にあるデータから何らかの法則性を見つけ出す為に様々な手法が考えられてきました。 統計学はご存知でしょうか? 機械学習はデータを扱うという点で統計学と深い関係があります。平均値や標準偏差などは聞いたことがあると思います。統計学はそれらの情報をこねくり回すことによって、限られたデータから本当の全体像を推定します。例えば、選挙の結果を開示前に知りたいときに、投票者全員に聞ければ良いですが、そうもいきません。そこで、統計学は様々な方法を使
巷ではDeep Learningとか急に盛り上がりだして、機械学習でもいっちょやってみるかー、と分厚くて黄色い表紙の本に手をだしたもののまったく手が出ず(数式で脳みそが詰む)、そうか僕には機械学習向いてなかったんだ、と白い目で空を見上げ始めたら、ちょっとこの記事を最後まで見るといいことが書いてあるかもしれません。 対象 勉強に時間が取れない社会人プログラマ そろそろ上司やらお客様から「機械学習使えばこんなの簡単なんちゃうん?」と言われそうな人 理系で数学はやってきたつもりだが、微分とか行列とか言われても困っちゃう人 この記事で行うこと 数学の基礎知識に慣れるための、数式が最初から出てこないプログラマ向けの数学入門書の紹介 機械学習の初学者には鉄板の、オンライン講座(MOOC)の機械学習コース紹介 環境 WindowsでもMacでもLinuxでも大丈夫(MATLAB/Octaveというツール
暗号通貨市場で虚偽の情報を流して価格を吊り上げる「パンプ&ダンプ(風説の流布)」が蔓延している。あまり知られていなかった詐欺の手口や仕組みについて、実例に基づいて調べた研究成果が発表された。機械学習で兆候を事前に検出することにも成功したという。 by Emerging Technology from the arXiv2019.02.21 8 32 3 0 あここ数年間における暗号通貨の状況は、まるでジェットコースターに乗っているかのようだった。2017年の間にビットコインの価値は900ドルから2万ドルへと上昇し、その後、大暴落した。2018年2月初頭時点の1ビットコインの価値は3500ドル足らずだ。 こうした動きが他の暗号通貨の急速な開発を促した。大方の推定では、暗号通貨の数は1000を優に超える。その中からビットコインの成功を再現する暗号通貨が現れると期待されているが、実際には大規模に
The AI wrote a new passage of fiction set in China after being fed the opening line of Nineteen Eighty-Four by George Orwell (pictured). Photograph: Mondadori/Getty Images The AI wrote a new passage of fiction set in China after being fed the opening line of Nineteen Eighty-Four by George Orwell (pictured). Photograph: Mondadori/Getty Images
「機械学習をもっと深く知りたい」「本よりも動画で勉強したい」と言う方は、Udemyの講座が非常におすすめです。 4.Pythonでの機械学習プログラミングを習得したいUdemyの「Pythonで機械学習:scikit-learnで学ぶ識別入門」では、機械学習が専門の大学の先生が、機械学習の基礎知識からプログラミングまで教えてくれます。内容はとても実践的で分かりやすいです。 未経験者がAI開発のスキルを身につけるためには、上述の1から4を学ぶことが、学習効率が高いと考えています。 良質な本や教材は、いわば自分の先生や友人みたいなものです。ネットでの多読も必要ですが、1つの教材をじっくり学ぶことで、着実にスキルを伸ばすことが出来ます。 人工知能を学ぶために大学に入る必要があるかたまに「人工知能を学ぶためには大学に入り直した方が良いですか」と聞かれます。 もしあなたが人工知能の研究者を目指すなら
XGBoostの凄さに最近気がついたので、もうちょっと詳しく知りたいと思って以下の論文を読みました。 XGBoost: A Scalable Tree Boosting System せっかくなので、簡単にまとめてみたいと思います。。。と思っていたら結構な量になってしいました。 何か間違い等がありましたらコメントをしていただくか、@kefism へ連絡をしてくださると嬉しいです。 XGBoostとは 基本的に内部で行われていることは決定木を複数個作るということです。しかし、その作り方に特徴があります。 ここで記号を定義しておきましょう。 説明変数を次元として、目的変数を、とします。ここではデータの数です。またデータに対する予測値をとします。 まず決定木を1つ構築します。するとその決定木を使用して予測ができるようになります。1つ目の決定木から得られるデータに対する予測値をとしましょう。このと
画像処理が初めての人のための問題集をつくったりました。(完成!!) 研究室の後輩用に作ったものです。 自然言語処理100本ノックがあるのに、画像処理のがなかったので作ってみました。 あくまで趣味ベースで作ったものなので、プルリクエストは受け付けてますが依頼などは一切受け付けません そこをご理解頂けた方のみご利用下さい 画像処理の基本のアルゴリズム理解につながると思います。 pythonのnumpyの練習にもなると思います。(2019.3.8 C++もつくってますーー) ぜひぜひ下のgitをやってみてください。 [HP]https://yoyoyo-yo.github.io/Gasyori100knock/ [Git]https://github.com/yoyoyo-yo/Gasyori100knock ★追記 2020.5.8 環境構築の手間をなくすために、Google Colabに修正
(Image by Pixabay) この記事は以前の書籍リスト記事のアップデートです。 機械学習エンジニアやデータサイエンティストとして(もしくはそうではない職名であったとしても)機械学習システム開発や統計分析を仕事にしたい人なら、最低限これだけは読んでおいて損はないだろうという書籍を初級向け5冊、中級向け10冊選定しています。ただし、以前とは若干異なり「仕事にする」イコール「プロフェッショナルを目指す」ということで、特に初級向けリストを若干レベルアップさせています。中には初学者でも結構読みこなすのが難しい本だけになっているかもしれませんが、中級向けリストに進む上でどうしてもこれだけは読破して欲しいという願望も込めました、ということで。 完全にお馴染みのネタなので特に説明することはないかと思いますが、言うまでもなく以下のリストは完全なる僕個人の独断と偏見で、最近出版されたり自分で読んだ本
自然言語処理ってなに?課題は? 研究者に聞く、エンジニアが学術論文を読み解くための技術 多くのサービスに実装される自然言語処理ですが、そもそも一体どのような技術なのでしょうか?東京工業大学で研究にあたる、西川 仁助教に自然言語処理の歴史と現在。そしてどのような課題があるかをうかがい、さらにエンジニアが学術論文を読み解き、役立つ情報を手にするための手法も聞きました。 技術に関する最新の情報を得るための手段は様々ですが、“学術論文を読む”とは、その有力な手段の一つでしょう。しかし、数多くある論文から、自分の目的とする情報をいかに探し出し、いかに読むのが効率的なのでしょうか。そして、日頃から論文にふれる機会の多い研究者の方はどのように論文から情報収集を読み解いているのでしょうか。 今回お話をうかがったのは、自然言語処理研究のフロントランナーとして、東京工業大学に所属し、自動要約の研究をされている
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く