[B! 機械学習] itpcfgのブックマーク

itpcfg id:itpcfg

機械学習に関するitpcfgのブックマーク (27)

機械学習システムのアーキテクチャアラカルト
https://www.youtube.com/watch?v=krnaOxKRhoQ&feature=youtu.be Machine learning system in Python. https://github.com/mercari/ml-system-design-pattern
itpcfg 2019/02/16
機械学習

仕事
リンク
Optunaを使ってFFmpegのエンコードパラメータを最適化してみる
README.md 概要 Optunaというハイパーパラメータ最適化ツールを使って、FFmpegでの動画エンコードパラメータの最適化を試してみた結果のメモ具体的には、決められた制約(後述)下で、画質(SSIM)を最大化するようなパラメータ群を自動で見つけ出すのが目的結果としては、画質的には、FFmpegが提供しているプリセットの中で二番目に重いもの(slower)より若干良い程度のパラメータ群が見つかったまた、Optunaが見つけたパラメータ群の方がslowerに比べて、CPU負荷が小さかった方針時間と計算資源はそこそこ潤沢にあるものと仮定し、その中で「各動画のエンコード」を最適化したいとする各動画毎に、最適なエンコードパラメータ群を都度決定するようなユースケース動画の種類毎(e.g., スポーツ、アニメ、ニュース、実況、3D)にパラメータを分けたい、的なものの発展形問題
itpcfg 2019/01/23
あとで読む

機械学習
リンク
機械学習初心者が約10ヶ月でメダルより大切なものを獲得できた話【kaggle Advent Calendar 17日目】 - ギークなエンジニアを目指す男
本記事は、kaggle Advent Calendar 2018の17日目の記事です。 qiita.com 何を書くか直前まで悩んでいましたが、16日に参加したAIもくもく会の中で、機械学習に興味はあるけど、どのような手順で、何から勉強していったら良いかわからないという方が数名いたので、自分が今年の3月くらい〜今日に至るまで勉強してきた中から今の自分ならこのような手順で勉強することをオススメする！という記事を書いてみようと思います。 ※自分の勉強した教材の中からのオススメになるので、偏った内容になることをご了承ください。 ※これもオススメ！というものがありましたら、ぜひ教えていただけると嬉しいです。タイトルにあるメダルより大切なものについては最後に記載しております。対象読者 2018年3月時点の筆者スペック 2018年3月〜今日に至るまで勉強したこと羅列書籍動画 udemy
itpcfg 2018/12/17
あとで読む

機械学習
リンク
Python: 機械学習における不均衡データの問題点と対処法について - CUBE SUGAR CONTAINER
機械学習における分類問題では、扱うデータセットに含まれるラベルに偏りのあるケースがある。これは、例えば異常検知の分野では特に顕著で、異常なデータというのは正常なデータに比べると極端に数が少ない。正常なデータが 99.99% なのに対し異常なデータは 0.01% なんてこともある。このようなデータセットは不均衡データ (Imbalanced data) といって機械学習で扱う上で注意を要する。今回は、不均衡データを扱う上での問題点と、その対処法について見てみる。なお、登場する分類問題の評価指標については、以前このブログで扱ったことがあるのでそちらを参照のこと。 blog.amedama.jp 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.2 BuildVersion: 18C54 $ python
itpcfg 2018/12/17
python

機械学習
リンク
機械学習の中身を理解する - Speaker Deck
2018年12月5日リクルートスタッフィングのイベントでの資料です。「機械学習のエッセンス」の解説がメインになっています。
itpcfg 2018/12/06
機械学習

あとで読む
リンク
[Kaggle]0から本当に機械学習を理解するために学ぶべきこと～一流のデータサイエンティストを例に～ - Qiita
「機械学習が出来るようになりたい」そう思いつつも、中々身についた感じがしない。そんな方々に向けて、Kaggleで公開されているデータ分析の手順を追いかけながら、そこで必要とされている知識を解説したいと思います。全体像を把握することで、より理解が進むはずです。 1. データを分析するために必要な統計的知識機械学習の目的は未知の事柄を推定することです。そのために既にあるデータから何らかの法則性を見つけ出す為に様々な手法が考えられてきました。統計学はご存知でしょうか？　機械学習はデータを扱うという点で統計学と深い関係があります。平均値や標準偏差などは聞いたことがあると思います。統計学はそれらの情報をこねくり回すことによって、限られたデータから本当の全体像を推定します。例えば、選挙の結果を開示前に知りたいときに、投票者全員に聞ければ良いですが、そうもいきません。そこで、統計学は様々な方法を使
itpcfg 2018/07/16
あとで読む

機械学習

python
リンク
月刊: Kaggleは役に立たない | threecourse's memo
Kaggle Meetupのネタにでも、ふわっとした文章を書いてみる。個人の意見です＆ここ１－２年の状況変化は追えていないかも。（追記：タイトルは「月刊競技プログラミングは役に立たない」という競プロ方面のネタから来ています）どうでもいい技術、どうでもいくない技術 Kaggleで勝つための技術を書き連ねてみる: Python, R, ライブラリの使い方特徴量の作成データについての考察、EDA モデルの使い方、パラメータチューニング評価指標についての考察 DiscussionやWinner’s interviewを読む英語力柔軟に作業や分析を回すためのクラス・ワークフロー・ログなどの実装 GCP, AWS, BigQueryといったサービスの運用論文を読んで手法を参考にしたり実装したりする力折れない心改めてまとめてみると普通に学んで損のないものばかりな気がしてきた。ただ、
itpcfg 2018/05/11
機械学習

machine learning
リンク
データ分析で頻出のPandas基本操作 - Qiita
はじめに機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。本頁では、データ処理の基本ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…！、という人のためのPandasマニュアルです。また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対
itpcfg 2018/04/17
pandas

python

機械学習

データ解析
リンク
KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。参加の動機目標感: 頑張りすぎずに上位10%以内に入る試行錯誤 AthenaとRedashによる探索的データ解析ベンチマークをまず超える線形分類器でシンプルな特徴量時系列要素を忘れていて過学習発生特徴量エンジニアリン
itpcfg 2018/03/19
機械学習

学習

プログラミング

python

machine learning
リンク
word2vec（Skip-Gram Model）の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて！世界一やさしいデータ分析教室
久しぶりの記事更新です。今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非！ Pythonと実データで遊んで学ぶデータ分析講座作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本（ソフトカバー）この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる
itpcfg 2018/01/17
あとで読む

機械学習
リンク
Deep Image Prior
Example results on several image restoration probl ems. We use deep neural networks, but we never train/pretrain them using datasets. We use them as a structured image prior. Deep convolutional networks have become a popular tool for image generation and restoration. Generally, their excellent performance is imputed to their ability to learn realistic image priors from a large number of example ima
itpcfg 2017/12/05
deeplearning

あとで読む

機械学習
リンク
dfltweb1.onamae.com – このドメインはお名前.comで取得されています。
このドメインはお名前.com から取得されました。お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。
itpcfg 2017/11/18
機械学習

python

あとで読む

プログラミング

deeplearning
リンク
GPUでディープラーニングやるならAWSよりFloydHub - Qiita
UdacityのDeep Learning Nanodegree Foundation のコースでFloydHubという便利なサービスが紹介されていました。ディープラーニングのHerokuだそうです。 GPUが使えるプランも月額14ドルからなので、手軽にGPUでディープラーニングを始めることができます。 TensorFlowとKerasがデフォルトですが、他にもPyTorchやChainerなどメジャーなフレームワークはだいたい使えるようになっています。 2017/10/18 追記この記事を書いた直後に、KaggleのKernelについての記事が投稿されています。Kaggleのデータセットに限って言えば、Kernelを使う方が簡単そうです。パワーアップしたKernelでKaggleに飛び込もう - Qiita FloydHubのいいところ起動が簡単 floyd-cliというコマンドラ
itpcfg 2017/10/15
deep learning

機械学習
リンク
画像処理の数式を見て石になった時のための、金の針 - Qiita
画像処理は難しい。 Instagramのキレイなフィルタ、GoogleのPhoto Sphere、そうしたサービスを見て画像は面白そうだ！と心躍らせて開いた画像処理の本。そこに山と羅列される数式を前に石化せざるを得なかった俺たちが、耳にささやかれる「難しいことはOpenCVがやってくれるわ。そうでしょ？」という声に身をゆだねる以外に何ができただろう。本稿は石化せざるを得なかったあの頃を克服し、OpenCVを使いながらも基礎的な理論を理解したいと願う方へ、その道筋(アイテム的には金の針)を示すものになればと思います。扱う範囲としては、あらゆる処理の基礎となる「画像の特徴点検出」を対象とします(実践コンピュータビジョンの2章に相当)。なお、本記事自体、初心者である私が理解しながら書いているため、上級画像処理冒険者の方は誤りなどあれば指摘していただければ幸いです。画像の特徴点とは人間が
itpcfg 2017/09/28
画像

あとで読む

技術

機械学習

machine learning
リンク
If文から機械学習への道
機械学習とif文が地続きであることを解説しました。 ver.2 質問への回答を追加し、顧客価値の小問に図を追加してわかりやすくかみ砕きました。Read less
itpcfg 2017/09/27
機械学習

machine learning

あとで読む
リンク
「人工知能ってどこでダウンロードできるんですか？」→無理です
人工知能を理解している人と、全く分かっていない人を隔てる壁の1つに「人工知能はどこかでインストールできるプログラムだ」という誤解があります。私自身、「ダウンロードして使ってみたいんだけど」と相談された経験が何度もあります。 2017年現在、ビジネスの現場で「人工知能」という言葉が使われるとき、それが指し示す意味はほぼ「ディープラーニング（深層学習）」と同義です。そのため、Googleの機械学習ライブラリ「TensorFlow」や、Preferred Networksが開発したライブラリ「Chainer」がそうしたプログラムだと言えなくもありません。しかし、これらは人工知能そのものを作れる汎用的なプログラムとはいえません。あくまで、人工知能が物事を学んだり、判断したりするための基準である「アルゴリズム」を作成するプログラムにすぎないためです。そのため、課題や状況に合わせて作り込む必要があり
itpcfg 2017/08/24
あとで読む

人工知能

機械学習
リンク
データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは（2017年夏版） - 渋谷駅前で働くデータサイエンティストのブログ
この記事は2年前の以下の記事のアップデートです。前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。で、2年経ったらいよいよ統計分析メインのデータサイエンティスト（本物：及びその他の統計分析職）vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。そこで、今回の記事では「データサイエンティスト」*1「機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書
itpcfg 2017/06/26
python

deeplearning

機械学習
リンク
機械学習の情報を手法を中心にざっくり整理 - Qiita
概要自分用のメモとして、機械学習に関する情報を浅く ( それなりに ) 広くをモットーに、ざっくり整理してみました。少しでも、他の方の理解に役立ったら嬉しいです。機械学習とはコンピュータプログラムが経験によって自動的に出力結果を改善していく仕組み。機械学習の代表的な手法について記載します。１．教師あり学習２．教師なし学習３．強化学習に分けて記載しました。 ※概要説明は一例です。 1．教師あり学習 1-1．線形回帰予測したい値を算出する式を連続する多項式として表し、各係数を最小二乗法や最尤推定法で求めることでモデルとなる式を決定する Pythonライブラリ：scikit-learn（sklearn.linear_model.LinearRegression）参考：最小二乗法による線形回帰のアルゴリズム (自身のQiitaの過去記事です) 1-2．ロジスティック回帰 2択
itpcfg 2017/05/09
python

機械学習

プログラミング

Machine Learning

あとで読む
リンク
Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog
この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook この章では機械学習について、Webサービスの開発で必要とされる知識を中心に、とくに自然言語処理にフォーカスしながら解説します。 Webサービス開発と機械学習実現困難な機能の例闇雲な実装もう少しましな実装機械学習によるパラメータ決定分類問題のための機械学習手法パーセプトロン判別アルゴリズム学習アルゴリズム特徴量のとり方形態素解析量をともなう特徴組み合わせ特徴量モデル機械学習の種類教師あり学習分類 (質的変数の予測) 回帰 (量的変数の予測) 教師あり学習でのデータセット教師なし学習クラスタリング次元削減(次元圧縮) 頻出パターンマイニング異常値検出アルゴリズムの評価訓練データとテストデータ学
itpcfg 2017/04/27
機械学習

あとで読む

Web

machine learning
リンク
TechCrunch | Startup and Technology News
Hello and welcome back to TechCrunch Space. What a week! In the same seven-day period, we watched Boeing’s Starliner launch astronauts to space for the first time, and then we…
itpcfg 2017/04/15
deeplearning

機械学習

人工知能

AI

あとで読む
リンク
1 2 次のページ