はじめに こちらの記事は、技術評論社に寄稿させていただいた「エンジニアリング組織論への招待」をご紹介するための文章です。Qiitaにも再掲しておきます。 アジャイルって何だ? 「ウォーターフォールよりもアジャイルのほうがいいのか?」そんな言葉をIT企業の経営者から聞くことがあります。2000年代の後半くらいから、日本国内においてもアジャイル型の開発プロセスが注目を浴びて、多くの企業が実践するようになりました。 ところが、世界各国に比べて日本のアジャイル型開発の普及率は依然として低く、理解度も進んでいません。流行っているからやってみようと始めた企業も流行りが変わると今度はリーンだとか、今度は○○だといったように新しい方式を導入してみては失敗するところも珍しくありません。 アジャイル開発の専門家ですと名乗る人の話を聞いてみても、それが何なのか、けむにまかれたような説明をされてしまい、いまいち納
はじめに 機械学習/ディープラーニング/Pythonに関する、私が書いた記事をまとめたものです。対象のブログは主に以下になります。 karaage. note.mu まとめページを新たに作りました ここにある情報もだいぶ古いものが多くなってきたので、新たに自分が学んだことを以下のページにまとめ直しました。今からだと、こちらから見ていった方が良いかもしれません。 Pythonで基礎から機械学習まとめ 概要・初心者向け 機械学習もディープラーニングもPythonも詳しく知らない・初心者という方は、まずはこちらを参照下さい。 人工知能・機械学習・ディープラーニング関係の雑多なまとめ Pythonで最初に知っておきたかったことのまとめ【初心者向け】 環境構築 環境構築に関する記事です。 Pythonで機械学習をするための環境を雑にセットアップする方法(Jupyter notebook環境、ディープ
陰性のデータは1万件近く集めることができましたが、陽性のデータは100件しか集められませんでした。このように、陽性・陰性というクラス間でデータ数に明らかな偏りがあるケースを不均衡データ(inbalanced data)といいます。 不均衡データの問題点 評価上の問題 これは教科書的な問題で、「精度(Accuracy)が機能しない」という点です。例えば先程の例で陰性がデータ全体の99%なら、ありとあらゆるデータに対して陰性と判定($y=0$)する分類器を作れば、その時点で精度99%を達成してしまいます。 こんなイメージです。機械学習なんていらないですね。笑っちゃうかもしれませんが、実は機械学習を使っても「return 0」みたいな状態に最適化が向かうことがあります(後述)。 今最適化での解の問題はおいておくとして、あくまで評価上の問題なら、Precision, Recall, ROC曲線、F
日本では「欧米」という言葉のもと、ヨーロッパとアメリカを一緒のようなものとして扱ってしまうことをよく見受けます。 例えば、アメリカがすごいという分野があると、それによってヨーロッパも同じようにすごいのだ、というかんじです。 ところがじっさいにアメリカやヨーロッパに住んでみると、この2つは大きく異なる価値観をもった2つの異なる世界なのだと実感することになります。もちろん、そのヨーロッパの中でも、西と東で大きく違い、西ヨーロッパの中でも北と南、もしくはカトリック系とプロテスタント系では大きく違ったりします。さらにアメリカの中でも、例えば東海岸と西海岸では考え方や文化が大きく異なります。 私も日本に行くたびに、いかにシリコンバレーの企業がソフトウェアとデータを使うのがうまいかという話を多くの場面でしますが、こういう話をするとついつい、日本が遅れてて欧米が進んでいると言う話をしていると受け止められ
2017年8月頃から2018年11月頃まで、うつ病の治療をしていた。 インターネットで検索したときに、病気で通い始めた後治ったところまで書かれている記事があまり見つからず、どんどんきつい薬になっていったり自暴自棄になったり、薬ソムリエと化しているものがよく見つかった。僕自身もそのような記事を多く見て「このまま良くならないんじゃないだろうか」と辛い気分になったことがあった。 あまりおおっぴらにいうのもちょっと気が引けたが、「ちゃんと病院に通い続けて、言われた薬をきっちり飲んで、回復した記録」を残すことで、何かの役に立てればと思って書いておきたいと思う。 免責事項 :あくまで僕のケースについて書かれています。ご自身の健康上の問題は医師などの専門家にご相談ください。 なんでうつ病になったのか これはあくまで僕の見解で、そういう診断がついたわけではないのだが、転勤後にうまくストレスのはけ口を見つけ
3ヶ月で出来たもの まずは蠢く内臓の成果物から、これが今回作ったポリープ検出AIです! 上の映像が元の内視鏡の動画で、 下が今回開発した検出AIの動作動画です。 青い枠で「ポリープだよ!」と主張してくれてますね! 3ヶ月の学習の流れ 基礎的な機械学習手法のスクラッチ まずは数学的な理解から始めました。 手法ごとの数式を読んで、それを実装に落としていきます。 - 線形回帰 - 重回帰 - 主成分分析 - Kmeans - 決定木 - SVM 悶え苦しんだのですが、 この時期に数式に対するアレルギーがほぐれていきました! 最初は2乗誤差の微分変形を理解するのに苦労した思い出があります。 このときに一番参考になった書籍は 「やさしく学ぶ 機械学習を理解するための数学のきほん」 です これで機械学習の更新の概念が腹落ちしました。オススメ! kaggleへの挑戦 定番のタイタニックや 良質なコンペの
おすぎやんです。 DockerにオープンソースのBIツールであるPentahoをインストールします。 Pentahoは、レポーティングやデータ・マイニング等の機能をもっています。 データベースやCSV等のさまざまなデータをグラフや表にしてデータ可視化が可能となります。 Dockerのインストールがまだのかたはこちら CentOS 7 に Docker をインストール 1.Pentahoのインストール Dockerでのインストールは非常に簡単です。 下記コマンドを実行します。 # docker run -p 8080:8080 -d wmarinho/pentaho 実行後、すべて「Pull complete」になれば完了です。 これでインストールは完了です。 2.Pentaho初期設定 PentahoのWebインターフェイスインスタンスは、8080ポートで公開します。 下記URLにアクセス
mac OS High SierraにVirtualBox+VagrantでCentOS7仮想環境を構築【#1】 ~ インストールから仮想マシンへの接続まで ~ 2019 8/13 「mac OS High Sierra」のホストOSに、 「VirtualBox + Vagrant」で CentOS7のローカル仮想環境を構築してみました。 大まかな流れはドットインストールと同じですが、CentOS7の場合はドットインストールの通りにはいかない部分が多くあり、結構苦戦したので誰かの参考になればと思います。 今回は最初なので、 CentOS7 の仮想マシンを立ち上げ、接続するまでをメモしていきます。そんなに難しい所はないと思いますので、さくっといっちゃいましょう。 はじめに:ベーシックなUnixコマンドについては特に説明しません。簡単なコマンド知識があることを前提とします。
ここ最近は色々とあってプロジェクト管理、スクラム開発について勉強していたので、それを整理するためにまとめた。 スクラムガイド スクラム現場ガイド SCRUM BOOT CAMP THE BOOK スクラム実践入門 ── 成果を生み出すアジャイルな開発プロセス (WEB+DB PRESS plus) Regional Scrum Gatheringの2018, 2019の全スライド ryuzee.com の2017, 2018のスクラムに関する記事 あたりを読んで勉強したので、スクラムに関する理解はそれなりになっているはず。 ただ、評価や役割に関するところは自分の好みで少し脚色があるので、これが「スクラム開発なのか!」みたいに勘違いしないように注意。 ソフトウェア開発の前提(スクラムはあまり関係ない) 「なぜソフトウェア開発をするのか?」という前提の話を最初に書いておく。 多くの企業の目的は
概要 pep8 が pycodestyle というパッケージ名に変わってた Guido氏の提案が事の発端。 https://github.com/PyCQA/pycodestyle/issues/466 pycodelint という案も出てたが、pylint と区別がつかないので却下になってた 同時に pep257 も pydocstyle という名前に変わった https://github.com/PyCQA/pydocstyle/issues/172 自分の周りの影響範囲を軽く調べてみた。 追記(2018/02/27) ツール(ライブラリ)の pep8 の名前が pycodestyle という名前に変わったというだけで、PEP8 そのものには何も変更はないので気をつけてください。 pep8がスタイルガイドのPEP8と一緒だと混同しやすいのでツールは名前を変えようという話です。 pep2
主張:高速化は最後のおたのしみにしましょう。 無駄にいじいじして高速化させて満足し、結局その後はほとんど使わなかったなあ、、、が私の日常です。 えらい人も言っていますが、高速化なんてホント最後でいいんです・・・。 今まで何十回後悔したことか。。。(これからもまたやりますが。) pythonであれば numba,cython,swig など、コンパイルしちゃう系の力(パワー)を借りることで、 全く同じアルゴリズムでもざっくり100倍単位で簡単に高速化できます。 しかし、このやり方ではpythonのインタープリターなゆるふわ△言語の良さを(該当コード部分において)捨ててしまいます。結局C/C++に魂を売っているだけです。 私は魂を売ることそれ自体が好きなので良いですが、この行為はpythonの持つ別の面での高速性、つまり "生産性の高さ" を犠牲にしています。 コードの実行スピードが速くなって
※あくまでもイメージです(適当) 仕事じゃなくて、趣味の方の野球統計モデルで詰まった時にやったメモ的なやつです.*1 一言で言うと、 約19万レコード(110MBちょい)のCSVの統計処理を70秒から4秒に縮めました. # 最初のコード $ time python run_expectancy.py events-2018.csv RUNS_ROI outs 0 1 2 runner 0_000 0.49 0.26 0.10 1_001 1.43 1.00 0.35 2_010 1.13 0.68 0.32 3_011 1.94 1.36 0.57 4_100 0.87 0.53 0.22 5_101 1.79 1.21 0.50 6_110 1.42 0.93 0.44 7_111 2.35 1.47 0.77 python run_expectancy.py events-2018.c
データとML周辺エンジニアリングを考える会 #1 2019 / 01 / 18 の資料です https://data-engineering.connpass.com/event/111658/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く