mergyiのブックマーク - はてなブックマーク

機械学習関係の主要人物20人を調べてみました - フリーランチ食べたい

mergyi 2018/11/04

調べるのけっこう大変でした

テクノロジー

リンク

Python その2のカレンダー | Advent Calendar 2018 - Qiita

The Qiita Advent Calendar 2018 is supported by the following companies, organizations, and services.

mergyi 2018/11/03

書こうと思ったらもう1が全部埋まってしまっていたので作りました！

リンク

確率的プログラミング言語 TensorFlow Probability【高レベルAPI、`tfp.glm`の紹介】 - HELLO CYBERNETICS

はじめに APIの全体像 Layer 0 : TensorFlow Layer 1 : Statistical Building Blocks Layer 2 : Model Building Layer 3 : Inference techniques Layer 4 : Pre-built models + inference 高レベルAPItfp.glmの紹介提供されている一般化線形モデル（GLM） ●class Bernoulli ●class BernoulliNormalCDF ●class Poisson ●class PoissonSoftplus ●class Normal ●class NormalReciprocal ●class LogNormal ●class LogNormalSoftplus ●class GammaExp ●class GammaSoftp

mergyi 2018/11/01

“contribは完全に廃止”

リンク

フリーランチ食べたい

命名はソフトウェア開発において、全開発者が毎日行う重要な作業です。モジュール名、クラス名、変数名など様々な種類の命名を考えなければいけません。私はテックリードとして働いているので、チームメンバーが命名に苦戦している場面を良く目にします。命名に関するプラクティスはたくさんあるのですが、まだ紹介されているのを私は見たことがないプラクティスを紹介したいと思います。と、書くとイノベーティブなプラクティスを書くように思われるかもしれませんが、すみません、そんなことはありません。恐らくある程度経験を積んだ開発者はみんなやっていることかと思います。そのプラクティスは「検算」です。なぜ検算が必要かというと、命名が上手くいっていない方の多くが、実態からのみ命名をしてしまっているからです。検算というのは、この逆向きを確認することを言っています。つまり「命名から実態を引けるか」という確認です。私のプラクテ

mergyi 2018/10/26

テクノロジー

リンク

%macro/%store を組み合わせてJupyterでのライブラリ読み込みを劇的に効率化する - フリーランチ食べたい

Jupyterで読み込むライブラリを毎回書いてませんか？機械学習やデータ解析をJupyterで行うときに読み込むライブラリって大体決まっていますよね。毎回1、2つ目のセルにライブラリ読み込み処理をズラッと書いてないですか？人によってはスニペットアプリなどで管理している方もいるかもしれませんが、Jupyterの %macro と %store を使うことでもっと短く、シンプルに、効率的にライブラリの読み込みを行うことができるので紹介したいと思います。 Notebookの最初のセルはこんな風になっていませんか？これは自分がいつも読み込むライブラリ群で、自分はAlfredのsnipetを使って呼び出せるようにしていました。 %load_ext autoreload %autoreload 2 %matplotlib inline from IPython.display import I

mergyi 2018/10/25

MagicCommand便利なんですよ

テクノロジー

リンク

Linus Torvalds is back in charge of Linux

At Open Source Summit Europe in Scotland, Linus Torvalds is meeting with Linux's top 40 or so developers at the Maintainers' Summit. This is his first step back in taking over Linux's reins. A little over a month ago, Torvalds stepped back from running the Linux development community. In a note to the Linux Kernel Mailing List (LKML), Torvalds said, "I need to change some of my behavior, and I wan

mergyi 2018/10/22

リンク

Stackingを簡単な実装で直感的に理解する - フリーランチ食べたい

Stackingとは何か機械学習モデルの精度を向上させる手法の1つで、モデルを積み重ねる(Stackする)ことで精度を高めます。ポピュラーかつ、強力な手法なKaggleのKernelで見ることも多いですね。アンサンブル学習の一種で、他のアンサンブル学習にはAveraging/Bagging/Boostingがあります。 Stackingは他のアンサンブル学習の手法と比べると文章だけ読んでも理解し辛いので、直感的に理解できるように図と簡単な実装で説明してみたいと思います。注意: この記事で書かないこと今回は概念の理解にフォーカスしたいので、バリデーションの手法については触れません。特にSecondLevelでのバリデーションについてはいくつか選択肢があり、データの性質によって使い分けが必要なので次回以降書きたいと思います。 Stackingの概念まず直感的な説明から始めたいと思い

mergyi 2018/10/21

Stackingは簡単な実装にも関わらずとてもパワフルです

リンク

日々のアウトプットが変える！あなたのエンジニア・ライフ

本日はLIFULLさんの会場で日々のアウトプットが変える！あなたのエンジニア・ライフという表題のイベントに参加してきました。トーク① まつもとりーさん、kwappaさんが語る！毎日アウトプットできるエンジニアになるためのヒント ※本日はまつもとりーさんは体調不良でリモート参加になりました https://forkwell.connpass.com/event/102045/ なぜポートフォリオが必要なのか Forkwell上のまつもとりーさんのPortfolio 実はForkWell技術顧問ペパボ京都大学博士 Gitリポジトリ診断人類を超越したC神デフォルト好きのVimユーザーコードをよく書く余談: (家族に迷惑かけているかも知れない) 自分(まつもとりーさん)の体験 6年前(28歳)(現在34歳) (社会人になったあとに博士課程に入り直した) Web技術ではよくあるや

mergyi 2018/10/10

リンク

matsumotoryさん、kwappaさんの公開ポートフォリオレビューを受けました/自分なりにアウトプットすることのメリットを整理してみた - フリーランチ食べたい

「エンジニアの日々のアウトプット」に関するForkwellさんのイベントに参加してきました。 ForkwellのポートフォリオはのぼりーさんのクラウドPodcastのmatsumotoryさんゲスト回を聞いて興味を持ち使い始めました。ただ、埋めやすいところを埋めてGithubを連携させただけで、ちゃんと使いこなせていたかは疑問でした。そんなときに、このイベントを前職の同期から聞き、開催場所も前職のオフィスだったので久々に遊びに行きたい気持ちもあって応募しました。 forkwell.connpass.com ポートフォリオを(強制的に)ちゃんと埋めましたイベントページにゲストのお二人が参加者のポートフォリオを抽選で3名レビューいたします！との記載があったので、せっかくなので…ということで応募したら、なんと選ばれました！ 85人の前でレビューされる、というプレッシャーもあり、週末の半

mergyi 2018/10/10

公開レビューしていただきました…！

リンク

Tech Workers Now Want to Know: What Are We Building This For? (Published 2018)

Tech Workers Now Want to Know: What Are We Building This For? Laura Nolan, a software engineer in Ireland, left Google in June over the company’s involvement in Project Maven, an effort to build artificial intelligence for the Department of Defense.Credit...Paulo Nunes dos Santos for The New York Times SAN FRANCISCO — Jack Poulson, a Google research scientist, recently became alarmed by reports th

mergyi 2018/10/08

Jeff Dean…

リンク

PyCon JP Blog: トークのスケジューリングを組合せ最適化問題として解く

PyCon JP 2018 システムチームの池田(@ikedaosushi)です。いよいよPyConJP 2018開催まで1週間に迫りました。トーク、ポスター、LTとタイトルと概要だけ見ても興味深い内容ばかりで当日が待ち遠しいです。さて、先日HP上で全体タイムテーブルを公開し、トークのスケジュールを皆さんにお知らせすることができました。タイムテーブル詳細については是非HPをチェックしてください。(https://pycon.jp/2018/event/conference) トークのスケジューリング(スケジュール作成)は、一見すると簡単そう、単純そうに思えるかもしれません。しかし、参加者の皆さんの体験をより良いものにするためには、言語・ジャンル等の複数の要素を鑑みながらバランスよく割当をする必要があり、意外と人間が直接解くには難しい問題です。この投稿では、PyCon JP2018をより

mergyi 2018/10/07

書いた(結構前に)

リンク

AIの一生を擬人化するとこうなる - bohemia日記

こんにちは。ぼへみあです。巷では、AIに話せば色々してくれる、AIがデータを分析して売り上げを伸ばしてくれる、AIが仕事を奪う、AIが運転してくれるなど、AIを擬人化しすぎていると感じています。擬人化のおかげで人はAIに親しみを持ち「気軽に導入してみるか」というポジティブな面もありますが、擬人化しすぎて誤解している部分がかなり多いかと思います。そこで、AIをエンジニアが生み出して運用するまでの過程を、徹底的に擬人化したらどうなるのかを書いてみました。機械学習では学習モデルをエンジニア生み出し学習させることから、親=エンジニア、子=AI、という想定です。本当に子供が必要なのか？まずはAIにする子供を作ります、と言いたいところですが、本当に子供が必要なのかよく考えます。後述しますが、子供を作るととても大変です。育てるのも時間とお金がたくさんかかります。親もハイスペックでないと賢く育

mergyi 2018/10/06

リンク

Leakage in Data Mining

データマイニングの現場で頻発する Leakage という問題について本気出して考えてみた、的な論文を読んだ： Leakage in Data Mining: Formulation, Detection, and Avoidance. KDD 2011. 概要 Leakage とは、モデルを作るときに、本来知らないはずの情報（変数やデータ）を不当に使ってしまうこと手元のデータではメッチャ高い精度が出たのに、本番環境ではまったく精度が出ない、といった事態になるその問題について定式化を試みると同時に、Leakage を検知・回避する方法を考えるこういう議論がまじめにされてこなかったせいで、KDD Cup 2008 のようなプロが企画・主催したコンペでさえ、問題の不備による Leakage が発生しているおもしろ事例集はじめに、データマイニングコンペでの Leakage 事例が幾つか紹

mergyi 2018/10/04

リンク

10月8日(月)につくばPythonもくもく会 No.1を開催します！ - フリーランチ食べたい

Pythonを使っている方&Pythonを勉強したい方一緒にもくもくしませんか？宣伝です。これから、つくばでPythonもくもく会を定期的に開いていきます！第1回は10月8日(月)11:00~@筑波大学内体バチで行います。将来的にはPythonの情報共有ができたり、交流の輪を広げられるコミュニティにしていけたらいいなと妄想しています。参加費や条件などは無料なのでぜひぜひお気軽にお申し込みください。詳細はconnpassページをご参照ください。申し込みもこちらからできます。途中参加退場なども自由です！ tskubapy.connpass.com 動機など少しだけ一番直接的な動機はPyConJP 2018 に運営として参加したことです。今まで自分の会社以外でPython エンジニアを触れ合う機会がほとんどなかったので、とても刺激的でした。コミュニティがあると、インプットアウト

mergyi 2018/10/03

JoinUs!

リンク

ISOに従っていないデータをpandas.to_datetime()すると500倍以上遅くなる可能性がある話とその対策 - フリーランチ食べたい

TL;DR pandasの to_datetime メソッドはとても便利で、かなり乱暴にデータを突っ込んでもParseしてくれますでもデータによってはparseに通常の30倍以上時間がかかる可能性があるので注意しましょう ISO_8601の規格に従っていない場合はとりあえず format オプションをつけておくのが得策です。コードはすべてGithubにあがってます github.com 検証するデータこちらのKaggleのデータを使いたいと思います。なぜこのデータかというと実際に痛い目にあったからです。笑 Final project: predict future sales | Kaggle df = pd.read_csv(Path.home()/'.kaggle/competitions/competitive-data-science-final-project/sales_

mergyi 2018/10/03

pandasについて書きました

リンク

pathlibで見るPythonの演算子オーバーロード活用 - フリーランチ食べたい

pathlibって便利ですよね最近pathlibの便利さが様々なところで語られています。 Python3.4以降ならos.pathはさっさと捨ててpathlibを使うべき - Qiita pathlibとかいう優秀すぎる標準ライブラリ(python) - 備忘録とか日常とか pathlibの様々な機能は上記の記事やドキュメントを読んでいただければわかるので、今日はその1つに、Pythonのオーバーロードを説明するのに良い機能があるので紹介したいと思います。 pathlibはこんな風にパスを書けます。 from pathlib import Path etc_dir = Path('/etc') init_dir = 'init.d' print(etc_dir/init_dir/'reboot') # => /etc/init.d/reboot 最初に見ると、ちょっとギョッとするのではな

mergyi 2018/09/27

Pythonネタです

リンク

研究がESSSB 17th@ベルギー・ヘントでポスター発表されました！ - フリーランチ食べたい

mergyi 2018/09/23

研究のポスター発表がありました！

リンク

BigQuery GIS/GeoPandasを使ってお手軽にIPアドレスで地理空間分析を行う「Wikipediaはどこから編集されている？」 - フリーランチ食べたい

TL;DR BigQueryの fh-bigquery:geocode.geolite_city_bq_b2b Tableを使い IPアドレスから緯度経度を取得できます国土地理院の「地球地図日本」から地図データを取得することができます GeoPandasを使うことでお手軽に地理情報を可視化できます BigQuery GISを使うと制限はありますが、もっと簡単に可視化することができます ↓BigQuery GISを使った可視化ですコードは全てGithubに置いてあります。 github.com アクセスログ解析でのIPアドレスアクセスログには基本的にIPアドレスが格納されていますが、アクセスログ分析する際に使っていないことも多いのではないでしょうか？実はIPアドレスとBigQueryを上手く活用することで簡単に地理情報解析が行えるのです。データ実際にはアクセスログなどを使うことに

mergyi 2018/09/16

Geo Viz良かったです

リンク

Microsoft intercepting Firefox and Chrome installation on Windows 10 - gHacks Tech News

When you try to install the Firefox pr Chrome web browser on a recent Windows 10 version 1809 Insider build, you may notice that the installation gets interrupted by the operating system. The intermediary screen that interrupts the installation states that Edge is installed on the device and that it is safer and faster than the browser that the user was about to install on the device. Options prov