The Qiita Advent Calendar 2018 is supported by the following companies, organizations, and services.
はじめに APIの全体像 Layer 0 : TensorFlow Layer 1 : Statistical Building Blocks Layer 2 : Model Building Layer 3 : Inference techniques Layer 4 : Pre-built models + inference 高レベルAPItfp.glmの紹介 提供されている一般化線形モデル(GLM) ●class Bernoulli ●class BernoulliNormalCDF ●class Poisson ●class PoissonSoftplus ●class Normal ●class NormalReciprocal ●class LogNormal ●class LogNormalSoftplus ●class GammaExp ●class GammaSoftp
命名はソフトウェア開発において、全開発者が毎日行う重要な作業です。モジュール名、クラス名、変数名など様々な種類の命名を考えなければいけません。 私はテックリードとして働いているので、チームメンバーが命名に苦戦している場面を良く目にします。命名に関するプラクティスはたくさんあるのですが、まだ紹介されているのを私は見たことがないプラクティスを紹介したいと思います。と、書くとイノベーティブなプラクティスを書くように思われるかもしれませんが、すみません、そんなことはありません。恐らくある程度経験を積んだ開発者はみんなやっていることかと思います。 そのプラクティスは「検算」です。 なぜ検算が必要かというと、命名が上手くいっていない方の多くが、実態からのみ命名をしてしまっているからです。検算というのは、この逆向きを確認することを言っています。つまり「命名から実態を引けるか」という確認です。私のプラクテ
Jupyterで読み込むライブラリを毎回書いてませんか? 機械学習やデータ解析をJupyterで行うときに読み込むライブラリって大体決まっていますよね。 毎回1、2つ目のセルにライブラリ読み込み処理をズラッと書いてないですか? 人によってはスニペットアプリなどで管理している方もいるかもしれませんが、Jupyterの %macro と %store を使うことでもっと短く、シンプルに、効率的にライブラリの読み込みを行うことができるので紹介したいと思います。 Notebookの最初のセルはこんな風になっていませんか? これは自分がいつも読み込むライブラリ群で、自分はAlfredのsnipetを使って呼び出せるようにしていました。 %load_ext autoreload %autoreload 2 %matplotlib inline from IPython.display import I
At Open Source Summit Europe in Scotland, Linus Torvalds is meeting with Linux's top 40 or so developers at the Maintainers' Summit. This is his first step back in taking over Linux's reins. A little over a month ago, Torvalds stepped back from running the Linux development community. In a note to the Linux Kernel Mailing List (LKML), Torvalds said, "I need to change some of my behavior, and I wan
Stackingとは何か 機械学習モデルの精度を向上させる手法の1つで、モデルを積み重ねる(Stackする)ことで精度を高めます。 ポピュラーかつ、強力な手法なKaggleのKernelで見ることも多いですね。 アンサンブル学習の一種で、他のアンサンブル学習にはAveraging/Bagging/Boostingがあります。 Stackingは他のアンサンブル学習の手法と比べると文章だけ読んでも理解し辛いので、直感的に理解できるように図と簡単な実装で説明してみたいと思います。 注意: この記事で書かないこと 今回は概念の理解にフォーカスしたいので、バリデーションの手法については触れません。特にSecondLevelでのバリデーションについてはいくつか選択肢があり、データの性質によって使い分けが必要なので次回以降書きたいと思います。 Stackingの概念 まず直感的な説明から始めたいと思い
本日はLIFULLさんの会場で 日々のアウトプットが変える!あなたのエンジニア・ライフ という表題のイベントに参加してきました。 トーク① まつもとりーさん、kwappaさんが語る! 毎日アウトプットできるエンジニアになるためのヒント ※本日はまつもとりーさんは体調不良でリモート参加になりました https://forkwell.connpass.com/event/102045/ なぜポートフォリオが必要なのか Forkwell上のまつもとりーさんのPortfolio 実はForkWell技術顧問 ペパボ 京都大学博士 Gitリポジトリ診断 人類を超越したC神 デフォルト好きのVimユーザー コードをよく書く 余談: (家族に迷惑かけているかも知れない) 自分(まつもとりーさん)の体験 6年前(28歳)(現在34歳) (社会人になったあとに博士課程に入り直した) Web技術ではよくあるや
「エンジニアの日々のアウトプット」に関するForkwellさんのイベントに参加してきました。 ForkwellのポートフォリオはのぼりーさんのクラウドPodcastのmatsumotoryさんゲスト回を聞いて興味を持ち使い始めました。 ただ、埋めやすいところを埋めてGithubを連携させただけで、ちゃんと使いこなせていたかは疑問でした。 そんなときに、このイベントを前職の同期から聞き、開催場所も前職のオフィスだったので久々に遊びに行きたい気持ちもあって応募しました。 forkwell.connpass.com ポートフォリオを(強制的に)ちゃんと埋めました イベントページに ゲストのお二人が参加者のポートフォリオを抽選で3名レビューいたします! との記載があったので、せっかくなので…ということで応募したら、なんと選ばれました! 85人の前でレビューされる、というプレッシャーもあり、週末の半
Tech Workers Now Want to Know: What Are We Building This For? Laura Nolan, a software engineer in Ireland, left Google in June over the company’s involvement in Project Maven, an effort to build artificial intelligence for the Department of Defense.Credit...Paulo Nunes dos Santos for The New York Times SAN FRANCISCO — Jack Poulson, a Google research scientist, recently became alarmed by reports th
PyCon JP 2018 システムチームの池田(@ikedaosushi)です。 いよいよPyConJP 2018開催まで1週間に迫りました。トーク、ポスター、LTとタイトルと概要だけ見ても興味深い内容ばかりで当日が待ち遠しいです。 さて、先日HP上で全体タイムテーブルを公開し、トークのスケジュールを皆さんにお知らせすることができました。タイムテーブル詳細については是非HPをチェックしてください。(https://pycon.jp/2018/event/conference) トークのスケジューリング(スケジュール作成)は、一見すると簡単そう、単純そうに思えるかもしれません。しかし、参加者の皆さんの体験をより良いものにするためには、言語・ジャンル等の複数の要素を鑑みながらバランスよく割当をする必要があり、意外と人間が直接解くには難しい問題です。この投稿では、PyCon JP2018をより
こんにちは。ぼへみあです。 巷では、AIに話せば色々してくれる、AIがデータを分析して売り上げを伸ばしてくれる、AIが仕事を奪う、AIが運転してくれるなど、AIを擬人化しすぎていると感じています。擬人化のおかげで人はAIに親しみを持ち「気軽に導入してみるか」というポジティブな面もありますが、擬人化しすぎて誤解している部分がかなり多いかと思います。 そこで、AIをエンジニアが生み出して運用するまでの過程を、徹底的に擬人化したらどうなるのかを書いてみました。 機械学習では学習モデルをエンジニア生み出し学習させることから、親=エンジニア、子=AI、という想定です。 本当に子供が必要なのか? まずはAIにする子供を作ります、と言いたいところですが、本当に子供が必要なのかよく考えます。 後述しますが、子供を作るととても大変です。育てるのも時間とお金がたくさんかかります。親もハイスペックでないと賢く育
データマイニングの現場で頻発する Leakage という問題について本気出して考えてみた、的な論文を読んだ: Leakage in Data Mining: Formulation, Detection, and Avoidance. KDD 2011. 概要 Leakage とは、モデルを作るときに、本来知らないはずの情報(変数やデータ)を不当に使ってしまうこと 手元のデータではメッチャ高い精度が出たのに、本番環境ではまったく精度が出ない、といった事態になる その問題について定式化を試みると同時に、Leakage を検知・回避する方法を考える こういう議論がまじめにされてこなかったせいで、KDD Cup 2008 のようなプロが企画・主催したコンペでさえ、問題の不備による Leakage が発生している おもしろ事例集 はじめに、データマイニングコンペでの Leakage 事例が幾つか紹
Pythonを使っている方&Pythonを勉強したい方一緒にもくもくしませんか? 宣伝です。 これから、つくばでPythonもくもく会を定期的に開いていきます! 第1回は10月8日(月)11:00~@筑波大学内体バチで行います。 将来的にはPythonの情報共有ができたり、交流の輪を広げられるコミュニティにしていけたらいいなと妄想しています。 参加費や条件などは無料なのでぜひぜひお気軽にお申し込みください。 詳細はconnpassページをご参照ください。 申し込みもこちらからできます。途中参加退場なども自由です! tskubapy.connpass.com 動機など少しだけ 一番直接的な動機はPyConJP 2018 に運営として参加したことです。 今まで自分の会社以外でPythonエンジニアを触れ合う機会がほとんどなかったので、とても刺激的でした。 コミュニティがあると、インプットアウト
TL;DR pandasの to_datetime メソッドはとても便利で、かなり乱暴にデータを突っ込んでもParseしてくれます でもデータによってはparseに通常の30倍以上時間がかかる可能性があるので注意しましょう ISO_8601の規格に従っていない場合はとりあえず format オプションをつけておくのが得策です。 コードはすべてGithubにあがってます github.com 検証するデータ こちらのKaggleのデータを使いたいと思います。なぜこのデータかというと実際に痛い目にあったからです。笑 Final project: predict future sales | Kaggle df = pd.read_csv(Path.home()/'.kaggle/competitions/competitive-data-science-final-project/sales_
pathlibって便利ですよね 最近pathlibの便利さが様々なところで語られています。 Python3.4以降ならos.pathはさっさと捨ててpathlibを使うべき - Qiita pathlibとかいう優秀すぎる標準ライブラリ(python) - 備忘録とか日常とか pathlibの様々な機能は上記の記事やドキュメントを読んでいただければわかるので、今日はその1つに、Pythonのオーバーロードを説明するのに良い機能があるので紹介したいと思います。 pathlibはこんな風にパスを書けます。 from pathlib import Path etc_dir = Path('/etc') init_dir = 'init.d' print(etc_dir/init_dir/'reboot') # => /etc/init.d/reboot 最初に見ると、ちょっとギョッとするのではな
TL;DR BigQueryの fh-bigquery:geocode.geolite_city_bq_b2b Tableを使い IPアドレスから緯度経度を取得できます 国土地理院の「地球地図日本」から地図データを取得することができます GeoPandasを使うことでお手軽に地理情報を可視化できます BigQuery GISを使うと制限はありますが、もっと簡単に可視化することができます ↓BigQuery GISを使った可視化です コードは全てGithubに置いてあります。 github.com アクセスログ解析でのIPアドレス アクセスログには基本的にIPアドレスが格納されていますが、アクセスログ分析する際に使っていないことも多いのではないでしょうか? 実はIPアドレスとBigQueryを上手く活用することで簡単に地理情報解析が行えるのです。 データ 実際にはアクセスログなどを使うことに
When you try to install the Firefox pr Chrome web browser on a recent Windows 10 version 1809 Insider build, you may notice that the installation gets interrupted by the operating system. The intermediary screen that interrupts the installation states that Edge is installed on the device and that it is safer and faster than the browser that the user was about to install on the device. Options prov
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く