によるエウレカのデータ組織運営の1年間でした。今日はこの話に関連して、もう少し具体的にEureka BIチームのAnalystの分析フローを支える分析環境について書きます。主に運用の思想や仕組みづくりの紹介になります。 想定読者Data Lake・Data Ware House・Data Martなどのデータ基盤周辺知識があるAnalystを活かすデータ基盤の開発運用に興味がある前置きBIチームの紹介やAnalystの業務フローに関する前置きが少し長くなりますがお付き合いくださいませ。 お急ぎの方は、本題まで飛ばしてください。 チームのミッションとデータ基盤BIチームは、「価値のある意思決定」と「意思決定の効率化」を推進することをミッションにおいているチームです。 ミッション実現に向けて、最近は以下の2軸を強化したいと考えています。 Analystが「価値のある意思決定」を創出するためのプ
こんにちは。機械学習エンジニアをしている古賀です。 最近は愉快な上司@tereka114 のもと、精度の上がらないモデルに四苦八苦しています。 そんな私が普段データ分析をする際に難しいことの一つとして、特徴量エンジニアリングがあります。 特徴量エンジニアリングとは、元のデータに新たな特徴量を追加することでモデルの精度を向上させるプロセスのことです。 この結果によってモデルの精度が大きく変わりますが、正しく実行するにはデータへの深い理解やデータ分析力が必要になります。 私もあまり得意ではないのですが、これを簡単にする xfeat という便利なライブラリがあると上司が教えてくれたので、実際に使ってみて便利だったことをまとめました。 ※本記事は、Pythonその3 Advent Calendar 2020 の15日目の内容になります。 目次は以下です。 xfeat とは 準備 実行環境 xfea
皆さんこんにちは。 @tereka114です。 今年末はKaggleで開催される面白いコンペも多くて日々、エンジョイしています。 最近は巨大なデータを扱うことが増えており、Pandasだと時間がかかりすぎて効率が悪いと感じています。 そのため、データを高速に処理できるcuDFを利用することも多くなってきました。 この記事ではcuDFの魅力と扱う際の注意点を説明していきます。 ※この記事は「Pythonその2 アドベントカレンダー」10日目の記事です。 qiita.com cuDFとは cuDFはNVIDIAさんが開発している、Pandasの代わりに利用することができるGPUのライブラリです。 最も大きな特徴はGPUで計算するため、高速であることです。 主に、カテゴリ変数ごとの平均計算や、テーブル同士の結合といった、時間のかかるテーブル処理で、効果を発揮します。 github.com cuD
この記事は KLab 2020 Advent Calendar の 12/2 分になります。 qiita.com 最近の Python に対する改善を紹介します。私が設計、コードレビューまでしましたが、実装は他のコントリビューターにしていただきました。 (プルリクエストはこちら) 背景として、Python 3.10 からは from __future__ import annotations がデフォルト化され、アノテーション部分は実行時に評価されずにただの文字列になります。( PEP 563 を参照してください。) >>> def add(a: int, b: int) -> int: ... return a+b ... >>> add.__annotations__ {'a': 'int', 'b': 'int', 'return': 'int'} アノテーションが実行時に評価されな
はじめに システム作ってるとかライブラリ作ってるみたいなある程度Pythonを綺麗に1書くことが求められる方々に向けた記事です。 (機械学習系のライブラリを使うためにPython書いてる方とか、初学者の方にはちょっとあわないかも知れません) 綺麗に書くための作法の難しさって共有が面倒なところだと思うんですよね。その書き方は間違いじゃない、間違いじゃないけどもっといい書き方があるぞみたいなやつってなかなか指摘し辛いですし、じゃあ1人に対してレビューしたら他のメンバーにはどう伝える?そもそも伝える必要?俺の工数は?みたいになりがちです。 一番いいのはこういう時はこう書く!みたいなドキュメントを作って「ドキュメント違反です」ってレビューをしてあげることなんですが、まーそれもそれで超面倒じゃないですか。なのでこの記事がそのドキュメントの代わり、とまではいかなくとも礎くらいになればいいなと思って書き
Gunosy Tech Lab リサーチインターンの北田 (@shunk031)です。 深層学習の論文を読んでいるときに著者実装が公開されている旨を見ると嬉しい気持ちになりますよね。 いざ公開レポジトリに飛んだ瞬間その嬉しさは無となることが多いですが、くじけずにやっていきたいです。 著者実装のrequirements.txtをベースにpythonモジュールをインストールするとよく見るやつ こちらの記事は Gunosy Advent Calendar 2020 6日目の記事です。昨日は @625 さんの goで作るfirehoseのデータ変換lambda でした。 tech.gunosy.io その実験、再現できますか? リサーチインターンでは主にGunosyのデータを使った研究をしています。 特に私は深層学習による広告クリエイティブの評価や運用支援に焦点を当てて取り組んでいます*1。 深層
Introduction to Dockerizing for Production Improve your DevOps skills: learn an iterative process for Dockerizing your code. Get your free ebook Using Alpine can make Python Docker builds 50× slower by Itamar Turner-Trauring Last updated 17 Jan 2025, originally created 29 Jan 2020 When you’re choosing a base image for your Docker image, Alpine Linux is often recommended. Using Alpine, you’re told,
この記事は Go 4 Advent Calendar 2020 1日目の記事です。 激しい議論を呼んだことで有名な Go 2 の type generics は、Go 2 → Go 1 translator である "go2go" を介して既にお試しできる状態になっている。 この記事は、Go 2 における type generics のありようについて述べたり議論したりするものではない。お試しできるようになった今、それがどのような雰囲気で、どのように実用できそうかといった個人的感想を紹介する。どうぞ気軽に読んでほしい。 tl;dr Type generics の使い心地は思ったより良い 各種制限も妥当に設定されているように思える Go 1 に translate されたソースコードの見た目は素朴で直感的 今まで冗長に書かざるを得なかった部分を安全に短くするのに使えそう Python の i
はじめに データの概要 データの取り出し方 ヘルスケアアプリからXMLファイルを書き出す XMLファイルをcsvファイルに変換する 分析例 おわりに はじめに 本記事では、iOS標準アプリ「ヘルスケア」からデータを書き出し、csvに変換する方法をまとめます。 データの概要 ヘルスケアアプリはiOSに標準で搭載され、日常の歩数などが記録されています。自分に身近なデータなので、分析の仮説も立てやすく、データ分析の題材として便利かと思います。 データの取り出し方 手順は以下の通りです。 ヘルスケアアプリからXMLファイルを書き出す XMLファイルをcsvファイルに変換する ヘルスケアアプリからXMLファイルを書き出す まずはヘルスケアアプリからデータを書き出します。この時点でcsv形式になっているPythonなどで扱いやすいのですが、XMLファイルでしか書き出すことはできません。 まずは、カレン
First of all, make sure you have installed Python's dependencies and build tools as per https://github.com/pyenv/pyenv/wiki#suggested-build-environment , before any further troubleshooting. Open the build log (the path to it is printed after the "BUILD FAILED" message) and look for any error messages in it (they are usually marked with the word "error"). If there are many error messages, the earli
エラー事象 Mac OS X EI Capitan (v10.11.4)上でpyenvコマンドを用いてPython v3.5.1環境のインストール時に下記のエラーが発生し、Pythonのビルドに失敗する。 $ pyenv install 3.5.1 Downloading Python-3.5.1.tgz... -> https://www.python.org/ftp/python/3.5.1/Python-3.5.1.tgz Installing Python-3.5.1... BUILD FAILED (OS X 10.11.4 using python-build 20160130) Inspect or clean up the working tree at /var/folders/b5/cl371z9s20bdmwtprsx2nn6h0000gn/T/python-buil
Introduction 今コミットしている案件で約 20個以上の Lambda (Python) が手動運用されていて、しかもステージング環境もなく本番環境だけだったので、下の利点をもとに AWS CDK で IaC 化した方が良さそうっていう提案をしました。 メインテナンスのコストが減る 協業がやりやすい デプロイが自動化される テストが書ける ちょうど Python 向けの Lambda モジュール (aws-lambda-python)が Lambda Layer までサポートしていたので、試しに触ってみた経験を共有します。 必須条件 AWS CDK v1.69.0 or later 関連プルリクエスト https://github.com/aws/aws-cdk/pull/9582 https://github.com/aws/aws-cdk/pull/10959 https:/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く