kiyo-shitのブックマーク - はてなブックマーク

BigQueryを補完する技術: DuckDBとDataflowでのデータ処理入門 - yasuhisa's blog

背景 & Disclaimer DuckDB 概念や代表的なユースケース使ってみる 1週間〜一ヶ月などある程度の期間、分析で使いたい場合便利なCLIツールとして使う所感参考 Dataflow 代表的なユースケース具体例参考背景 & Disclaimer BigQueryは非常に便利で、BigQueryにさえ上がってしまえばSQLで巨大なデータを簡単に相手にできますとはいえ、BigQueryに行きつくまでが大変な場合もありえます例: 個人情報を含むsensitiveなデータで、BigQueryに気軽に上げられないケース一時的であっても、相談なしにその手のデータを気軽にアップロードするのはやめてください... 数万件程度であれば手元のエクセルで開いて、問題ない行/列だけに絞る、ということもできるが、もっと量が多いデータだとそういうわけにもいかない。そもそも分析はSQLでやり

kiyo-shit 2024/06/28

リンク

株式会社10Xにアナリティクスエンジニアとして入社しました - yasuhisa's blog

3行まとめ 9/15で株式会社MonotaROを退職し、9/16に株式会社10Xに入社しましたアナリティクスエンジニアとして、相変らずデータマネジメントやデータエンジニアリングを中心に活動してます引き続き京都で働いてますし、変わらずオンラインのコミュニティ活動もやっていく予定です 3行まとめ MonotaROはどうだったの? 10Xはどうなの? 入社のきっかけ入社後の印象データマネジメントどうなの? MonotaROはどうだったの? 自分のキャリアの中でデータエンジニアとしてMonotaROで働けたのは本当によい経験でした。MonotaROに入る前もデータエンジニアの仕事はしていたものの、社内でデータエンジニア専門として働く人は自分だけ*1だったため、踏み込んだ議論ができる機会はそれほどありませんでした。そのため「きっとこれは筋悪くないやり方のはずなんだけど、イマイチ自信が持てない

kiyo-shit 2022/10/06

オファーレターで寄せ書き、めっちゃ良いプラクティスだな、いますぐ真似できる

リンク

BigQuery Scriptingの便利な使い方をまとめてみた - yasuhisa's blog

背景 & Disclaimer 自分自身はこれまでBigQuery Scriptingをほぼ使っていませんでした BigQuery自体は3年くらいの利用歴 SQL単発で済ませるのが苦しそうな場合は、Pythonなどのプログラミング言語 + ワークフローエンジンの組み合わせで戦っており、自分としては特に困っていなかった社内で他の方が使うケースをぼちぼち見ることがある自分は困っていなくても、社内のBigQueryユーザーでBigQuery Scriptingを使っていて困っている人がそれなりにいる著者はそれなりのBigQueryユーザーがいる企業のデータ基盤の人間ですさすがに「使ったことないので、分からないですねー」で済ませるわけにはいかなくなってきたそもそもどんなユースケースで便利なのかすらも分かっていない状態なので、便利そうに思える場合をまとめてみることにしましたというわけで、

kiyo-shit 2022/03/15

リンク

SQLレクチャー会をチーム内でやっている話 - yasuhisa's blog

ここ最近、チーム内でSQLのレクチャー会をやっています。世間的にはプランナーの人や営業の方がSQLを書くのもそれほど珍しいことではなくなってきていると思いますが、チーム内ではまだまだ一般的ではないです。なんとかしていきたい。 SQLレクチャー会の目的はこんな感じです。チーム内のSQL / 分析力の底上げデータの民主化的なやつデータライフサイクルの改善集計側であれこれ無理に頑張るより、入力データを集計側に合わせてもらうほうが圧倒的に省力化されることが多いデータの入力側と集計側の意識を合わせることで、チームのデータ分析のしやすさを高めていきたい毎月、毎期末作っているスプレッドシートの自動化手間を減らしたり、手作業によるミスを減らしたりこのエントリをきっかけに「うちでも似たことやってるけど、この取り組みをやってみたらさらにうまくいったよ」といったことが知れるとうれしいです。背景

kiyo-shit 2020/07/30

めちゃくちゃ良い…

リンク

社内でKaggleの布教活動をやっている話 - yasuhisa's blog

最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方でうーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている本人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット様々なデータセットを触ることができる kernelでデータ分析の

kiyo-shit 2018/04/06

リンク

Google機械翻訳の仕組み&できるようになったこと/まだ難しいことについて、社内の機械学習勉強会で説明します - yasuhisa's blog

社内の機械学習勉強会で最近話題になった機械学習関連のエントリを取り上げているのですが、ここ一ヶ月ではGoogle Neural Machine Translation(GNMT)がとても話題になっていました。GNMTで使われているEncoder-Decoderやattentionのような仕組みを直近で使う予定は特にはないですが、機械学習を使うエンジニアとして知っておいて損はないし、技術的に何が変わったことにより何ができるようになって、何はまだできないのかを知ろう、というのが目的です。技術的な項目は興味ない人も多そうなので、最後に持っていきました。 Google Neural Machine Translation(GNMT)の最近の進化についてできるようになったこと定量的な評価まだまだ難しいこと技術的な詳細 Encoder-decoder Attention based encod

kiyo-shit 2016/11/23

リンク

機械学習をプロダクトに入れる際に考える採用基準について - yasuhisa's blog

サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術は本番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います。前提考慮に入る採用基準予測精度 (コードの)メンテナンスの容易性計算オーダー学習時予測時挙動のコントロールのしやすさ/予測説明性の容易さチューニングの必要性その他まとめ前提機械学習がプロダクトの主要な武器になる(例えば最近話題になっているGoogle翻訳におけるNMT)ものではなく、サービスにデータがまずあり、機械学習でデータを活用することにより、そのサービスを支えていくようなものを前提に考えています(例えばCGMサービスのスパム判定)。また、投稿内容は私個人の意見であり、所属組織を代表するものではありませんとお断りしておき

kiyo-shit 2016/11/21

リンク

はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog

先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616

kiyo-shit 2016/06/27

リンク

NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog

エイプリルフールも一段落したので、退職&入社エントリを書こうと思います。これまで 3/31付けで前職のNTT CS研を退職しました。CS研には(インターン期間も含め)4年間お世話になりました。 CS研はとても研究する上でよい環境 CS研は研究をする上でかなりよい環境であったと思っていて世界で活躍しているトップの研究者がわらわらいて、日々ディスカッションできる (全くないわけではないですが)雑用が少なく、研究に集中できる研究をする上で必要なリソース(計算機、データなど)が十分にある足りないものやデータ等を新しく作りたい場合は、上長をちゃんと説得すればお金をかけて作ることができる自然言語処理の研究をする上でかなり重要などなど、とても研究しやすい環境です。AAAIやEM NLP、CoNLLなどに行くことができたのもこうしたCS研の環境なしではありえなかったと思います。ここで4年間働けた

kiyo-shit 2016/04/04

hatena

リンク

フォードファルカーソン法をRubyで実装 - yasuhisa's blog

グラフに対する基本的な問題として最小全域木最短路問題最大フローの3つがあると思う。で、最小全域木は離散最適の課題としてPrim法を使って解いてみたし、最短路問題はベルマンフォードのアルゴリズムをRubyとC++で解いてみた。となったら、最大フローを実装しないわけにはいかないな、ということでフォードファルカーソン法を実装してみました。上の3つの問題では一番ややこしかった気がする。というわけでコードと実行結果。繰り返しの中で残余ネットワークを更新していって、残余ネットワークにおいて始点から終点へのパスが存在するかを幅優先探索を使って探索していくという流れ。 # -*- coding: utf-8 -*- require "pp" class DirectedGraph attr_reader :nodes attr_reader :weights attr_reader :edges

kiyo-shit 2009/08/11

リンク

はてなブックマーク

タグ

ブックマーク / www.yasuhisay.info (10)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス