manboubirdのブックマーク - はてなブックマーク

複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。前提どこでも必要とされたスキルデータマネジメントに関する概要レベルの知識と実行力セキュリティや法令に関する知識事業ドメインに関する興味関心他職種とのコミュニケーション能力コスト管理 / コスト削減のスキルソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力分析用のSQLを書く力古いテーブルやデータパイプラインを置き換えていくスキルや胆力あるとやりやすいスキル関連部署の動きを何となく把握しておく力

manboubird 2024/04/29

dataEngineering

リンク

最近の砂場活動その14: GoogleAnalytis For Firebaseのデータを使ってImplicit-feedbackな推薦システムを構築する - yasuhisa's blog

ここ半年ほどデータ分析やりまくっているのはいいんだけど、機械学習全然やってない仕事に不満があるわけでは全然ないけど、人間は欲張りなのであれこれやりたい FirebaseのBigQuery Exportである程度データが溜まりつつあるということで、タイトルの通り、趣味プロジェクトであるML-Newsに推薦システムを導入してみました、という内容です。特に目新しいことは書いてなくて、主に自分用のログ目的要素が強いです。これまでのML-Newsの関連エントリの出し方とその問題点これまでの関連エントリの出し方問題点 Implicit-feedbackな推薦システムの導入データの取得学習 & 推薦うまく動かすための工夫学習データを増やす推薦対象のフィルタリング新規エントリに対する推薦推薦結果まとめこれまでのML-Newsの関連エントリの出し方とその問題点これまでの関連エン

manboubird 2020/07/09

リンク

データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog

FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を書いてみます。 ...というのも、自分が仕事で関わっているMackerelでは最近FAQをリニューアルしたからなのでした。 MackerelのFAQではZendesk Guideを利用していますが、Zendesk Guideは便利なAPIが用意されているので、それと既存のデータ基盤を組み合わせて改善していく形です。 FAQサイト内の検索語を列挙するまず、FAQサイト内でどういった単語が検索されているのかを列挙します。Google Tag Manager経由でFirebase Analyticsにデータを飛ばすと閲覧状況が分かりますが、そのログをBi

manboubird 2020/07/09

リンク

BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog

自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co

manboubird 2020/05/18

リンク

異常検知ナイトでLT登壇しました - yasuhisa's blog

機械学習の中でもマイナーなテーマであろう異常検知がテーマの勉強会、異常検知ナイトというイベントでLTの登壇をしてきました。マイナーテーマなのに300人以上が集まる東京怖い。 3ページしかないですが、発表資料も置いておきます(LTのレギュレーションで3ページ5分)。異常検知ナイト LT登壇資料はてな id:syou6162 from syou6162 LTのテーマは、現在自分がどんなデータで異常検知をやっているか、どういう困り事があるかを発表してプロの方からアドバイスをもらおうというものです。Mackerelで今まさに異常検知機能の開発をしていて、時系列周りのモデルのハイパーパラメータを開発データでチューニンングしたいけれども、そもそも異常データを含む開発データって手に入らないことが多くてどう対応していくのがよいのか?という質問をさせてもらいました。プロからのアドバイスは動画で見れるので

manboubird 2018/02/17

リンク

実タスクで機械学習を導入するまでの壁とその壁の突破方法 - yasuhisa's blog

社内で機械学習の案件があった際に、機械学習の経験者しか担当できないと後々の引き継ぎで問題が起こりがちです。これを防ぐために、機械学習に興味があり、これまで機械学習を経験したことがないエンジニアにも担当できる体制を整えられることが望ましいです。しかし、機械学習のことに詳しく知らないディレクターやエンジニアにとっては、どのような機械学習の理解段階ならばタスクを任せられるかの判断をするのはなかなか困難です。そこで、このエントリでは機械学習を実タスクでやるまでに乗り越えるべき壁だと私が思っているものについて説明します。第一の壁: 綺麗なデータで機械学習の問題を解ける講義で扱われるような綺麗なデータを扱える行列形式になっていて、欠損値や異常値もない上記のデータを回帰や分類問題として解くことができる実際に解く際にはライブラリを使って解いてよい手法を評価する上で何を行なえばよいか(Preci

manboubird 2017/04/29

リンク

不定期ML&NLP報#4 - yasuhisa's blog

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。論文ブログ/勉強会資料ビジネス学会/勉強会 NIPS読み会 Kaggle Tokyo Meetup #2 全脳アーキテクチャ若手の会 AAAI2017 その他論文 [1701.07875] Wasserstein GAN GANを含む生成系のタスクは難しいことが知られているが、学習時に使う距離をWasserstein距離というものを使うと学習が安定したという話ブログ/勉強会資料論文メモ: Linguistic Benchmarks of Online News Article Quality - skozawa's blog オンラインニュースの質を測れるかを検討した論文のメモ Using Machine

manboubird 2017/03/04

リンク

今年よかった習慣: ライフログ収集および可視化 - yasuhisa's blog

データを眺めるのが好き収集している情報実現方法データから分かった知見(?) 今後年末なので、今年買ってよかったものに引き続き、今年やってみてよかった習慣について書いてみたいと思います。データを眺めるのが好き昔からデータを眺めるのは好きだったんですが、今年の5月くらいから自分に関するデータをとにかく収集してみました。可視化することで何か有益な視点だったり、生活の改善点が見つかるのではないか、という目的です。色んなデータを集めまくった結果、以下のようなグラフができあがります。ちょっと画像が小さいですが、毎日の歩いた歩数や体重、気温、録画した番組名、自宅マシンの負荷状況などが載っています。収集している情報上の画像ではとりあえずBlogに上げれるようなデータしか見せていないですが、収集している情報としては以下のようなものがあります。使用しているスクリプトで公開できるものはgithu

manboubird 2015/12/26

リンク

Berkeley Parserの解析失敗について - yasuhisa's blog

最近、構文解析器をよく使っているんだけど、public availableな構文解析器の中で精度が高いBerkeley Parserを使っていた(Stanford ParserがF値で85%くらいで、Berkeley ParserはF値で89%くらい)。Javaでできているので、Clojureから触るには何かと便利。ただ、時々Berkeley Parserは解析失敗で落ちるので困る。未知語が入っていると落ちるのかと思ったが、そういうわけでもなく学習データに入っていない未知のルールだったり、ルールがpruningされてしまったりすると解析失敗で落ちてしまうらしい。pruningで落ちてしまうものに関しては-accurateオプションを付けることで閾値を変えてなるべくpruningで落ちないようにすることもできるが、やはり完全に防ぐことは難しいようだ(Stanford Parserはアホでも

manboubird 2015/12/25

リンク

分類問題のための教師データの作成 - yasuhisa's blog

6月の間は出現頻度と連接頻度に基づく専門用語抽出にある論文の考え方にそって、C++とかRubyで実装していた。しかし、どうも精度や再現率が低い。id:theclaさんに結果を見せてみたところ「おしいのは結構あるんだけどねえ」という感じで、(精度とかを測る時に)単語の完全一致で見るからから低いのかな…という感じ。どの辺がネックになっているかというと、まあ本当に色々あって、一概には言えないんだけど、化学式がネックになっているところが結構ある。化学式を専門用語に含めるかどうかってところの問題もあるんだけど、umlsには化学式のものもかなり大量に含まれていて、とりあえず化学式も専門用語に含む方向で。化学式だと、普通の分野では複合名詞に入ってこないような , ` () といったものが入ってくるのが厄介なところである。ある程度は「これこれこういう場合は除去して…」とかルールベースでやってみたんだけど、

manboubird 2010/12/29

リンク

CRF++の自分用メモetc - yasuhisa's blog

論文読んだりしているけど、実際にCRFを動かしたことがなかったり...ということで動かしてみる。動かすためにいくつか理解しないといけないことがあるので自分用メモ。 CRF++: Yet Another CRF toolkit 素性テンプレート Unigram まず簡単そうなところから。学習用の入力データがこんな感じになってるとして、3行目を今中心に見ているとしよう。 Input: Data He PRP B-NP reckons VBZ B-VP the DT B-NP << CURRENT TOKEN current JJ I-NP account NN I-NPこのとき、どういうテンプレートを用意しておくと、どういう素性に展開されるかを表にしたのがこれ。 template expanded feature %x[0,0] the %x[0,1] DT %x[-1,0] rokens %

manboubird 2010/12/29

crf

リンク

Hadoop Streamingを動かしてみる - yasuhisa's blog

NLP.appの課題をやりたいと挙手したので(2週間後なのでテストを挟んでもきっと大丈夫なはず)、Hadoopを動かしてみる。Hadoopはmake installとかやらない感じのようで、shellに設定をちょっと書いてやる(.zshrcとかをいじりたくなければ、conf/hadoop-env.shに書いてもいいらしい)。自分のMacBookだとこんな感じで書いた。小耳に挟んだ研究室の同期の話によると、JavaのバージョンとHadoopのバージョンによっては動かないらしいので、注意が必要。 HADOOP_HOME=/Users/yasuhisa/Downloads/hadoop export PATH=$HADOOP_HOME/bin:$PATH export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1

manboubird 2010/11/20

リンク

指標を全部実装してみた - yasuhisa's blog

この前の続き。先週の水曜で大体作ってしまっていたんだが、使い方ミスっててバグってると勘違いしていたorz。出現頻度と連接頻度に基づく専門用語抽出 - Seeking for my unique color. とりあえずpneの1985年分のテキストを食わせて、それぞれの指標で上位100個を出力させるとかそんな感じのプログラム。70ファイルくらいしかないですが、非常に遅いです。。。今週の金曜には、これの評価をするプログラムを書いておきたい。次からは機械学習っぽいものを取り込んでいきたいんだけど、この指標を使ったやつをベースラインとしたいので、性能を知っておきたい。プログラム # -*- coding: utf-8 -*- # implementation for this paper # http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/acade

manboubird 2010/09/19

リンク

はてなブックマーク

タグ

ブックマーク / www.yasuhisay.info (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス