タグ

ブックマーク / www.yasuhisay.info (13)

  • 複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

    最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。 前提 どこでも必要とされたスキル データマネジメントに関する概要レベルの知識と実行力 セキュリティや法令に関する知識 事業ドメインに関する興味関心 他職種とのコミュニケーション能力 コスト管理 / コスト削減のスキル ソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力 分析用のSQLを書く力 古いテーブルやデータパイプラインを置き換えていくスキルや胆力 あるとやりやすいスキル 関連部署の動きを何となく把握しておく力

    複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog
  • 最近の砂場活動その14: GoogleAnalytis For Firebaseのデータを使ってImplicit-feedbackな推薦システムを構築する - yasuhisa's blog

    ここ半年ほどデータ分析やりまくっているのはいいんだけど、機械学習全然やってない 仕事に不満があるわけでは全然ないけど、人間は欲張りなのであれこれやりたい FirebaseのBigQuery Exportである程度データが溜まりつつある ということで、タイトルの通り、趣味プロジェクトであるML-Newsに推薦システムを導入してみました、という内容です。特に目新しいことは書いてなくて、主に自分用のログ目的要素が強いです。 これまでのML-Newsの関連エントリの出し方とその問題点 これまでの関連エントリの出し方 問題点 Implicit-feedbackな推薦システムの導入 データの取得 学習 & 推薦 うまく動かすための工夫 学習データを増やす 推薦対象のフィルタリング 新規エントリに対する推薦 推薦結果 まとめ これまでのML-Newsの関連エントリの出し方とその問題点 これまでの関連エン

    最近の砂場活動その14: GoogleAnalytis For Firebaseのデータを使ってImplicit-feedbackな推薦システムを構築する - yasuhisa's blog
  • データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog

    FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を書いてみます。 ...というのも、自分が仕事で関わっているMackerelでは最近FAQをリニューアルしたからなのでした。 MackerelのFAQではZendesk Guideを利用していますが、Zendesk Guideは便利なAPIが用意されているので、それと既存のデータ基盤を組み合わせて改善していく形です。 FAQサイト内の検索語を列挙する まず、FAQサイト内でどういった単語が検索されているのかを列挙します。Google Tag Manager経由でFirebase Analyticsにデータを飛ばすと閲覧状況が分かりますが、そのログをBi

    データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog
  • BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog

    自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数 「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co

    BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog
  • 異常検知ナイトでLT登壇しました - yasuhisa's blog

    機械学習の中でもマイナーなテーマであろう異常検知がテーマの勉強会、異常検知ナイトというイベントでLTの登壇をしてきました。マイナーテーマなのに300人以上が集まる東京怖い。 3ページしかないですが、発表資料も置いておきます(LTのレギュレーションで3ページ5分)。 異常検知ナイト LT登壇資料 はてな id:syou6162 from syou6162 LTのテーマは、現在自分がどんなデータで異常検知をやっているか、どういう困り事があるかを発表してプロの方からアドバイスをもらおうというものです。Mackerelで今まさに異常検知機能の開発をしていて、時系列周りのモデルのハイパーパラメータを開発データでチューニンングしたいけれども、そもそも異常データを含む開発データって手に入らないことが多くてどう対応していくのがよいのか?という質問をさせてもらいました。プロからのアドバイスは動画で見れるので

    異常検知ナイトでLT登壇しました - yasuhisa's blog
  • 実タスクで機械学習を導入するまでの壁とその壁の突破方法 - yasuhisa's blog

    社内で機械学習の案件があった際に、機械学習の経験者しか担当できないと後々の引き継ぎで問題が起こりがちです。これを防ぐために、機械学習に興味があり、これまで機械学習を経験したことがないエンジニアにも担当できる体制を整えられることが望ましいです。しかし、機械学習のことに詳しく知らないディレクターやエンジニアにとっては、どのような機械学習の理解段階ならばタスクを任せられるかの判断をするのはなかなか困難です。そこで、このエントリでは機械学習を実タスクでやるまでに乗り越えるべき壁だと私が思っているものについて説明します。 第一の壁: 綺麗なデータで機械学習の問題を解ける 講義で扱われるような綺麗なデータを扱える 行列形式になっていて、欠損値や異常値もない 上記のデータを回帰や分類問題として解くことができる 実際に解く際にはライブラリを使って解いてよい 手法を評価する上で何を行なえばよいか(Preci

    実タスクで機械学習を導入するまでの壁とその壁の突破方法 - yasuhisa's blog
  • 不定期ML&NLP報#4 - yasuhisa's blog

    最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 NIPS読み会 Kaggle Tokyo Meetup #2 全脳アーキテクチャ若手の会 AAAI2017 その他 論文 [1701.07875] Wasserstein GAN GANを含む生成系のタスクは難しいことが知られているが、学習時に使う距離をWasserstein距離というものを使うと学習が安定したという話 ブログ/勉強会資料 論文メモ: Linguistic Benchmarks of Online News Article Quality - skozawa's blog オンラインニュースの質を測れるかを検討した論文のメモ Using Machine

    不定期ML&NLP報#4 - yasuhisa's blog
  • 今年よかった習慣: ライフログ収集および可視化 - yasuhisa's blog

    データを眺めるのが好き 収集している情報 実現方法 データから分かった知見(?) 今後 年末なので、今年買ってよかったものに引き続き、今年やってみてよかった習慣について書いてみたいと思います。 データを眺めるのが好き 昔からデータを眺めるのは好きだったんですが、今年の5月くらいから自分に関するデータをとにかく収集してみました。可視化することで何か有益な視点だったり、生活の改善点が見つかるのではないか、という目的です。色んなデータを集めまくった結果、以下のようなグラフができあがります。ちょっと画像が小さいですが、毎日の歩いた歩数や体重、気温、録画した番組名、自宅マシンの負荷状況などが載っています。 収集している情報 上の画像ではとりあえずBlogに上げれるようなデータしか見せていないですが、収集している情報としては以下のようなものがあります。使用しているスクリプトで公開できるものはgithu

    今年よかった習慣: ライフログ収集および可視化 - yasuhisa's blog
  • Berkeley Parserの解析失敗について - yasuhisa's blog

    最近、構文解析器をよく使っているんだけど、public availableな構文解析器の中で精度が高いBerkeley Parserを使っていた(Stanford ParserがF値で85%くらいで、Berkeley ParserはF値で89%くらい)。Javaでできているので、Clojureから触るには何かと便利。 ただ、時々Berkeley Parserは解析失敗で落ちるので困る。未知語が入っていると落ちるのかと思ったが、そういうわけでもなく学習データに入っていない未知のルールだったり、ルールがpruningされてしまったりすると解析失敗で落ちてしまうらしい。pruningで落ちてしまうものに関しては-accurateオプションを付けることで閾値を変えてなるべくpruningで落ちないようにすることもできるが、やはり完全に防ぐことは難しいようだ(Stanford Parserはアホでも

    Berkeley Parserの解析失敗について - yasuhisa's blog
  • 分類問題のための教師データの作成 - yasuhisa's blog

    6月の間は出現頻度と連接頻度に基づく専門用語抽出にある論文の考え方にそって、C++とかRubyで実装していた。しかし、どうも精度や再現率が低い。id:theclaさんに結果を見せてみたところ「おしいのは結構あるんだけどねえ」という感じで、(精度とかを測る時に)単語の完全一致で見るからから低いのかな…という感じ。どの辺がネックになっているかというと、まあ当に色々あって、一概には言えないんだけど、化学式がネックになっているところが結構ある。化学式を専門用語に含めるかどうかってところの問題もあるんだけど、umlsには化学式のものもかなり大量に含まれていて、とりあえず化学式も専門用語に含む方向で。化学式だと、普通の分野では複合名詞に入ってこないような , ` () といったものが入ってくるのが厄介なところである。ある程度は「これこれこういう場合は除去して…」とかルールベースでやってみたんだけど、

    分類問題のための教師データの作成 - yasuhisa's blog
  • CRF++の自分用メモetc - yasuhisa's blog

    論文読んだりしているけど、実際にCRFを動かしたことがなかったり...ということで動かしてみる。動かすためにいくつか理解しないといけないことがあるので自分用メモ。 CRF++: Yet Another CRF toolkit 素性テンプレート Unigram まず簡単そうなところから。学習用の入力データがこんな感じになってるとして、3行目を今中心に見ているとしよう。 Input: Data He PRP B-NP reckons VBZ B-VP the DT B-NP << CURRENT TOKEN current JJ I-NP account NN I-NPこのとき、どういうテンプレートを用意しておくと、どういう素性に展開されるかを表にしたのがこれ。 template expanded feature %x[0,0] the %x[0,1] DT %x[-1,0] rokens %

    CRF++の自分用メモetc - yasuhisa's blog
  • Hadoop Streamingを動かしてみる - yasuhisa's blog

    NLP.appの課題をやりたいと挙手したので(2週間後なのでテストを挟んでもきっと大丈夫なはず)、Hadoopを動かしてみる。Hadoopはmake installとかやらない感じのようで、shellに設定をちょっと書いてやる(.zshrcとかをいじりたくなければ、conf/hadoop-env.shに書いてもいいらしい)。自分のMacBookだとこんな感じで書いた。小耳に挟んだ研究室の同期の話によると、JavaのバージョンとHadoopのバージョンによっては動かないらしいので、注意が必要。 HADOOP_HOME=/Users/yasuhisa/Downloads/hadoop export PATH=$HADOOP_HOME/bin:$PATH export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1

    Hadoop Streamingを動かしてみる - yasuhisa's blog
  • 指標を全部実装してみた - yasuhisa's blog

    この前の続き。先週の水曜で大体作ってしまっていたんだが、使い方ミスっててバグってると勘違いしていたorz。 出現頻度と連接頻度に基づく専門用語抽出 - Seeking for my unique color. とりあえずpneの1985年分のテキストをわせて、それぞれの指標で上位100個を出力させるとかそんな感じのプログラム。70ファイルくらいしかないですが、非常に遅いです。。。 今週の金曜には、これの評価をするプログラムを書いておきたい。次からは機械学習っぽいものを取り込んでいきたいんだけど、この指標を使ったやつをベースラインとしたいので、性能を知っておきたい。 プログラム # -*- coding: utf-8 -*- # implementation for this paper # http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/acade

    指標を全部実装してみた - yasuhisa's blog
  • 1