ブックマーク / www.yasuhisay.info (65)

  • Data Contractに向けたProtocol Buffersの調査 - yasuhisa's blog

    背景: データ品質を担保するにはデータソースの品質が重要 データソースの品質を担保する手段としてのData Contract Data Contractの表現方法の一つとしてのProtocol Buffers Data ContractとしてProtocol Buffersを使う データの入出力を一箇所に集約、Protocol Buffersで抑えるパターン ストレージのスキーマをProtocol Buffersで抑えるパターン 発展的な話題 & 読書会の案内 参考文献 背景: データ品質を担保するにはデータソースの品質が重要 私はデータエンジニアをしており、DWHやデータマートのデータ品質について考えることが多い。BigQueryなどにデータが取り込まれた後のレイヤリングやテスト、改善に向けたデータ品質の可視化について、以前発表した。 データが取り込まれた後の整理は進んでいるものの、やは

    Data Contractに向けたProtocol Buffersの調査 - yasuhisa's blog
    yag_ays
    yag_ays 2024/08/13
  • Looker Studioの魅力と便利な使い方を紹介します - yasuhisa's blog

    初めて使ったBIツールはLooker Studioのid:syou6162です。これまでTableau / Looker(≠ Looker Studio) / Metabase / Redash / Connected Sheetsなど色々なBIツールを触ってきましたが、不満は色々ありつつも個人的に一番しっくりきて愛着があるのはLooker Studioです。このエントリでは、その魅力と便利な使い方や注意点について書きます。例によって、社内勉強会向けの内容を外向けに公開しているため、内容の網羅性などは特に担保していないことにご注意ください。 Looker Studioの魅力 利用のハードルが限りなく低い & Google Workspaceとの連携が便利 複雑過ぎることができないので、諦めが付けやすい ちゃんとBIツールになっている Looker Studioの便利な使い方 多様なデータソ

    Looker Studioの魅力と便利な使い方を紹介します - yasuhisa's blog
    yag_ays
    yag_ays 2024/07/22
  • 複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

    最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。 前提 どこでも必要とされたスキル データマネジメントに関する概要レベルの知識と実行力 セキュリティや法令に関する知識 事業ドメインに関する興味関心 他職種とのコミュニケーション能力 コスト管理 / コスト削減のスキル ソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力 分析用のSQLを書く力 古いテーブルやデータパイプラインを置き換えていくスキルや胆力 あるとやりやすいスキル 関連部署の動きを何となく把握しておく力

    複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog
    yag_ays
    yag_ays 2024/04/29
  • vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog

    背景 vscode-dbt-power-userがよかったところ 定義にさっと行ける / 戻れる(Go to definitionが使える) VSCode内でモデル間のリネージが見れる VSCode内からdbtのモデルをさっと実行できる モデルファイルの単独の実行も簡単 コンパイル済みのSQLファイルをさっとプレビューできる まとめ 補足: vscode-dbt-power-userの導入方法 背景 dbtは前職時代から含めると二年以上使っていて、SQLでDWHやデータマートの開発をしようと思うともはやこれなしでは生きられないくらいには便利になっている。dbtがあっても大変なクエリは大変ではあるが、大変さは大分緩和してくれる。dbtがなくて、1つのSQLが1000行以上あり、中間クエリがテストもされていない、という状況はもう戻りたくない...。 dbtに限らずであるが、コードは書いていると

    vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog
    yag_ays
    yag_ays 2023/07/09
  • 株式会社10Xにアナリティクスエンジニアとして入社しました - yasuhisa's blog

    3行まとめ 9/15で株式会社MonotaROを退職し、9/16に株式会社10Xに入社しました アナリティクスエンジニアとして、相変らずデータマネジメントやデータエンジニアリングを中心に活動してます 引き続き京都で働いてますし、変わらずオンラインのコミュニティ活動もやっていく予定です 3行まとめ MonotaROはどうだったの? 10Xはどうなの? 入社のきっかけ 入社後の印象 データマネジメントどうなの? MonotaROはどうだったの? 自分のキャリアの中でデータエンジニアとしてMonotaROで働けたのは当によい経験でした。MonotaROに入る前もデータエンジニア仕事はしていたものの、社内でデータエンジニア専門として働く人は自分だけ*1だったため、踏み込んだ議論ができる機会はそれほどありませんでした。そのため「きっとこれは筋悪くないやり方のはずなんだけど、イマイチ自信が持てない

    株式会社10Xにアナリティクスエンジニアとして入社しました - yasuhisa's blog
    yag_ays
    yag_ays 2022/10/06
  • go-active-learningを改良している話(Slackからのアノテーションをサポートなど) - yasuhisa's blog

    以下の話の続きです、地味に続いています。自分が普段使うツールを改良していくのは楽しいですね。 自分で使ってみて、これは欲しいといったものを追加していってます。社内で紹介したところフィードバックをもらったので、それを踏まえてどうしていきたいか(どうしたか)も書いてみます。 Slackからのアノテーションをサポート 有効な素性の提示 学習器の出力と正解ラベルが一貫していない事例を見る もらったフィードバック 能動学習で使っている分類器/特徴量抽出器と実際に使う分類器/特徴量抽出器のズレ ユーザーインターフェイス Slackからのアノテーションをサポート 以前はコマンドラインでのアノテーションのみをサポートしていました。Goで書いているので、macでもwindowsでも簡単に動かせるという利点はありましたが、エンジニア以外の人にもアノテーションをしてもらおうと思うとコマンドラインはハードルが高い

    go-active-learningを改良している話(Slackからのアノテーションをサポートなど) - yasuhisa's blog
    yag_ays
    yag_ays 2022/02/05
  • ポエム: なぜ私はアウトプットを続けているのか - yasuhisa's blog

    最近、「なぜid:syou6162はアウトプットを続けているのか」を聞かれる機会があった。 会社のnoteのインタビューを受けた*1中で、もう15年もブログを書いていることについて聞かれたり*2 会社のLT大会をやっているんだけど、なぜアウトプットを推進しようとしているのか聞かれたり 自分のスタンスを説明しているエントリがあると便利だなと思ったので、ポエムを書いてみます。 インプットのためにアウトプット: 情報は出す人のところに集まる 自分が考えていることをぱっと他人に伝えるのに便利 未来の自分へのお手紙 議論: アウトプットはしたほうがよいか? 個人 組織 インプットのためにアウトプット: 情報は出す人のところに集まる これが一番大きい。雑な試行錯誤とか自分用のまとめとか「こういうところ困ってるんだけど、誰か知見持ってる人助けて!!」とかを書くことが多いんだけど、そういった情報を出してお

    ポエム: なぜ私はアウトプットを続けているのか - yasuhisa's blog
    yag_ays
    yag_ays 2021/09/04
  • 昔は苦手だったモブプロを今は推進する側になっていた - yasuhisa's blog

    3~4年前はモブプロにめちゃくちゃ苦手意識があったんだけど、最近はなぜか(?)モブプロを推進していく旗振りをしている。モブプロの取り組み自体については今度会社のTech Blogに書く予定だけど、このエントリでは自分の心境の変化にフォーカスを当てる。人間、数年すると割と変わるもんだなぁと思って面白かったので、記録に残しておく。 モブプロが苦手だった頃 なぜモブプロしようとなったか 今はどうモブプロしているか 所感 モブプロが苦手だった頃 前職の開発チームにいた頃(3年前くらい)で、状況はこんな感じ。 7~8人くらいの規模の開発チーム 京都と東京でそれぞれメンバーは分かれているが、まだ物理出社している時期だったので、大きなディスプレイに写された自分の画面をみんなが見るスタイル 時間は60~90分くらいだったかな タイピストはガンガン交代するスタイルではなく、1回を1~2人のタイピストで回して

    昔は苦手だったモブプロを今は推進する側になっていた - yasuhisa's blog
    yag_ays
    yag_ays 2021/06/14
  • コロナ禍での転職活動(データエンジニア)についてのメモ - yasuhisa's blog

    Twitterでは先に言っていましたが、現職のはてなを3月末で退職します。3/19が最終出社日でした。はてなでの思い出はこちらに書きました。 そのため、転職活動をしたわけですが、コロナ禍での転職活動は平常時と異なる部分も結構ありました。また、データエンジニアとしての転職は初めての経験でした。誰かの参考になるかもしれないので、私が考えたことや感じたことをメモ書きとして残しておきます。 在宅勤務と就業可能な地域 Web上でのアウトプット データエンジニアという職種の多様性 転職にあたって重視したこと 魅力に感じた点 当然、不安もある 在宅勤務と就業可能な地域 カジュアル面談させてもらった企業さんは、ほぼ在宅勤務に移行済みだった 隔週や月一で物理出社という会社も半々くらい? 緊急自体宣言が出ていない時期(夏〜秋)にカジュアル面談させてもらったので、今は状況が違うかも カジュアル面談、採用面談もz

    コロナ禍での転職活動(データエンジニア)についてのメモ - yasuhisa's blog
    yag_ays
    yag_ays 2021/03/21
  • 「今日から始めるデータ活用」というタイトルでオープンセミナー岡山に登壇します - yasuhisa's blog

    登壇は明日ですが、スライドと発表に至った経緯や発表内容決めるまでに考えたことをまとめておきます。 オープンセミナー岡山 これから始めるデータ活用 from syou6162 発表タイトルに至った経緯 直接の経緯はオープンセミナー岡山の実行委員長であるid:a-knowさんに登壇してもらえないかと打診を受けたからです。同僚のid:a-knowさんからの打診であり、二つ返事でokしました。しかし、発表時間40分もあるし、聴講者もデータ関連の人に限らない、ということで内容をどうするかは結構迷いました(最近は結構専門性の高めのイベントでの登壇が多かったので)。 データ活用、目につく機会も増えて当たり前になりつつあるような気もしますが、当にそうかというとまだまだだよなぁーと感じています。登壇で目につく発表は、組織も数百人規模、データ活用の専門のチームがいるケースが多く、データアーキテクチャも今風で

    「今日から始めるデータ活用」というタイトルでオープンセミナー岡山に登壇します - yasuhisa's blog
    yag_ays
    yag_ays 2021/02/13
  • はてなで働き始めてからほぼ5年になるので振り返ってみる - yasuhisa's blog

    そろそろ前職を退職してから、はてなで働き始めて5年(!)が経とうとしている。5年も働いていると、昔何をやっていたか、その当時どういう気持ちで働いていたかを忘れてしまう。備忘録っぽく書き残しておこう。ポエムです、長いです、大体自分向けに書いてる。 NTT CS研 => 株式会社はてな チーム開発への適応 インフラ苦手意識の克服 教師なし機械学習番環境での運用 データ基盤とCustomer Reliability Engineerへの挑戦 今後はデータエンジニアリング NTT CS研 => 株式会社はてな 基礎研究職からWebアプリケーションエンジニアへの転職だった。ログを残しておくと、こういう時に振り返れて便利。 NTT CS研を退職して、株式会社はてなに入社しました - yasuhisa's blog 割と珍しい(?)転職ではあったかもしれないが、機械学習や自然言語処理はアルゴリズム単

    はてなで働き始めてからほぼ5年になるので振り返ってみる - yasuhisa's blog
    yag_ays
    yag_ays 2021/01/15
  • BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog

    自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数 「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co

    BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog
    yag_ays
    yag_ays 2020/05/18
  • カスタマーサクセスのためのデータ整備人の活動記録というタイトルでオンライン登壇しました - yasuhisa's blog

    第3回 データアーキテクト(データ整備人)を”前向きに”考える会という勉強会で、CREとしてデータ基盤を整備する活動についてオンライン登壇しました。 カスタマーサクセスのためのデータ整備人の活動記録 from syou6162 イベント登壇はまあまあやってきたはずなんですが、今回の登壇は初めて要素が満載でした。 CREとして初めての登壇 これまでは研究者 or アプリケーションエンジニアとして登壇 今年の2月にCREになったばかりなので、私がCREについて語ってもいいんかいな...みたいなところはありますよね と言いつつ、偉そうに語ってしまった データ基盤に関する初めての登壇 これまでは機械学習や自然言語処理に関する登壇がメイン 関連: データに関連するいくつかの見方と私 - yasuhisa's blog 初めてのオンライン登壇 意図せず(?)YouTuberデビューを果してしまった..

    カスタマーサクセスのためのデータ整備人の活動記録というタイトルでオンライン登壇しました - yasuhisa's blog
    yag_ays
    yag_ays 2020/05/15
  • 「データ活用のための数理モデリング入門」を読みました - yasuhisa's blog

    著者の一人からご恵贈いただきましたので、紹介してみたいと思います。 機械学習を中心としたデータ活用の敷居は下がってきているが... 10年ほど前と比べると、データ活用、特に機械学習を「使う」ハードルは以下のように下がってきています。 sklearnやPyTorchなどのライブラリを使えば、ある程度型にはまった問題は簡単に扱うことができるようになりました 画像認識や自然言語処理の分野でも事前学習済みのモデルが配布されるようになりました Amazon SageMakerやCloud AutoML など、コードを書かずとも機械学習のモデルが学習され、推論もできるマネージドサービスが普及し始めています しかしながら、何かデータを入れれば何か結果を返してくれるブラックボックスとして使われてしまっている事例も残念ながら時々見かけます。どういった問題を解くかは、道具をどう「使う」かよりも何倍も重要です。

    「データ活用のための数理モデリング入門」を読みました - yasuhisa's blog
    yag_ays
    yag_ays 2020/04/20
  • MackerelチームのCustomer Reliability Engineerになりました - yasuhisa's blog

    2020/02からMackerelチームのCRE (Customer Reliability Engineer) になりました。もうちょっと早くエントリを書く予定でしたが、職種が変わった & 期初であれこれイベントが多いということで遅くなってしまった...。 CREになろうと思ったきっかけ 一番大きいきっかけはid:missasanと前期一緒に働けたことだろうなぁと思います。id:missasanはCREであり、現在はCREチームのマネージャーをされています。私がアプリケーションエンジニアとして働いていたとき、id:missasanを含むCREとももちろん一緒に仕事をしていたわけ*1ですが、大きくタスクフォースを一緒に組んで仕事をするといったことはあまりありませんでした。そんな中、今年の夏にid:missasanが通称赤読書会をチーム内で始めたので、私もほぼ毎回参加しました。 カスタマ

    MackerelチームのCustomer Reliability Engineerになりました - yasuhisa's blog
    yag_ays
    yag_ays 2020/03/12
  • Machine Learning Casual Talks #10でMackerelのロール内異常検知について発表しました - yasuhisa's blog

    メルカリさんのオフィスで開かれたMachine Learning Casual Talks (MLCT) #10に「教師なし学習によるMackerelの異常検知機能について 〜設計/運用/評価の観点から〜」というタイトルで登壇してきました。 MLCTは機械学習をサービスで運用していく知見を共有する勉強会です。YouTube等で動画配信を積極的にしてくださっていて、はてなの京都オフィスでも鑑賞会と称してランチタイムに同僚と発表を見させてもらっていました。普段から勉強させてもあっていた勉強会に、登壇という形でちょっとはお返しできているとうれしいです。登壇させて頂き、ありがとうございました! 私の発表資料はこちらです。スライド46枚ありますが、発表は15分だったので番はこれの短縮バージョンで発表させてもらいました。 教師なし学習によるMackerelの異常検知機能について 〜設計/運用/評価の

    Machine Learning Casual Talks #10でMackerelのロール内異常検知について発表しました - yasuhisa's blog
    yag_ays
    yag_ays 2019/05/30
  • Pretraining Sentiment Classifiers with Unlabeled Dialog Dataを読んだ - yasuhisa's blog

    論文読み会をやるので久しぶりに論文を読みました。久しぶりじゃダメなんだけど...。今年のACL2018でYahoo! JAPAN Researchの方が発表された内容です。 pretrainingを教師なしの対話データを使って精度向上させる Y!のリアルタイム検索でも使われているっぽい 例: 「ちはやふる」のYahoo!検索(リアルタイム) - Twitter(ツイッター)をリアルタイム検索 replyが付くようなtweetは感情に関連することが多いのではないか?という仮説のもと、シンプルなencoder-decoder(のencoder側)をpretrainingとして使う めちゃくちゃ簡単 実験がきちんとしていて、はてなや他社でも使えそうな知見があったので紹介したかった 論文 発表スライド 以下は雑なメモです。 問題点 教師あり学習である程度いい精度を出すには教師データが10万件程度必

    Pretraining Sentiment Classifiers with Unlabeled Dialog Dataを読んだ - yasuhisa's blog
    yag_ays
    yag_ays 2018/11/14
  • MACHINE LEARNING Meetup KANSAI #3で機械学習を使った趣味サービスにおける工夫を紹介しました - yasuhisa's blog

    最近、仕事のちゃんとした登壇が多かったので、趣味でやっているWebサービスにおける機械学習関連の工夫について発表してきました。基的に昔ブログで紹介したエントリのまとめバージョンです。 趣味の余暇時間で開発しているサービスなので、いかに手間をかけずに済むかというのが大事です。テーマは怠惰!! 機械学習を使った趣味サービスにおける工夫紹介 from syou6162 効率的なアノテーション方法 精度の継続的なモニタリング 多様性を持たせた簡単な推薦方法 パイプラインジャングルと戦う 効率的なアノテーション方法 機械学習、データ数が多くないとなかなか精度が出ないですが、教師データをたくさん作るのも手間がかかります。そこで能動学習を使って効率的にアノテーションしていくツールを作ったので、それの紹介をしました。 精度の継続的なモニタリング 機械学習のコードでは、テストは通ってたけど実は番では精度

    MACHINE LEARNING Meetup KANSAI #3で機械学習を使った趣味サービスにおける工夫を紹介しました - yasuhisa's blog
    yag_ays
    yag_ays 2018/10/04
  • 「今日から始める機械学習〜はてなの事例〜」というタイトルでデブサミ2018関西で登壇しました - yasuhisa's blog

    株式会社ハカルスの染田さん(Machine Learning Meetup KANSAI繋がり)からご紹介頂きまして、タイトルの内容で登壇してきました。 今日から始める機械学習はてなの事例〜 from syou6162 A-3セッション『今日から始める機械学習はてなの事例~』吉田 康久さん(はてな)です! #devsumi #devsumiA pic.twitter.com/Dhej1tIkhV— Developers Summit (@devsumi) 2018年9月28日 登壇に当たって考えたこと 「機械学習を始めたいけど、まだちょっとハードルが高くて踏み出せていない」という方が「機械学習やってみよう!」と思える内容の依頼(大分意訳してるけど)をもらっていました。このテーマ、結構話し方が難しいなと思っていました。というのも、最近の登壇では「機械学習のサービス運用や組織運用、結構大変

    「今日から始める機械学習〜はてなの事例〜」というタイトルでデブサミ2018関西で登壇しました - yasuhisa's blog
    yag_ays
    yag_ays 2018/10/01
  • Mackerel Meetup #12で異常検知機能について発表しました - yasuhisa's blog

    タイトルの通りですが、Mackerel Meetup #12で登壇してきました。 ユーザーの皆さんからご要望を直接聞けるので、Meetupは開発者としてもとてもありがたい場になっています。参加してくださった皆さま、ありがとうございました。私が発表したスライドはこちらです。 機械学習を用いたMackerelの異常検知機能について from syou6162 発表時間が20分だったこともあり詳細は大分割愛していますが、異常検知の手法の詳細や異常検知のような機械学習を作る際の社内の体制をどう作っていったかといった話は過去の発表スライドにありますので、ご興味ある方はこちらも是非ご参照ください。

    Mackerel Meetup #12で異常検知機能について発表しました - yasuhisa's blog
    yag_ays
    yag_ays 2018/08/03