[B! data-mining] somathorのブックマーク

Googleに勤めて10年が経ちました - 渋谷駅前で働くデータサイエンティストのブログ

光陰矢の如しとは良く言ったもので、今日でGoogleに入社して10年が経ちました。それまでは研究者時代まで含めても5年以上同じところに勤めたことがなかった上に、Googleに入ってからも「5年もいられたら御の字」と思っていたことを考えると、随分と遠いところまでやって来たなぁというのが偽らざる感想です。ということで、主に公開済みの記事・資料類を引きながら、この10年間やってきたことを差し支えない範囲で振り返ってみようと思います。入社に至るまでの顛末統計学・機械学習・データサイエンスによる各種広告改善の自動化推進 (2016-20) 機械学習リテラシー・AutoML技術の啓発活動 (2017-21) マーケティング計量分析による広告マーケティング戦略立案支援 (2020-) 余談：各国オフィス訪問歴感慨など入社に至るまでの顛末僕がGoogleに入った経緯については、6年前に超長文の回

somathor 2026/01/05

リンク

ReproでのApache Icebergの技術検証結果 - Repro Tech Blog

Reproでチーフアーキテクトとして仕事をしている橋立(joker1007)です。今回、本番環境への導入を視野に入れてApache Icebergを実際に業務データで検証しました。この記事ではその検証内容と結果について共有したいと思います。 Icebergについて IcebergはOpen Table Formatと呼ばれているデータフォーマットの一つで、クラウド環境で効率よくデータ分析を行うためのデータフォーマットとして開発が進んでいます。 Icebergの様なOpen Table Formatは単一のファイルによるデータ構造ではなく、複数のファイルとそのメタデータの管理機構が合わさったフォーマットになっており、全体のファイル構造が合わさって一つのテーブルとして扱えるというのが特徴です。以前、Reproで検証したApache HudiもOpen Table Formatの一つですが

somathor 2025/11/14

data-mining

リンク

データ分析向けデータベースカオスマップ 2025年下期版 - Findy Tools

膨大なデータが日々生まれる現代、企業の意思決定は「どれだけ迅速かつ正確にデータを活用できるか」にかかっています。生成AIや高度な分析技術の活用が広がるなか、ベクトル検索やリアルタイム集計など、新しいデータ活用の手法も注目を集めています。本カオスマップでは、代表的な分析向けデータ基盤ツールを、「DWH」「レイクハウス」「データレイク／補助ツール」「ベクトルDB」「リアルタイム分析DB」「クエリエンジン」といったカテゴリに整理し、それぞれの特徴や選定ポイントを解説します。 ※本記事で取り上げるカテゴリには、純粋なデータベース製品に加え、データレイク管理基盤やクエリエンジン、リアルタイム分析基盤なども含まれています。これらは厳密には役割や機能が異なりますが、いずれも「データ分析を支えるストレージ／処理レイヤー」として活用されるケースが多いため、便宜上ひとつのマップに整理しています。また、分

somathor 2025/11/09

リンク

Amazon Athenaを高速化！バケッティングとパーティションの違い - サーバーワークスエンジニアブログ

はじめに今日は、Amazon Athena クエリのパフォーマンスを向上させる方法についてご紹介します！ Athena とは、Amazon S3 に保存されているデータを中心に、SQL を使ってさまざまなデータソースにクエリを実行できるサービスです。クエリのパフォーマンスを向上させる方法はいくつかありますが、その中でも効果が大きいのが「スキャンするデータ量を減らす」ことです。 Athena の料金はスキャンしたデータ量に応じて発生するため、パフォーマンスを向上だけではなくコストも最適化できます。 Athena がスキャンする必要があるデータ量を減らすための方法として、パーティションとバケッティングというものがあります。今回は、パーティションとバケッティングをどのように使い分け、併用すればよいか解説します！パーティションとはパーティションとは、S3 上のデータをフォルダ（プレフィッ

somathor 2025/08/17

リンク

Apache Icebergにおける同時実行制御の仕組みと注意点 - Bering Note – formerly 流沙河鎮

はじめに Icebergテーブルのアーキテクチャ Icebergの同時実行制御のコンセプト Icebergの書き込み処理の流れ同時書き込み時のシナリオパターンデータ競合チェックなぜデータ競合のチェックが必要か？主要なオペレーションで実施されるバリデーション AppendFiles OverwriteFiles (Copy-on-Write 更新/削除) RowDelta (Merge-on-Read 更新/削除) RewriteFiles (REPLACE: コンパクション) バリデーションの種類データパイプライン設計時の注意点まとめと宣伝おまけ(ソースコードベースの流れ）はじめに Apache Icebergテーブルは、テーブル単位、オペレーション単位のトランザクション分離レベルとしてserializableとsnapshotをサポートしています。（デフォルトはseria

somathor 2025/01/19

リンク

複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。前提どこでも必要とされたスキルデータマネジメントに関する概要レベルの知識と実行力セキュリティや法令に関する知識事業ドメインに関する興味関心他職種とのコミュニケーション能力コスト管理 / コスト削減のスキルソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力分析用のSQLを書く力古いテーブルやデータパイプラインを置き換えていくスキルや胆力あるとやりやすいスキル関連部署の動きを何となく把握しておく力

somathor 2024/04/30

リンク

分析基盤のテーブルと連携方式｜zono

分析基盤においては様々な連携手法があります。これは、データ量が多いか少ないか、データソースが最新か履歴か、によって変わってきます。今回は、連携手法を紹介しながら、その連携に必要なテーブルの特徴について話したいと思います。連携元と連携先のテーブル連携元のテーブルは、最新テーブルになっている場合も履歴テーブル（インサートオンリー）の場合もあります。これはアプリ側の仕様によって異なります。多くの場合は、UPDATEができて、データ量が少なくなる最新テーブルになります。基本的に連携先のテーブル（データレイクやレイクハウス）は、履歴テーブルになっています。これは、分析する上で時系列データを扱えたり、集計時に多くのデータを扱えることができるためです。最新テーブルや履歴テーブルの作り方や必要なカラムについての詳細は下記の記事をご覧下さい。連携方式全件連携全件連携とは、データソースから全てのデ

somathor 2024/04/21

リンク

「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ

最近の話ですが、以下のようなニュースが話題になっているのを見かけました。データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後

somathor 2024/01/24

リンク

ABテストが難しい場合の施策効果の評価・推定方法

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部でデータ分析による社内サービスの課題解決支援をしている関口です。ヤフーではたくさんのABテスト（※1）が常に行われており、サービス改善に活かされています。しかしながら実際には、さまざまな理由からABテストができないことがよくあります。本記事では、そのような場合にどのようにして施策の効果を評価・推定するかについて、具体的なケースからアイデアを紹介していきます。なお今回はYahoo!ショッピングを題材にしたケースばかりですが、アイデア自体は汎用的なものとなっています。 ※1： ABテストはウェブサービス上のUI改善、機械学習モデル改善、機能追加etc.といったさまざまな施策が、KPIにどれくらいのイン

somathor 2023/03/24

リンク

データマイニング入門

ビックデータ分析技術は情報処理技術を学ぶ上で重要となっている。本講義では、データ分析・データマイニングの基礎について学ぶとともに演習を通して実際にデータを分析するプロセスを学ぶ。特に、前期課程の「データマイニング入門」講義のさらに発展的な内容を学習することで、後期課程や大学院におけるデータサイエンス、人工知能、機械学習、自然言語処理などの関連講義の基礎となる知識を習得することを目標とする。

somathor 2022/07/03

リンク

PythonでDataFrameを省メモリに縦横変換する - MicroAd Developers Blog

マイクロアドの京都研究所で機械学習エンジニアをしている田中です。機械学習を利用したユーザーの行動予測の研究開発などを担当しています。今回は、データの前処理に関するお話をしたいと思います。データの縦横変換縦横変換するためのpandasの関数省メモリに縦横変換するサンプルデータの準備 pandas.Categoricalの活用 scipy.sparseの疎行列クラスの活用さいごに参考データの縦横変換機械学習や統計解析をする際に頻出するデータの前処理の1つに、データの縦横変換があります。縦横変換とは、縦持ち（またはlong型）のデータと、横持ち（またはwide型）のデータを互いに変換することを指します。縦持ちのデータの例横持ちのデータの例例示したこの２つのテーブルは、表現形式こそ異なりますが、表しているデータ自体はどちらも同じものになります。ユーザーの行動予測をする

somathor 2019/05/13

リンク

機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界

さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub（https://github.com/ShoKosaka/Suumo）に上げておきますので興味ある方は参照ください。最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。データ探索まず、23区の中でどこが物件数が多いのかを

somathor 2017/11/12

リンク

実務の現場に多い時系列データ分析の際に注意しておきたい点を列挙してみる - 渋谷駅前で働くデータサイエンティストのブログ

こういうメタ分析系の記事を書く時というのは大抵ネタ切れの時なんですが（汗）、最近になってこの辺のポイントでつまずいて困っているビジネスデータ分析の現場の話を聞くことがまた増えてきたので自分向けの備忘録も兼ねて記事としてまとめておきます。そうそう、時系列分析の話って厳密にやり始めるとキリがないので、例えば単位根過程まわり（特に共和分のあたりを含めた複数時系列間の関係性の話とか）は「トレンドに注意せよ」という大きなくくりにまとめて、厳密な議論は割愛して出来る限り実務面で押さえるべきポイントに絞ろうと思います*1。悪しからずご了承あれ。周期性のあるデータには真っ先に季節調整をビジネス時系列データは例えば毎日毎時の売上高とか契約数とかコンバージョン数とか、どこからどう見ても曜日変動とか24時間変動などの周期性が乗っているデータであることが多いです。にもかかわらず、その手の周期性に何の処理もせ

somathor 2017/09/28

リンク

自然言語処理における前処理の種類とその威力 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? **自然言語処理に前処理は不可欠です。**テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: [Deep learning for computational biology](http://msb.embopress.org/content/12/7/878) 本記事では自然言語処理における前処理の種類とその

somathor 2017/04/18

リンク

切り口を変えてデータを深掘りする。Excelでのスライス＆ダイス分析。

AYAKO 漠然としたデータのかたまりも、切り口を変えたり、サイコロを転がすように視点を変えたりすることで、見えなかったヒントが浮かび上がってきます。ピボットテーブルを使えば、その試行錯誤も簡単です。スライス＆ダイス分析とはデータを切り出す（スライス）、ないしはサイコロ（ダイス）を転がすようにして視点を変えるといった方法を組み合わせながらすすめるデータ分析の手法です。多面性・深度を視座に分析に取り組むことができます。

somathor 2016/03/01

リンク

杜氏のいない｢獺祭｣、非常識経営の秘密データ分析による集団体制で日本酒を造る

これだけデータが注目される今日において、この問いに「No」と答えるわけにはいかない。しかし、必ずしも「Yes」と答えられるわけでもなく、「やり方次第でYesにもNoにもなる」としか答えようがないことがほとんどではないだろうか。では、データはどのように活用すれば「儲かる」、つまりはビジネスとして成果を生み出すのか？クラウド型の統計分析ツールxica adelieを提供する株式会社サイカが、さまざまなビジネスの現場でデータを活用するプロフェッショナルへのインタビューを通じて、その「可能性」や「限界」はどこにあるのかを探って行く。 ――酒造りの中で、データをどのように活用していますか。酒造りは、伝統的に杜氏という職人文化によって支えられてきました。獺祭では杜氏がいない体制で酒造りをしており、優秀な杜氏がやっていたことを集団でやろうとしています。その中で、さまざまな形で酒造りの中でデータによる

somathor 2014/07/14

リンク

５年後のデータサイエンティスト

オタクエンジニアを熱くさせる！モチベーションと効率をあげるチームビルディング_20210611_TechDay#1_3

somathor 2013/11/29

リンク

進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ！

はじめに最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。これだけ人気なんだからきっと面白いに違いないのですが、なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。扱うデータとして、pixivのタグ情報を利用します。商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、そこに付与されるタグ情報は、ファンの熱（過ぎる）いメッセージが込められているに違いありません。今回、以下のような縛りを入れています。 1．勿論原作は見ない 2．pixivのタグ情報は参照するけど、

somathor 2013/08/05

リンク

データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

Index データ集計コマンド爆速で検索したいぜ！ lookを使う LC_ALL=Cを設定するデータのランダムサンプリングがしたいぜ！ sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使うランダムサンプリング速度比較合計と平均値を集計したいぜ！列データ取得重複行のカウント合計値出力平均値出力複数ファイルのデータ結合がしたいぜ！共通項目での結合同じ行数での結合まとめデータ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記