あや@ほわほわ @aya_howa 昔、プロジェクトリーダーさんが、とある数百件のデータに差異があるか確認するのに、ウィンドウを左右に並べて目で確認していたのです。その後PMに「センスがない!」と叱られていましたが、根気があってマメな人なんだろうなぁ…と面倒臭がり&自分の目を全然信用していない私は思ったものでした。
タイトルの結論は、「役に立つ」です。 役に立つか立たないかの議論は一切せず、本記事では、如何に統計や数学が実社会で役に立つかを紹介します。 はじめに こんにちは。ZENKIGENデータサイエンスチーム所属の廣田です。原籍はオムロンソーシアルソリューションズ株式会社 技術創造センタですが、社外出向でZENKIGENに所属しており、数理最適化や機械学習を用いたデータの分析業務、それらの結果に基づいた顧客への提案をしております[1]。 出向先であるZENKIGENの同僚にも、原籍のオムロンの同僚にも、統計検定®の準1級や1級を持っている方がいて、私も負けじと準1級を受験しました。結果、統計検定®準1級に合格し、優秀成績賞までいただくことができました。 統計検定®合格証と優秀成績賞 試験対策を通じて、改めて統計学の考え方は有用と感じました。この手の検定試験は物事を体系的に学ぶきっかけになるため、私
はじめに 本稿では分析用クエリをスラスラ書けるようになるまでの勉強方法や書き方のコツをまとめてみました。具体的には、自分がクエリを書けるようになるまでに利用した教材と、普段クエリを書く際に意識していることを言語化しています。 想定読者として、SQLをガンガン書く予定の新卒のデータアナリスト/データサイエンティストを想定しています。 勉強方法 基礎の基礎をサッと座学で勉強してから、実践教材で実際にクエリを書くのが望ましいです。 実務で使える分析クエリを書けるようになるためには、実務経験を積むのが一番良いですが、だからといって座学を御座なりにして良いというわけではありません。SQLに自信がない人は、一度基礎に立ち返って文法の理解度を確認した方が良いと思います。 書籍 SQL 第2版: ゼロからはじめるデータベース操作 前提として、SQLに関する書籍の多くがデータベース運用/構築に関する書籍がほ
これは全社会人が読んで得をする書籍ですが、特に「パソコンが得意ではない社会人の方」が読むと一番効用が大きいように思いました。 また、私自身IT業界で働いていて世間一般的には「パソコンが得意な人」だと思いますが、それでも知らなかった使い方もたくさんあり学びが多かったです。 この書籍の推しポイントやりたいことベースで書いてある 日常のあらゆる面倒なことに手が届く パソコン触りたての人がつまづきそうなポイントへのフォローが丁寧 (例:ChatGPTはShift Enterで改行できる、など) 試行錯誤のうえのプロンプト(=AIに対しての指示)が載っているので出力が安定している (※ ChatGPTをはじめとしたLLMは同じ入力でも毎回出力変わります。また、ちょっと言葉が足りなかったりするだけで意図しない出力が返ってきますがそのあたりへの気配りが非常に丁寧です) 著書の専門性が高い(Kaggle
棒グラフと折れ線グラフは似た表現方法です。しばしば交換可能なものとして使われる両者ですが、使うべきポイントには違いもあります。 代表的な例が気温です。気温は棒グラフではなく、折れ線グラフで表現するのが正しいです。 そもそも棒グラフは、棒の長さ(≒ 棒部分の面積)の比率と数値の比率を対応させることで視覚的に数値を比較するものです。したがって、数値が2倍なら棒グラフの長さも2倍になります。棒グラフにおいて、縦軸を省略してはいけないのはそのためです。 しかし、気温において「X倍」に意味はありません。気温が10℃から20℃に上がっても「10℃上がった」とは言いますが「2倍の暑さになった」とは言いませんよね。気温とは、水が凍る温度を0℃、水が沸騰する温度を100℃とする相対的な指標です。気温がマイナスになることはしばしばありますが、これは本当に何かがマイナスになっている、失われているのではなく、水が
グラフ理論と隣接行列 グラフ理論は点と線で物事を表す理論です。たとえば駅の路線図では下記のように駅を点、路線を線で表します。 東京メトロホームページより 上記の路線図では「駅と駅が隣接するかどうか」を中心に取り扱う一方で、それぞれの位置や方角などは厳密に再現はされません。このように、「隣接するかどうか」のみに着目して物事を表す際の理論を「グラフ理論」といいます。 グラフ理論では点をノード(node)、線をエッジ(edge)、全体をグラフ(graph)と定義します。数式で表すと$G = (V,E)$のように表しますが、$V$が頂点のVertice、$E$がEdge、$G$がGraphであるとそれぞれ解釈すると良いです。 グラフの表記法に関しては主に$2$通りあり、「①図を用いる」と「②隣接行列を用いる」をそれぞれ抑えておくと良いです。例があるとわかりやすいので下記のWikipediaの例を元
以前こんな記事を書いたことがあります。 「社員全員Excel経営」で名高い、ワークマン社のサクセスストーリーを論評したものです。2012年にCIOに就任した土屋哲雄常務のリーダーシップのもと、取引データの完全電子化を皮切りに「全社員がExcelを使いこなして数字とデータで経営する」戦略へと移行し、社内のExcelデータ分析資格を一定以上取得しないと管理職に昇進できないとか、はたまた幹部クラスの企画・経営会議ではデータに基づかない議論や提案は相手にすらされないとか、「Excelを社員全員が使えるようになるだけでもここまで企業カルチャーは変わり得るのか」という事例のオンパレードで、関連記事や書籍を読んでいて舌を巻いたのを覚えています。まさしく「ワークマンのすごいデータ活用」だったのです。 一方、個人的に強く印象を受けたのが土屋常務が様々なところでコメントしていた「我が社には突出したデータサイエ
イーロン・マスク氏がTwitterを買収してわずか3週間で従業員が7500人から2700人にまで激減したと報じられています。通常、従業員の3分の2が辞めてしまうと会社の運用に支障をきたし、Twitterのシステム維持にも大きな影響を与えてしまいそうなものですが、Twitterは記事作成時点でも問題なく稼働を続けています。大規模な人員削減があってもTwitterというシステムが維持されていた仕組みについて、Twitterのサイト信頼性エンジニア(SRE)を5年間務めていたマシュー・テージョ氏が語っています。 Why Twitter Didn’t Go Down: From a Real Twitter SRE https://matthewtejo.substack.com/p/why-twitter-didnt-go-down-from-a テージョ氏は5年間にわたってTwitterのサイ
標準 ベイズ統計学 朝倉書店Amazon 発刊当時に話題になっていた『標準ベイズ統計学』。実は訳者のお一人、菅澤翔之助さんからオフィス宛てでご恵贈いただいていたのですが、親父の没後処理やら自分のDVTやら実家の片付けやらで全く手が回らずオフィスに置いたままにしてしまっていたのでした。で、この度改めて拝読してみたら「何故もっと早く読まなかったんだ」と後悔するくらいあまりにも内容が素晴らしかったので、遅まきながら書評記事を書こうと思い立った次第です。 ベイズ統計学というと、殆ど詳しくない人だと「ベイズの定理以外に何があるの?」という印象ぐらいしかないかもしれませんし、一方でとりあえず技法としてやり方だけ覚えてしまった人だと「とりあえずMCMC回せばいいんだよね?」みたいな雑な理解になってしまうかもしれません。いずれにせよこれまで邦書ではベイズ統計学というと超初歩か実装重視かの二択が多かったせい
初対面の相手と恋に落ちる「運命の出会い」を信じている人は多いはず。データサイエンティストのシャノン・ペリー氏は、自身と恋人のGoogleアカウントに記録された位置情報履歴を用いて、「2人が運命の出会いを果たすまでに何度すれ違ったか」を検証しています。 How fateful? https://chan.co.za/how-fateful ペリー氏は交際相手のダン氏と付き合い始める5年前から同じ大学に通い、同じ街に住んでいたとのこと。ペリー氏は「長年同じ地域に住んでいたのなら、付き合い始めるより前に何度もすれ違っていたはず」と考え、Googleマップに保存されている位置情報履歴を用いて、2人がすれ違っていた回数を求めることにしました。 Googleはユーザーのデータをエクスポートできる機能「Google データ エクスポート」を提供しており、Googleマップに保存されている位置情報履歴もダ
► 2024 ( 258 ) ► 09/01 - 09/08 ( 3 ) ► 08/25 - 09/01 ( 8 ) ► 08/18 - 08/25 ( 7 ) ► 08/11 - 08/18 ( 8 ) ► 08/04 - 08/11 ( 9 ) ► 07/28 - 08/04 ( 7 ) ► 07/21 - 07/28 ( 7 ) ► 07/14 - 07/21 ( 8 ) ► 07/07 - 07/14 ( 7 ) ► 06/30 - 07/07 ( 7 ) ► 06/23 - 06/30 ( 7 ) ► 06/16 - 06/23 ( 7 ) ► 06/09 - 06/16 ( 7 ) ► 06/02 - 06/09 ( 7 ) ► 05/26 - 06/02 ( 7 ) ► 05/19 - 05/26 ( 9 ) ► 05/12 - 05/19 ( 7 ) ► 05/05 - 0
こんにちは、Wantedlyでデータサイエンティストをしている樋口です! 先日会社で買ってもらったデータビジュアライゼーションの基礎を読みました。データ可視化について網羅的にわかりやすく書かれており参考になったため、記事にまとめてみました。書籍の英語版は無料で公開されているため、よければこちらも参考にしてみてください。 データビジュアライゼーションの知識を学ぶことで、科学的に誤った表現をせずに、芸術的に美しい表現ができ、明確で明瞭かつ魅力的にデータから得られる示唆を伝えることができる様になります。📊 本記事では、特定のライブラリや描画手段によらないデータ可視化の基礎について紹介します。 分量が多くなってしまったので、本記事ではデータビジュアライゼーションの”グラフ"にのみ着目しています。グラフ以外の構成要素(色、タイトル、テキスト、etc.)については別途記事にしたいと思います。 本記事
https://twitter.com/orgmrm/status/1523801437993836544 レジ袋有料化ネタのツイートは定期的にバズる傾向があるのでこのブログでも幾度か記事にしていますが、今回もまたデータやそれに伴う話を書いていきます。本題に入る前に少しふれときますが「データないとは言わせんで」と言ってて、むしろデータがないとネタでなく思ってたらやばいなって感じがします。それと「レジ袋有料化でどれくらいプラ減りましたか」と書いてあることから、論理の逃げ場としては「プラごみが全体でどれくらい減ったか」を言いたかった、要はレジ袋なんて全体からすれば大した事ない数字だ、と言いたいとも取れますがレジ袋有料化で減るのはレジ袋なのでレジ袋の話のみに限ります。といいつつ、一般社団法人プラスチック循環利用教会のデータだけは貼っておきます。 2019年 850万トン(一般廃棄:412、産業廃
こんにちは。 データアナリスト 兼 チームのマネージャ としてメルカリという会社に4年ほど勤めていたのですが、色々やった気はするが、思い返してみると結局の所何をしたんだっけ?という気持ちに突然なりました。僕は忘れっぽいので、今後もこういう瞬間は何度も訪れそうな気がしています。 ということで、この4月から新しいことを始めるこのモーメントに自分が何をしたのかをちゃんと書き残しておくことにしました。 自分自身の記憶のアーカイブの役割とともに、誰かの参考になれば望外の喜びです。 大体2016−2019年くらいの話です(今のメルカリのデータ分析チームはもっと進化していますのであしからず。) LTVの概念を導入した2022年現在となってみると非常に不可解ではあるが、私がメルカリに入社した2016年頃には、社内では「LTVを見る」という概念はなかった。 ゆえに、投資がリクープ(回収)できているかどうかを
【内容】 ○「年齢別の男女の主導権」「強姦/和姦とストーリー要素」「ストーリーパターン、ヒロイン性格・属性、主導権・動機・セリフの数量化分析」等々 ○数字から分析を引き出す構成など 【掲載画像所載】 続きを読む
Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。 その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く