タグ

2022年12月13日のブックマーク (13件)

  • git の pre-commit hook はなるべく使わないほうがいいのでは

    ※この記事の内容は https://nazo.hatenablog.com/entry/dont-use-pre-commit-hook と同一です。 git に pre-commit hook という、コミット直前に何かのプログラムを実行する機能があります。これを用いて lint や test を実行したりすることがありますが、この利用は極力避けたほうが良いのではと考えています。 なぜ? 個人の環境で実行した結果は信用できない ローカルコンピューターで待たせてはいけない pre-commit の挙動や中断などで動作が怪しくなることがある 個人の環境で実行した結果は信用できない 全員が完全に同じ環境で pre-commit hook を実行しているかは誰にもわかりません。言語やライブラリのバージョンに差がある可能性もあります。また、hook をスキップする方法もあります。 それだけを信用し

    git の pre-commit hook はなるべく使わないほうがいいのでは
    imyutaro
    imyutaro 2022/12/13
  • 統計学のカレンダー | Advent Calendar 2022 - Qiita

    統計学に関するAdvent Calendarを作ってもいいのかなと思ったので、12月も半ばとなりましたが作ってみます。 12月半ばなので、1日~11日までの記事が実際の投稿日と異なっていても構いません。 「統計学」に関する記事であれば何でもOKです。 統計検定を受けてきた こういう面白い検定を使ってみた こんな統計モデルを応用してみた などなど、皆さんの統計学愛をここに集約しましょう。 edit_calendarHow to join the calendarYou can join the calendar by selecting an available date and registering the URL of the article you wish to link to. If a slot is available, you can go back to a past d

    統計学のカレンダー | Advent Calendar 2022 - Qiita
  • A simple & clear explanation of the Gini impurity?

  • datatech-jp Casual Talks #4 レポート|よしむら@データマネジメント担当

    データリネージの組織導入事例と今後の戦略発表者tosh2230(GMOペパボ) 発表資料<後であれば更新する> 概要データリネージをはじめた背景データリネージとはデータの系譜を明らかにすること。データの可観測性の向上が目的。 Bigfootと名付けられたデータ基盤を運用している。 データ駆動のためのエコシステムの提供 サービスの動的な改善と意思決定の自動化をサポート GMOペパボはいろんな運営サービスがあります。複数サービスを活用していることによる困りごとが2点あります。 データ障害の原因や影響範囲を把握しにくい 業務データの活用状況を把握しにくい 業務データ全体に対するデータリネージがしたい。 データリネージ具体的な手段OSSでStairlightというものを開発しました。 特徴 SQLからデータのつながりを見つける コードベースにあるSQLを探す。 独立性が高い 詳しくはこちらへ GM

    datatech-jp Casual Talks #4 レポート|よしむら@データマネジメント担当
  • 列指向データベース管理システム - Wikipedia

    列指向データベース管理システムは、データベース管理システム (DBMS) の内部構造において、列のデータをひとまとまりにして取り出すときに効率的であるように設計されたものである。これはデータウェアハウスや図書館のカタログのように、大量の類似のデータ項目に対し集計が行われるものに対して有用である。[1]このアプローチはvalue-basedなストレージ構造を使用する行指向データベースや相関データベースと対比される。 列指向データベース管理システムは、一般的に「カラムナデータベース」 (Columnar Database) とも呼ばれる。 詳細[編集] 通常のDBMSシステムはひとつの行を構成する列データをひとまとまりとして格納する。これに対し列指向DBMSでは、列の値をまとめてファイルシステム上の近い場所に(あるいはひとまとまりの論理構造として)置くというアプローチがある。 利点[編集] 行

    imyutaro
    imyutaro 2022/12/13
  • B+ tree - Wikipedia

    This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article's use of external links may not follow Wikipedia's policies or guidelines. Please improve this article by removing excessive or inappropriate external links, and converting useful links where appropriate into footnote references. (Oc

    B+ tree - Wikipedia
    imyutaro
    imyutaro 2022/12/13
  • B-tree - Wikipedia

    In computer science, a B-tree is a self-balancing tree data structure that maintains sorted data and allows searches, sequential access, insertions, and deletions in logarithmic time. The B-tree generalizes the binary search tree, allowing for nodes with more than two children.[2] Unlike other self-balancing binary search trees, the B-tree is well suited for storage systems that read and write rel

    B-tree - Wikipedia
    imyutaro
    imyutaro 2022/12/13
  • B-treeインデックス入門 - Qiita

    B-treeがMySQLで使用されている背景から、B-treeインデックスの構造、そしてそれに基づいたインデックスの使用方法の入門編です。以下の流れに沿ってまとめていきます。 インデックスってなに? B-treeってなんでインデックスに使われているの? B-treeインデックスの構造 インデックスの使用方法 ※ 勉強をかねてまとめていることもあり、間違っている箇所がございましたら教えていただけると嬉しいです。 インデックスってなに? 全体の内容の中から特定部分を探すために使用する、の索引のような概念のことです。これを用いることで、検索を高速化することができます。 特定の項目がのどこに載っているかを確認するために索引を調べることで、全ページを順に調べなくても、その項目が登場するページ番号がわかる MySQLのストレージエンジンでも、インデックスが同様の方法で利用されており、インデックスの

    B-treeインデックス入門 - Qiita
    imyutaro
    imyutaro 2022/12/13
  • B TreeとB+ Treeの違い - Carpe Diem

    概要 インデックスに対してMongoDBはB Treeを採用し、MySQLのInnoDBはB+ Treeを採用しています。 どうして採用しているアルゴリズムが違うのだろう?と思って調べてみました。 主な違い B+ TreeはほとんどB Treeと同じですが、以下の点が異なります。 リーフノードとリーフノードを結ぶポインタがある データはリーフノードのみに保持する 具体例 言葉だけだと分かりにくいので、Visualizeするツールを使って具体例を表示します。 [1, 2, 3, 4, 5, 6, 8, 10, 15, 18]という数列に対し、Order: 3で作ってみます。 Orderは1ノードから出る枝の数のことです。 B Tree B-Tree Visualization B+ Tree B+ Tree Visualization 先程のB Treeと違って、データはリーフノードに持つの

    B TreeとB+ Treeの違い - Carpe Diem
    imyutaro
    imyutaro 2022/12/13
  • MonetDBを調べてみる - y-asaba@hatenablog

    awsのredshiftみたいな話もあったので、カラム指向DBとか列指向DBとか呼ばれる技術をMonetDBで調べてみました。 カラム指向DB wikipediaに書いてある内容を見ていただくのが手っ取り早いと思いますが、普通のRDBMSだと1ブロックにたいして、行を詰められるだけ詰めるという仕組みだと思いますが、カラム指向DBの場合は行ではなく、ある列だけをひとまとめにするような仕組みっぽいです。 ちなみにpostgresの場合は、こんな感じでデータを詰め込んでいます。 ビルド 当然デバッグビルドします。シンボルつけて、最適化なしでビルドします。なお、ビルドの際にはlibxml-dev(ubuntuの場合)が必要です。 [sourcecode] % CFLAGS="-g -O0" ./configure --prefix=$HOME % make % make install [/sou

    MonetDBを調べてみる - y-asaba@hatenablog
    imyutaro
    imyutaro 2022/12/13
  • 🦆🦆🦆🦆🦆🦆DuckDB入門🦆🦆🦆🦆🦆🦆

    tl;dr SQLiteのOLAP版だよ OLAP系のクエリにおいて、PandasやSQLiteより早いらしいよ CSV・Parquet・Pandas DataFrameの読み書きできて便利だよ 背景 ポジション・競合 一言で言うとSQLiteのOLAP版です。位置づけとしては、論文(DuckDB: an Embeddable Analytical Database (SIGMOD 2019 Demo))記載のSystem Landscapeがわかりやすいです。 (DuckDB: an Embeddable Analytical Database (SIGMOD 2019 Demo)より) このLandscapeでは、データベースを Standalone(クライアント・サーバモデル)か、組み込み(シングルマシン・インプロセス)か OLTPかOLAPか の二軸に分割しています。その上で、 ク

    🦆🦆🦆🦆🦆🦆DuckDB入門🦆🦆🦆🦆🦆🦆
    imyutaro
    imyutaro 2022/12/13
  • マネージャーになりたての自分に伝えたい10の観点|Jun Ernesto Okumura

    現職にデータチームのマネージャーとして入社してから3年が経ちます。改めて振り返ると、この3年間は試行錯誤の連続でした。上手くいった記憶も苦い経験もあり、日々新しい課題に向き合って慌ただしかったりしますが、総じてこの仕事を楽しめていて、マネジメントに対する解像度も少しずつ上がってきている気がします。 記事は、私個人の経験をもとに、マネージャーになりたての自分を想像しながら、当時知っておきたかった知識や心構えを(10個の観点として)まとめたものです。内容は誰でも読めるように配慮はしていますが、主な想定読者はタイトルにある通り「マネージャーになりたての人」になります。また、私自身はエンジニア組織に所属しているものの、内容はエンジニアマネージャーというよりマネージャー全般における話になります。 私は誰? ● 株式会社エウレカという会社でData Directorを務めています ● 事業会社のデー

    マネージャーになりたての自分に伝えたい10の観点|Jun Ernesto Okumura
  • 資料6 行政サービスのデジタル完結に向けて

    行政サービスのデジタル完結に向けて 2022年(令和4年)8月30日 第13回デジタル臨時行政調査会作業部会 1 議論のスコープ これまでの作業部会では、「行政手続」という切り口から、そのデジタル化に向け、 ①デジタル化を実現する上での課題の特定につながるデータの収集 ②フロントサービスの見直しなどの改善プロジェクトの推進 ③改善結果の見える化・モニタリング といったサイクルを継続的かつ低コストで実現する手法を検討すべき旨の御指摘をいただいた。 実態把握 改善 プロジェクトの優先順位付け デジタル完結を実現する上での課題の特定 行政手続等の棚卸調査のダッシュボード化等 による進捗・効果のモニタリング 日は、これまでの議論も踏まえた上で、「行政サービス全般」に視野を広げ、 また、供給者目線ではなく利用者目線に立って、以上のようなサイクルを通じて実現する 「行政サービスのデジタル完結」として