Looker Studio turns your data into informative dashboards and reports that are easy to read, easy to share, and fully customizable.
Parquetは便利なファイル形式で、列志向のフォーマットとしてはデファクトの1つと言っても過言ではないでしょう。 ですが、jsonやcsvとは違い、ファイルを見ただけでどんな構造かわかるものではありません。 この記事は、Parquetの具体的な構造について記述します。 はじめに この投稿は、Parquetの構造について、バイナリを見ながら確認するものです。 ただし、Parquetの大枠に注目した投稿なので、delta encodingやrun-lengthなど、個別の圧縮方法については取り扱いません。 ※ Parquetの作成には https://github.com/parquet-go/parquet-go を使用していますが、goの知識は必要ありません tldr Parquetは以下の構造を持っています。 ファイルはRowGroupとメタデータに分かれている RowGroupの中に
「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す:これからのAIの話をしよう(データ整備人編)(1/3 ページ) 多くの企業がデータの分析・活用に取り組んでいますが、その中で抜け落ちがちなのが、データ整備の視点です。データベースからデータを抽出・集計して分析者に渡す作業は地味に見えますが、データ分析の土台を支える極めて重要な仕事です。 この役割は、戦争でいうところの「兵站」(へいたん)に当たるほど重要なのではないか――データ分析に関する情報発信を続けるしんゆうさんが、自身のブログでこう問いかけた所、予想以上の反響があったといいます。 ※兵站:戦場で、前線の部隊のために軍需品や食料などの供給・補充を行う機関 しんゆうさんは、データを抽出・集計して分析者に渡す人を「データ整備人」「データアーキテクト」と呼び、データ分析に関する勉強会を開催するなどの啓蒙活動
デジタル庁は、法令標準 XML スキーマに準拠した、現行の法令データをe-Gov法令検索というサイト上で公開しています[1]。今回、この法令XMLをパースするPythonライブラリ ja-law-parser をつくり、法令データの全文検索をしてみました。 この記事では、日本の法令とそのデータ構造、法令XMLパーサについて解説し、最後に、それらを使った法令データの全文検索システムを実装する方法をご紹介します。法令検索の実装についても、GitHubリポジトリで公開しています。 この記事は、情報検索・検索技術 Advent Calendar 2023の16日目の記事です。 法律と法令 法律とは 法律の制定と公布 法律と法令の違い 法律の改正 法令のデータ構造 e-Govの法令データ 法令標準XMLスキーマ 法令番号と法令ID 題名 本則と附則 条・項・号 編・章・節・款・目 法令XMLパーサ:
はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニック について解説します。 Kaggleコンペに限らず、 マシンスペックが低いため、大きなデータセットを満足に処理できず困っている 毎回行うファイル読み込みが遅いので、もっと高速化したい ⚡ といった悩みや課題を抱えている方の参考になれば幸いです。 モチベーション データ分析業務やKaggle等のコンペティションで初めてのデータセットを扱う場合、いきなり機械学習アルゴリズムを行うことはまず無く、最初にデータ観察を行うのが一般的です。 テーブルデータであれば、各カラムの基本統計量(最小値、最大値、平均、分散、四分位数)などを計算・可視化し、データクレンジングの要否や特徴量設計の方針などを検
はじめに 新しいサービスにはじめて触れるとき、どうやって学べば良いかが分からずに困ることってありませんか? 特にパブリッククラウドは、サービス数が非常に多い上にアップデートが早いため、キャッチアップするのが大変ですよね。 本記事では、Microsoft Azure を学びたいと思っている方を対象に、オススメの学習方法についてまとめていきます。 想定読者 本記事が以下の皆様の Azure 学習の一助になれば幸いです。 これから Azure を学ぼうと思っている方 既に Azure を使っており、もっと学びたい方 AWS (Amazon Web Services) 経験者の方で Azure に興味がある方 GCP (Google Cloud Platform) 経験者の方で Azure に興味がある方 主要な学習リソースの概要 色々な学習リソースがありますが、Azure 公式ドキュメント と
皆さんは最近「洋楽」を聴いていますか…? ここ数年、音楽業界では「日本の洋楽離れ」が話題になっているようです。 洋楽離れ止まらぬ日本 K-POP人気、邦楽も台頭https://t.co/IvJHSz5Jkl 日本の2023年ストリーミングランキングの上位100曲に洋楽は1曲も入りませんでした。2月の東京公演が話題となったテイラー・スウィフトさんも、2020年代は20位圏内に入っていません。 — 日本経済新聞 電子版(日経電子版) (@nikkei) March 4, 2024 確かに、日本のヒットチャートを席巻しているのはほとんどが日本の音楽かもしれません。一見すると日本独自の現象のようにも思えます。ただ、データから世界を見てみると、少しちがった風景が浮かび上がってきます。 実は「洋楽離れ」は、日本だけの現象ではないようです。世界中で、いわゆる「洋楽」のヒット曲、特にアメリカのポップミュー
1T🍵T @1T0T 旧友が講師を務める大学、ライブ授業禁止なだけでなくオンデマンド授業は1週当たりビデオ20分以上禁止(=70分自習必須)なんだそうだ。一番パケ死しやすい人に基準を合わせているらしい。そりゃ教員も学生もみんなツライわ…。 1T🍵T @1T0T 「日本にはパケ死という概念があって月末にはネットワーク流量が激減する」なんて話が海外のどこかで「日本の珍現象」として報道されているらしいのですよ。我々は文科省だけでなく総務省にもメッセージを発する必要があるのかもしれない… 1T🍵T @1T0T 公立男子高→大手私大→外資IT企業→女子大教員。公式発言は@1t0ochaで。 こちらの垢は大学教員の自覚のない緩々な発言多めで。ロクに通知を見てないのでリプ返しあまりしませんが無礼をご容赦ください。 ※勤務先学生さんからの業務連絡DMが多いのでフォローがあればフォロバしますが拒否して
データ分析とビジネス活用のプロとして、さまざまな業界・フィールドで活躍する「データサイエンティスト」。 スキルセットや必要な知識などが語られることはあるものの、まだはっきりとした定義がなく、いったいどんな人たちなのか?と疑問を持つ人も少なくないのでは。 そこで本企画では、企業で働くデータサイエンティストたちの"リアル"を調査。データサイエンティストを志した理由や興味深かった論文、普段の業務、自社で働く魅力などを22社、52人のデータサイエンティストに聞きました。 企業一覧 DataRobot Japan株式会社 株式会社GA technologies 株式会社HACARUS 株式会社JMDC 株式会社LIFULL MNTSQ株式会社 NABLAS株式会社 株式会社Rist Sansan株式会社 SOMPOホールディングス株式会社 株式会社ZOZO 株式会社ZOZOテクノロジーズ アスクル株
1. Mobility Technologies Co., Ltd. Data Engineering Study #2 データ収集の基本と 「JapanTaxi」アプリにおける実践例 株式会社 Mobility Technologies 渡部 徹太郎 2020/8/19 2. Mobility Technologies Co., Ltd. 自己紹介 2 ID :fetaro 名前:渡部 徹太郎 学生:東京工業大学でデータベースと情報検索の研究 (@日本データベース学会) 職歴: * 野村総合研究所(NRI) - オンライントレードシステム基盤 - オープンソース技術部隊 * リクルートテクノロジーズ - ビッグデータ分析基盤 * MobilityTechnologies - データエンジニア エディタ:emacs派→ InteliJ派 日本AWSユーザ会(JAWS) ビッグデータ支部長
京都大学の西浦教授と北海道大学大学院の安齋麻美さんによる論文,「“Go To Travel” Campaign and Travel-Associated Coronavirus Disease 2019 Cases: A Descriptive Analysis, July–August 2020 」が公開され,大きなニュースになっています. メディアなどの報道では,「「GoToトラベル」の開始後に、旅行に関連する新型コロナウイルス感染者が最大6~7倍増加した」「旅行関連の新型コロナ発症率は約1.5倍に」といったセンセーショナルな取り上げ方になっていますが,この理解は正しくありません. 何が書いてあるのか,そしてどのような意味を持つのかについて少し整理してお話ししましょう. ※昨日の一連のツイートでは,どうもわからないところが多く,混乱している部分もあったためここにまとめておきます(実際
こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基
はじめに 「バスの乗り方が分からないなら検索しろ!」は的確か バスの乗り方が最もカオスなのは奈良県 前から乗るか、後から乗るのか、運賃を乗車時に支払うのか降車時に支払うのか 奈良はなぜカオスなのか 路線バスの多い都道府県 自治体の運営するバス コミュニティバスを運行する自治体の割合 コミュニティバスを含めたバスの乗り方まとめ 路線バスとコミュニティバスの集計方法 乗り方案内をHPに掲示する「路線バス会社」の割合と集計方法 コミュニティバスを運営する自治体の割合と集計方法 最後にやはり……「バスの乗り方が分からなかった検索しろ」 はじめに 「バスの乗り方が分からない」との声にお応えするため、全国の路線バスを運行する会社が HP 上で乗り方案内を掲示しているかを調べた。 ついでに、自治体が運営するコミュニティバスについても集計した。 集計結果をスプレッドシートにまとめた。具体的な集計方法は後述
選挙ドットコムでは、1月11日(土)・12日(日)に日本国内の18歳以上の方を対象としたハイブリッド調査(電話調査とインターネット調査を同じ設問で同時に行う方式)による全国意識調査を実施しました。電話調査(JX通信社と共同実施)では1,015件、インターネット調査(Gunosyリサーチを使用)では1,000件の有効回答を得ました。今回はその調査内で実施した「自身のイデオロギー」の質問ついて取り上げます! 世代によってねじれが起きている政党へのイメージ 最近、「若者が保守化している」とよくいわれますが、各世代の考える「保守」と若者自身が考えている「保守」の意味は、果たして一致しているのでしょうか?世代ごとのイデオロギー観の変化について、興味深い調査があります。 「自民党こそリベラルで革新的」–20代の「保守・リベラル」観はこんなに変わってきている 若者は本当に「保守化」しているのか。若者の自
try { const data = await fetchSomething(); // 正常系レスポンスの処理 } catch (err) { if (isAxiosError(err)) { // 異常系レスポンスの処理 } } 動機はつぎの 3 つです。 データ取得も宣言的に書きたいから データ取得に関係ない例外も catch してしまうから HttpError の集計に不便だから データ取得も宣言的に書きたいから 要約すると、データ取得時は常にこのように書きたい、という話です。useSWR・useQuery や apollo/client でお馴染みのインターフェイスです。 const { data, err, status } = await fetchSomething(); if (data) // 正常系レスポンスの処理 if (err) // 異常系レスポンスの処理
1. インストール 1pip install open-interpreter ターミナルで次のコマンドを実行して、Open Interpreter をインストールします。 2. 対話型チャットの開始 インストール後、次のコマンドを実行して、ターミナルで対話型チャットを開始できます。 1interpreter Python で対話型チャットを開始するには、次のコマンドを実行します。 1import interpreter 2interpreter.chat() 2. OpenAI APIキーの設定 OpenAIのAPIキーを利用する場合は設定が必要ですが、OpenAIのキーを使用しない場合は、Code-Llamaを利用することができます。 これで、Open Interpreterを利用する準備が整いました。 Open Interpreterの使い方 タスクの依頼・実行 Open Inter
KOBA789 です。 時が経つのは早いもので、気づけば2月末に無職になってから1ヶ月以上が過ぎていました。 その間に何をしていたのかといえば、表題の特集記事の執筆をしていました。 宣伝 このブログ記事は WEB+DB PRESS Vol.122 を読みたくなるためのものです。ぜひ買ってね。買ったらちゃんと読んでね。 作って学ぶ RDBMS のしくみ、書きました。みんな大好き Rust を使って解説してます https://t.co/nm526qQYnm— KOBA789 (@KOBA789) April 8, 2021 gihyo.jp 使用言語は Rust だし、RDBMS はそもそも難しいトピックだしで結構重めの内容ですが、まずは読み物として寝転びながらでもいいので読んでみてほしいです。 ゴールデンウィーク*1の自由研究のお供にもどうぞ。たぶんちょうどいい分量なんじゃないかなぁ。ゴー
0 1 2 3 4 5 6 7 8 9 a b c d e f 00: -- -- -- -- -- -- -- -- -- -- -- -- -- 10: -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- 20: -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- 30: -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- 40: -- -- -- -- -- 45 -- -- -- -- -- -- -- -- -- -- 50: -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- 60: -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- 70: -- -- --
概要 Haskellとは 関数型言語 純粋関数型言語 インストール Haskell Stack Hello world 基本 予約語 コメント ブロック レイアウト 入出力 型 変数 数値 文字(Char) 文字列(String) エスケープシーケンス リスト([...]) タプル((...)) 演算子 関数 演算子定義 再帰関数 ラムダ式 パターンマッチ ガード条件 関数合成(.) 引数補足(@) 制御構文 do文 let文 if文 case文 where文 import文 ループ データ型 データ型(列挙型) データ型(タプル型) データ型(直和型) 新型定義 (newtype) 型シノニム (type) 型クラス (class) メイビー(Maybe) ファンクタ(Functor) アプリケイティブ(Applicative) モナド(Monad) モジュール (module) 高階関
エンジニアには「技術的な議論についていけるようになりたい」とか「自分が伸ばしたい分野の最新情報をちゃんと追いかけたい」とか悩んでいる人が多いと思う。 例に漏れず私も悩んでいて、以前からいろいろ試していたが、同僚が紹介していた「newsletterを購読する」方法が一番ためになった。 まず不足しがちな情報として、コミュニティの最新動向をキャッチアップするためにはnewsletterを購読している。 newsletterとは有志がある技術に関する最新動向をまとめて定期的に配信するメディアで、僕が購読しているものだと https://this-week-in-rust.org/ https://www.cncf.io/kubeweekly/ などがある。 大体は「<技術名> newsletter」で検索するとそれっぽいものが引っかかるのでそれをsubscribeすればよい。 まともなnewsle
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/
Auto increment(自動採番)型を採用したくない場合 Auto Incrementは、データベースにおいて自動的に一意の識別子を生成するメカニズムです。通常、数値型の列が対象となり、新しいレコードが挿入されるたびにその列の値が自動的にインクリメントされます。典型的なIDですかね。 ここでは一意性の確保の話や、データ移行やバックアップのデメリットには言及せず、セキュリティとプライバシーの懸念にフォーカスして考えます。 予測可能性 Auto Increment型のIDは連番であるため、次に生成されるIDが容易に予測可能です。これにより、攻撃者がシステムの内部構造を推測し、不正アクセスを試みるリスクが高まります。 情報漏洩のリスク 連番のIDはデータベースの挿入順序を反映しているため、公開されることで企業の活動パターンやデータ生成の頻度が漏洩する可能性があります。 例) 競合他社は、公
「馬鹿げたプロジェクトだと思いましたね」 2018年、二人のドイツ軍将校がテュービンゲン大学を訪れてから数週間後のこと、ベルリンのドイツ国防省で、ヴェルトハイマーは最初の研究成果発表を行った。 彼は、第二次大戦期クロアチアのファシスト政党ウスタシャによるセルビア人大虐殺を扱った、作家ヨヴァン・ラデュロヴィックによる1983年の戯曲『鳩の穴』(未邦訳)、および1986年のセルビア作家協会による非セルビア人作家追放運動に注目した。 これらの出来事からまもなく、アルバニア人とセルビア人の間の民族を越えた友情や恋愛を扱った作品は姿を消し、修正主義的な歴史小説が流行するのだ。 「1998年にコソボ紛争が勃発し、大量の血が流されるずっと以前から、文学、また文学関係組織は10年にわたって、戦争への布石を敷いていたのです」とヴェルトハイマーは軍関係者らに語った。 発表会には、「プレビュー」計画の監督者、カ
データ基盤グループの吉本です。 今回は先日開催されたdatatech-jp Casual Talksで登壇した内容について補足も含め紹介します。 datatech-jp.connpass.com 発表資料はこちらです。 データ基盤に関わる問い合わせ対応を仕組みで解決する from 株式会社MonotaRO Tech Team www.slideshare.net 発表内容の背景(問い合わせ対応における課題) 発表したこと 発表の反響 最後に datatech-jpは主にデータエンジニアリングやデータ活用に関わる方が参加するコミュニティで、DWHやデータマネジメント、データエンジニアリングに関わる技術、ツールなどについて知見を共有したり、輪読会やLT会のようなイベントを実施しています。 オーガナイザーとして同社同僚の吉田(id:syou6162)が参加しています。 その中でCasual
研修中に「マイクロサービス」の解説をしていると,たまに「モノリス分割」に関する質問が出てディスカッションをすることがある.当然ながら万能な分割アプローチはないけど,例えば DDD (Domain-driven design) などのアプローチを選択するなど,選択肢はいろいろある.そして最近「モノリス分割」に役立つアプローチを紹介した martinfowler.com の記事「How to break a Monolith into Microservices」を読んだ. 具体的には以下の「計8種類」のアプローチが紹介されている.原著を翻訳するのではなく,あくまで個人的なメモとしてまとめる.なお,日本語も個人的に載せているため,参考程度にしてもらればと! Warm Up with a Simple and Fairly Decoupled Capability(シンプルかつ分離された機能で準
はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat
「スポーツは人格形成に役立つ」と言われるが、本当なのだろうか。名桜大学の大峰光博准教授は「部活に入る大学生の半数が相手への侮辱やブーイングを許容するという研究結果がある。スポーツは社会性を涵養するような上等なものではない」という――。 部活動は強制加入されるものではない 2022年11月、中学校の運動部活動に入部している生徒の割合が、37の道県で過去最低になったとするNHKの調査が発表されました。全国の平均は59.6%であり、最も低かったのは50.7%の奈良県、次いで51%の長野県でした。部活動への強制加入を見直した学校が増えていることが影響していると考えられますが、そもそも学習指導要領で「生徒の自主的、自発的な参加により行われる」と明記されている部活動は、強制加入されるものではありません。 現在、公立中学校において部活動の地域移行が進められており、部活動の意義が問われています。 日本の中
厚労省が2月26日、東京都内の重症者病床使用率を大幅に下方修正したことがわかった。 2月16日時点では「86.2%」としていたが、23日時点で「32.7%」と発表。従来は分母と分子が整合しておらず、事実上不正確なデータだったことを認める記述が追加された。 ただ、この大幅な修正について、厚労省や東京都は特段の発表をしておらず、メディアも指摘していない。それどころか修正に気づかず、誤報を繰り返しているメディアもある。 (冒頭写真:緊急事態宣言解除に慎重な姿勢を示す東京都の小池百合子知事。2月26日NHK放送「ニュース7」より) 重症者病床使用率 86%→33%に修正 病床確保数は500床→1000床に 重症者の定義が国(厚労省)と東京都で異なるため、重症者病床使用率に関するデータは、双方の発表でかなりのズレがある。ただ、厚労省の発表も、東京都から報告された数値に基づくものであり、どちらも都が出
デンソーウェーブは、長方形型の新しいQRコード(注1)「rMQRコード(アール・エム・キューアールコード:長方形マイクロQRコード)」を開発しました。rMQRコードは、QRコードの特性である優れた読み取り速度とデータ容量を持ちながら、細長く狭いスペースへの印字を実現するもので、製造業をはじめとした幅広い業界において、情報や資源の効率的な管理・運用に貢献します。また、rMQRコードは国際規格(ISO)を取得しており、世界中のすべてのユーザーに自由に安心して使っていただけます。 (規格番号:ISO/IEC 23941:2022) ■rMQRコードの開発背景 デンソーウェーブは1994年、QRコードを開発しました。QRコードは優れた読み取り速度とデータ容量を持ち、また、パブリックドメインであることから、世界標準となり幅広い分野で活用されています。次いで小型の「マイクロQRコード(注2)」を開発す
Adobeが、2017年に表明した2020年末をもってFlash Playerの更新と配布を終了する方針を、改めて公式サイトで明らかにしました。サポート終了日を過ぎると「Flash Playerでコンテンツの実行がブロックされる」ようになるとのことです。 Adobe Flash Player End of Life https://www.adobe.com/products/flashplayer/end-of-life.html Adobe Flash Playerサポート終了 https://www.adobe.com/jp/products/flashplayer/end-of-life.html かつてはネットで動画を見られるサイトではFlash Playerが広く用いられてきましたが、2015年にYouTubeがムービー再生の初期設定をHTML5に変更。 YouTubeがFla
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く