![国交省、全国都市計画のGISデータを統一フォーマットで公開](https://cdn-ak-scissors.b.st-hatena.com/image/square/59a55edca6f65bc9ec4b58053b314286f3d1c02d/height=288;version=1;width=512/https%3A%2F%2Fwww.watch.impress.co.jp%2Fimg%2Fipw%2Flist%2F1606%2F455%2Fgis.jpg)
「みんなSQLが書けるようになる」ことは本当にいいことなのかPdM・PM・営業・デザイナーなど、エンジニアやデータ分析者以外の人でもSQLを書くことを奨励している企業を時折見かける。極端な話ではみんながSQLを書けるなんて話もある。そういう話を見るたびに「本当にそれが一番いい方法なのだろうか」と気になっている。 全ての人が全ての仕事ができる、は理想だがそれが無理だから役割を分担しているはずだ。なのになぜかSQLについては誰でもできる、みたいな話になっているのは不思議でならない。 そんなわけで「みんなでSQLを書くことがいいことなのか」ということを改めて考えてみたら長くなった。そこでまずは「SQLが書けると分析ができるようになるのか」を考えてみよう。 SQLが書けたら分析ができるようになるのか「分析ができる」ということ自体が曖昧なので、「分析」という行為に含まれるだろういくつかの部分に分けて
はじめに この記事では、ChatGPT Code Interpreterを用いて地理空間情報の中でも3Dデータに対する処理がどこまで出来そうかを調査していきます。 記事を書こうと思った経緯や2Dのベクタデータに対する調査はこちらの記事に書いています。 調査 調査の概要 以下の3つの内容をChatGPTに依頼して調査していきます。 Project PLATEAUにて配布されているCityGML形式データの可視化 兵庫県が公開しているDSMデータの可視化 静岡県が公開している3次元点群データの可視化 1. CityGMLデータの解析 CityGML形式のデータをアップロードし、このデータの可視化を頼んでみます。 使用したデータ 国土交通省都市局「3D都市モデル(Project PLATEAU)東京都23区 CityGML」 指示した内容 1つ目の指示 この指示を実現には以下のようなことを行う必
HAD12.2から,テキストマイニングも一部できるようになりました。 HADについてはこちらをご覧ください。 テキストデータは,テキストを単語に分解して,単語間の関係性を見たり,共頻関係からデータを数量化したりすることで分析を行います。 単語の分解は,同じくExcelで動くフリーソフトである,ExcelTTMを用います。ExcelTTMは大阪大学の松村先生が開発したフリーソフトで,テキストを分かち書きして,簡単な集計を行ってくれます。 HADはExcelTTMが分解した単語データを読み込んで,クラスタ分析や対応分析などを行うことができます。 具体的な使い方は,以下のスライドシェアを御覧ください。
近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポジションもカルチャーも分化するようになって久しい印象があるのですが、世の中に溢れる求人情報や各種SNSで流れてくる巷の声を見聞きする限りでは、どう見ても前者の方が数が多い上に需要も旺盛なんですよね。 発展というよりMLを使ったプロダクトでお金稼いでいる会社があって、統計学やエコノメベースでプロダクトを作る事業会社がないだけだと思います。統計学とか示唆出しの手段なので、ブラスでお金稼ぐ感覚がないと居場所がないだけかなと。 https://t.co/PCDQHiIvlJ— be (@behemuhemulove) 2024年6月11日 で、畏友*1beさんがこ
はじめに はじめまして、エンジニア歴半年のGopherくんLoverなペーペーエンジニアです。 今回は、仕事の関係でスクレイピングをしたい場面があったので、その内容を備忘録として記録しようと思います。 やりたいこと ・仕事の都合で数値を扱うことが多いのですが、管理画面上だと何かと不便…… ・独自に数値を編集するために、スプレッドシートに落としたいが、エクスポートできない(なんでやねん) ・全部手動で取ったら時間的大赤字なので、自動でとりたい という経緯で作成してみることにしました。 Pythonはやったことがなかったので、一旦触ったことがあるGASを使用してやってみることにしました。 (本当はPythonでやってみたい……) 実装しながら並行で書いたので、処理は少し独自性が強いかもしれません。 参考程度でお読みいただければ幸いです。 ~流れ~ ⓪事前準備(ライブラリのインストール) ①ログ
この記事でやりたいこと 2行データと、変換後のデータサンプル 例えばこんなデータを見たことはないですか? このように、セルの結合までされてる2行のデータを、下図のような1行のデータにしようというのが今回の趣旨です。 そう、こんな形に変換出来ればここからの加工や分析がしやすいですよね。 パワークエリでの作業プロセス やりたいことは2つで、1行目と2行目のテーブルに分割し、それを横付けで合体する。 この2つをパワークエリで処理するためのキモはこうです。 1行目と2行目のデータに分割する データの取り込み まずはデータタブの「テーブルまたは範囲から」をクリックします。 そして取り込む範囲を指定し、OKを押し、 パワークエリの編集画面が開いて取込ができればOKです。 行数ごとのインデックス列の追加 次に、データごとに1行目には1を、2行目には2となる条件列を追加します。 列の追加タブの「例からの列
日本テレビ系列で去年10月から放送されたドラマ「セクシー田中さん」の原作者で、漫画家の芦原妃名子さんが今年1月、亡くなりました。 芦原さんの大切な作品をドラマ化するにあたりどんな問題点があったのか、日本テレビはドラマ制作過程などを調査し、31日、報告書を公表しました。 ◇ 芦原さんは、9話・10話の脚本を脚本家に代わり自ら担当した経緯をSNSで明かすなどした後、亡くなりました。 今年2月、日本テレビは外部の弁護士も加えた社内特別調査チームを設置。 この調査は、ドラマ制作関係者がより一層安心して制作に臨める体制をつくることを目的として、事実関係や問題点などを調べました。 調査では、ドラマ制作サイドの日本テレビと原作サイドの小学館との間で、大きな認識の齟齬(そご)やミスコミュニケーションが積み重なったことで信頼関係が損なわれていたことがわかりました。 その結果、原作者や脚本家が不満や不信感を蓄
組織全体を可視化してインサイトを獲得し、セキュリティの強化、信頼性の向上、イノベーションの加速を図りましょう。
この連載は、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学ぶ『社会人1年生から学ぶ、やさしいデータ分析』連載(記述統計と回帰分析編)の続編で、確率分布に焦点を当てています。 この確率分布編では、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明します。身近に使える表計算ソフト(Microsoft ExcelやGoogleスプレッドシート)を使いながら具体的に事例を見ていきます。 必要に応じて、Pythonのプログラムや統計ソフト「R」などでの作成例にも触れることにします。 数学などの前提知識は特に問いません。中学・高校の教科書レベルの数式が登場するかもしれませんが、必要に応じて説明を付け加えるのでご心配なく。肩の力を抜いてぜひとも気楽に読み進めてください。 筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大
データ活用が企業の未来を左右する──。デジタル化が加速し、膨大なデータが取得できるようになった昨今、多くの企業が、この「宝の山」をいかにビジネスに活用できるかを試し続けている。 しかし、部門を横断するからこそ発見できるような「本質的なビジネス課題」の解決に取り組んでいる企業は、まだ少ないのが実情だ。データやシステム、組織のサイロ化に足をすくわれ、思うようなデータ活用ができていないという話は枚挙にいとまがない。 このデータ活用の差は、いったいどこから生まれるのか──。 Darsanaでは、その差が生まれる原因の一つを「データを使って課題を解決する人と組織のあり方」によるものと仮定し、データ活用を成功させるためのプロセスとデータ人材の発掘・育成について考えるイベントを開催した。 本イベントには、データ人材の発掘と教育、組織設計、システム基盤の構築を積極的に行ってきた全日本空輸株式会社(以下、A
人文系大学生〜学部卒の方々を念頭に置いた講演でのスライドです。Enjoy! *書籍:林岳彦著『はじめての統計的因果推論』(岩波書店)の情報はこちら→ https://www.iwanami.co.jp/book/b639904.html
データ分析に興味はあるけれど、どこから手を付けていいか分からない……そんなあなたにぴったりなのが、この無料の電子書籍『Excelで学ぶ、やさしいデータ分析』です。ここから、データ分析の第一歩を気軽に踏み出してみましょう! この電子書籍は、「Microsoft Excel」「Googleスプレッドシート」など日常的に触れる表計算ソフトウェアを使って、自分の手で体験しながら段階的に学べるように設計されています。概念や手順は誰でも理解できるように丁寧に易しく説明されており、数学やプログラミングの前提知識も必要ありません。 本書は、データ分析を初歩から学びたい方々に向けた「包括的な教科書」として、データの取り扱い方から基本的な分析方法まで、幅広いテーマを網羅しています。具体的には、以下の全16回で構成されています。 データ分析の基礎: 第1回 データ分析を学ぶべき理由と連載概要 第2回 前提基礎:
連載目次 本シリーズと本連載について 本シリーズ「Pythonデータ処理入門」は、Pythonの基礎をマスターした人を対象に以下のような、Pythonを使ってデータを処理しようというときに便利に使えるツールやライブラリ、フレームワークの使い方の基礎を説明するものです。 Pythonだけを覚えれば何でもできるわけではない、というのはハードルが高く感じられるかもしれません。それでもプログラミング言語に関する基礎が身に付いたら、後は各種のツールを使いながら、言語とツールに対する理解を少しずつ、しっかりと深めていくことで自分がやれることも増えていきます。そのお手伝いをできたらいいな、というのが本シリーズの目的とするところです。 なお、本連載では以下のバージョンを使用しています。 Python 3.12 pandas 2.2.1 pandasとは pandasはデータ分析やデータ操作を高速かつ柔軟に
不登校をAI(人工知能)で予測する――。こんな取り組みが2024年3月末まで埼玉県の戸田市で行われていた。2023年11月に戸田市内のパイロット校で試行を始め、同年12月から同市内の公立小学校12校、同中学校6校の計約1万2000人の児童生徒のデータを分析対象に、「不登校予測モデル」構築の実証をした。事業はこども家庭庁の「こどもデータ連携実証事業」として戸田市が受託し、内田洋行、PKSHA Technologyグループとともに進めたものだ。 不登校リスクモデルの目的は学校現場での「プッシュ型支援」につなげること。いち早く不登校の兆候がある児童生徒を把握し、教員が事前に支援する。自らSOSを発信できない児童生徒に対しても、先手を打って手を差し伸べる。経験の浅い教員でも支援のきっかけを得られる。 一方で個人の、それもネガティブと捉えられる傾向を予測する取り組みは、データの取り扱いだけでなく判定
概要 スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。 スタースキーマ スタースキーマを元に整理します。 スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ 唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれる スノーフレークスキーマの一種 モデル ファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン
はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く