サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
デスク環境を整える
datumstudio.jp
こんにちは DATUM STUDIOの梶谷です。 Snowflake では、Functional role と Access role を組み合わせたロール構成 が推奨されています。推奨されてはいるものの、組織やデータの規模が大きくなっていくと、クエリでロールをメンテナンスしていくのは、ちょっと大変ではないでしょうか。 そんな時こそ IaC ツールの出番!ということで、今回の記事では Terraform で Functional role と Access role を実装する例をご紹介したいと思います。 現実世界で人に与えられる役割や組織でのポジションに基づくロール(Functional Role)と、スキーマやテーブル等のオブジェクトに対する読み書き・使用可否に基づくロール(Access Role)をそれぞれ作成し、役割ごとに必要な権限を紐づけていくモデルです。 Functional
モデルの構築ここでは、BigQuery ML の線形回帰モデルを利用します。 CREATE MODEL ... OPTIONS 文にて指定したアルゴリズムで BigQuery ML モデルを構築します。今回構築する線形回帰モデルで指定できるパラメータの詳細については以下公式ドキュメントをご参照ください: The CREATE MODEL statement for generalized linear models 以下が基本的な構文となります。SQL を利用して直感的にモデル構築を行えます。 CREATE OR REPLACE MODEL taxi.total_amount_model OPTIONS ( model_type='linear_reg', input_label_cols=['total_amount'], ) AS SELECT * FROM `taxi.sample_
縦持ちから横持ちへの変換まず、横持ちにせず、縦持ちのままuser_id、areaごとの合計値を出力するには、以下のようにクエリを書けばOKです。 最終的に欲しいデータは、全てこの結果に含まれています。このクエリを、本記事ではクエリ1と呼びます。 #クエリ1 select user_id, area, sum(amount) from sales group by user_id, area必要なデータが過不足なく得られたので、あとは上で得られたデータを横持ちに変換するだけです。 このデータを横持ちに変形するためには、以下のようにクエリ(以下クエリ2)を書き換えます。クエリ1で得られたデータは、クエリ2の中でxと名前をつけています。 #クエリ2 select user_id, max(case area when "Ginza" then amount else null end) as G
この記事についてembulkでRedshiftにデータを取り込む方法について解説します。 どうしてembulkを使うのかまず、Redshiftにデータを取り込む際には、大きく分けて、embulkで取り込む方法と、RedshiftのCOPYコマンドで取り込む方法の2つが考えられます。embulkを使うメリットデメリットは下記のとおりです。 メリットデータのチェック機能があり、汚いデータをインポートするのに強い。元のcsvファイルなどから、特定の条件に該当するレコードのみをインポートするなど、条件抽出もできる。デメリット処理がCOPYコマンドに比べて遅い(内部的にはデータのチェック=>COPYの実行を行っているので)。特に大きなデータを扱う際にその速度差が顕著に出る。このように、汚いデータ(数値として取り込みたい列に文字列が入っているなど)を取り込む際や、元ファイルから特定の条件に該当するレコ
2. グラフ作成# グラフを作成 G = nx.Graph() for i, row in df.iterrows(): nodes = set(row['name']) freq = row['count'] for n in nodes: if G.has_node(n): G.node[n]['freq'] += freq else: G.add_node(n, freq=freq) node_combi = combinations(nodes, 2) for u, v in node_combi: if G.has_edge(u, v): G.adj[u][v]['freq'] += freq else: G.add_edge(u, v, freq=freq)次はnetworkxパッケージのGraph()関数でグラフを作成し、df全ての行を繰り返し処理します。一つ一つの人名漢字は
はじめに 最近はAIや機械学習を活用したサービスも普及しており、 そのようなインテリジェントでスマートな機能を使ったアプリケーションを作りたいな〜 とお思いの方も多いのではないでしょうか? しかし、機械学習を利用した機能を実際に構築しようとすると、 利用したい手法の知識やその学習を行うための高いマシンリソース、 そして学習用の教師データの用意などが必要となり、 簡単に実現するのは難しいという状況も多くあります。 今回は、特別な知識やデータの用意をする必要がなく、 簡単にAI的機能を利用することができる、 AzureのCognitive Servicesという機能を紹介していきたいと思います。 Azure Cognitive Servicesの概要 提供されている機能 Microsoft Azure Cognitive Services 公式 MicrosoftがAzure上で提供している、
はじめにPythonでグラフを作成したい場合、グラフ描画ライブラリであるmatplotlibを利用するのが定石となっております。 しかしながら、matplotlibでグラフのタイトル、X軸、Y軸を日本語表記で設定した場合、文字化けが発生し結局英語表記で済ませていることが多いのではないでしょうか。 今回はmatplotlibでグラフを描画する際、グラフのタイトル、X軸、Y軸を日本語表記に指定したとしても文字化けが発生しない方法を2つ紹介します。 なお、今回紹介するのはmac、jupyter notebook環境下での設定方法です。ご留意ください。 実行環境 Python 3.6.5 matplotlib 3.3.4 jupyter notebook matplotlibのドキュメントサイト matplotlibで日本語の設定をしない状態でグラフを作成まずは、グラフの各ラベルを英語表記で指定し
はじめに みなさん、こんにちは! DATUMSTUDIOの宇佐見です。 普段の業務ではデータアナリストとして、他の企業さまから依頼を受けてデータ分析のお手伝いや データ分析基盤の構築をさせていただいております。 SQLを利用した様々な分析に携わることが多いため、今回はそのノウハウを紹介できればと思います。 SQLのケーススタディ紹介 本記事では3回にわけてウィンドウ関数を利用したSQLのケーススタディを紹介いたします。実際のアクセスログを利用して、実践ですぐに活用できることをコンセプトとしています。前提知識としてSQLを利用した基礎的な集計を行えるレベルを想定しています。 第1回目は、「セッションを利用したアクセスログの分析」ということで前回アクセスから5分以内の再訪問ならば同一のセッションでの接続とみなし、そのセッションごとの集計を可能とするクエリを作成します。このクエリを利用することで
はじめにこんにちは。DATUM STUDIOの安達です。 最近社内で日本語のテキストを用いた自然言語処理でよく質問を受けるのですが、前処理についてはそこそこ同じような内容になるため、本記事では社内共有の意味も込めて前処理に関して用いてきた&用いれそうな手法を列挙します。 比較的同じ内容を扱った既存の記事としては以下のようなものもあり、読者の方はこれらも参考にされて要件に合わせて取捨選択してください。 自然言語処理における前処理の種類とその威力 – Hironsan自然言語処理の前処理・素性いろいろ 本記事における使用言語、環境は以下の通りです。 ・osx 10.13.6・anaconda 5.2.0・python 3.5.2Table of contents ・形態素解析段階での前処理 ・文字表現の正規化 ・URLテキストの除外 ・Mecab + neologd 辞書による形態素解析 ・形
クロス集計実行手順まずは、クロス集計作成に必要なライブラリとデータ(log2017.csv)の読み込みます。 import pandas as pd df = pd.read_csv("log2017.csv")ここからクロス集計表の作成部分です。 作成するには pd.pivot_table( [データフレーム名], values="①_集計したい項目", index="②_行に設定したい集計キー", columns="③_列に設定したい集計キー", aggfunc="④_集計方法" )とコードを書きましょう。 コード内の①~④については下図Excelのピボットテーブルのフィールド機能の各設定項目箇所を示しております。 例えば、クロス集計表の「行」部分に「購入月」を設定したい場合は values=”購入月” と引数を設定する必要がある、ということです。 それでは、各クロス集計表の作成を進め
はじめに Google App Engine(GAE)とは GAEはGoogle Cloud Platform(GCP)で利用できるアプリケーション/サービスの一つです。 サービス分類はPaaSとなり、インフラの管理をプラットフォーム側が担ってくれますのでアプリケーション開発に集中することができます。本稿では、GAE上にPythonを利用して簡単なAPIサーバーを構築していきます。 補足情報 GAEにはスタンダード版とフレキシブル版が存在しますが、今回は「スタンダード版」を利用していきます。 無料枠で利用できる範囲での実装を想定しておりますが、何らかの事情により課金がされる場合があります。 必要な知識、準備 GCPのアカウントCloud SDKのインストールと準備Python2.7Flaskvirtualenv(必要に応じて) 作業の流れ CloudSDKの設定確認権限の確認GAEの立ち上
※日本の2ちゃんねるのような電子掲示板です。 3. 形態素解析次は今回の本題、中国語テキストの区切りに入ります。それにまずすべきとこは: # デフォルト辞書を繁体字対応辞書に入れ替える jieba.set_dictionary('/path/to/jieba/data/dict.txt.big') # 中国語と英語それぞれのstop wordsを読み込む ch_stopwords = pd.read_csv('/path/to/jieba/data/stop_words.txt', header=None)[0].tolist() en_stopwords = stopwords.words('english') # ユーザー定義単語を読み込んで、辞書に追加 userdict = pd.read_csv('userdict.txt', header=None)[0].tolist() fo
matplotlibについてmatplotlibは、Pythonでグラフ描画をする際に使われるライブラリ です。今回の記事では、matplotlibを使い、オブジェクト指向でのグラフプロットで2軸グラフの作成例を紹介したいと思います。 matplotlibにはpyplotを使った対話形式でグラフ作成も可能です。1つのグラフだけを描画したり、そのグラフの目盛りや軸の範囲などを1つ1つ設定していくだけならよいのですが、複数のグラフを並べて表示したり、各グラフに別々な設定をしたい時などはオブジェクト指向のやり方を活用する方が何かと便利です。以下実例に沿ってやり方の紹介をします。 今回の使用環境ですが、PCはmacを使用、Pythonと各モジュールのバージョンは以下の通りです。 Python 3.9.6 matplotlib 3.4.3 numpy 1.21.2 pandas 1.3.2 使用する
本技術ブログの目的 こんにちは。DATUM STUDIOの岩城です。本技術ブログでは、テキスト中の単語頻度を可視化するためにWordCloundを用いた単語頻度図の作成を行います。WordCloudはテキストデータを頻度の高い単語ほど大きな文字で表示した単語頻度図を生成するライブラリです。自然言語処理において対象とするテキスト中の単語頻度を調べることは極めて重要で、WordCloudによる単語頻度図はそれらの直感的な理解に役立ちます。 今回は馴染み深い(?)「日本国憲法」を題材にPythonからWordCloudの単語頻度図の描画を目指します。 描画までの流れ 描画までの流れは下記の通りです。 (1) テキストデータの準備 (2) MeCabによるテキストのわかちがき (3) WordCloudによる描画 上記に示す様に、テキストデータをWordCloudに投入するだけでは単語頻度図が得ら
AWS認定ソリューションアーキテクトアソシエイト取得までの道のりについて こんにちは。DATUM STUDIOの岩崎です。 本記事では、表題にあるように私がAWS認定ソリューションアーキテクトアソシエイト(以下、SAA)を取得した過程について説明いたします。「業務ではあまりAWS触ったことないけどSAAを取りたい!」と思っている方のお役に立てれば幸いです。 本来、SAAに限らずIT系資格は自分のスキル、能力を可視化する手段のひとつにすぎません。したがって、経験のないサービスの資格取得を目指して勉強することは、手段が目的化しており望ましくないと言えます。しかしSAAに関しては、資格取得に向けた勉強をすることでAWSサービス全般について深く知ることができるため、「今後AWSを使った業務をやりたい!」と志す方などにとって資格取得が極めて有用だと感じました。 ちなみに私がSAAを取得した目的は、A
こんにちは、データ事業部でインターンをしている菅野です。 先日、1000万件のデータをPostgreSQL DBにインサートしようとして150分かかりました。データ分析でよく使うPostgreSQLもデータ挿入にけっこう時間がかかるなあ。大変だなあと思っていました。 ところが、方法を変えたら7分しかかからず、20倍くらい差が出るのを知らないと時間を無駄にしちゃう。。。ということで記事を書いてシェアしたいと思います。 結論から言うと、一行ずつインサートするとめっちゃ遅くCOPYコマンドを使うとめっちゃ早くなりました。 計測方法計測用データ件数は10万件、100万件、1000万件の3種です。計測用のファイルから、一度に挿入する行数(100件、1000件、1万件、10万件の4種ごとに実行)を一時ファイルに保存、読み出し、インサートします(文末備考参照)。 上記処理をループさせ、Pythonのps
はじめに 公的機関が出しているパブリックデータは、Excelファイル(xls, xlsx)が含まれていることが多く、このようなデータを使って分析をする機会もあることと思います。 この記事では、そのようなExcelブック形式でまとめられているデータをPythonで読み込み、余計な行や列を取り除いたり成形して、pandasのデータフレームとして扱いやすくする方法についてまとめたいと思います。 以下のpandasのドキュメントを参考にしています。 pandas.ExcelFile.parse https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.parse.html pandasを使ったExcel ファイルの参照方法 今回は、Excel形式のファイル(xls, xlsx)をPythonで読み込むやり方として、ライブラリとしてp
DATUM STUDIO株式会社は、沖縄に子会社を設立しましたことをお知らせします。 1. 子会社設立の目的 データ分析事業の人材の継続的確保を行い、データ分析に置ける高度な研究開発拠点とすることを目的として 沖縄に子会社を設立しました。 2. 子会社の概要 (1) 名称 ちゅらデータ株式会社(英文社名: Chura DATA Inc.) (2) 住所 沖縄県那覇市久茂地1-1-1 9F (3) 代表者 代表取締役 真嘉比 愛 (4) 出資比率 当社100% (5) 事業内容 データ活用に関するコンサルティング、受託分析、システム開発など (6) 設立 2017年8月
みなさまこんにちは。 前回の連載 【特別連載】 さぁ、自然言語処理を始めよう!(第2回: 単純集計によるテキストマイニング) では TF-IDF を用いて Twitter Streaming API 経由で取得した日本語 Tweet データから、ある日の特徴語を抽出する方法を紹介しました。 今回は機械学習を用いたテキストマイニングを行いたいと思います。機械学習とは「経験により自動的に改善していく」コンピュータープログラムの構築方法に関わる分野です。 具体的には Python の機械学習用ライブラリである scikit-learn を用いて、集めた Tweet データを「ポジティブ」、「ネガティブ」なものに自動で分類する方法を紹介します。 処理の流れ今回行う処理は次のような流れになります。学習用データの作成データの前処理手法の選択モデルの学習未知要素の分類実行環境は前回、前々回で使用した A
突然ですが,みなさま普段データ分析を行う際にどのような分析環境(ツール)を利用していますか?Excel?RStudio (R)?Spyder (Python)?「特にそういった分析環境を利用していません」という方もいらっしゃるかもしれません. この記事では,数ある分析環境の中でも人気急上昇中(※当社比)のJupyter Notebookに注目し,Jupyter Notebookを利用したお手軽な分析環境構築について紹介します. Jupyter Notebookとは? Jupyter Notebookとは,ブラウザ上でインタラクティブにデータ分析が行える環境です. ※最近では分析用途だけに留まらず便利なメモ帳としてJupyter Notebookを利用する例も増えているようです.参考:現代のエンジニアのための強力なメモ帳 Jupyter notebookのすゝめ オープンソースで開発が進めら
皆様、ラーメン好きですか? 美味しいラーメンを求めて、日々調査に勤しむ方も多いかと思われます。 筆者もそんなラーメン好きの一人。 12月某日、愛するラーメン二郎の行列に並びながら、ふと考えました。 「ヤサイ、アブラ・・・いろいろなトッピングがあるが、どれが一番うまい組み合わせなんだろうか?」と。 (これがわかると、旨味の一歩先にいけるかもしれない・・・) 全部食べればいいじゃん!という野暮なツッコミは無しにして、みんながうまいと思うトッピングを、データから探してみることにしました。分析対象は、(筆者が)よく行く目黒店です。 分析概要 某口コミサイトから、ラーメン二郎の口コミデータを(諸事情につき)手動で集める 集めた二郎の口コミデータを、統計ソフトRを用いて決定木分析 最も「みんながうまい」と思っている二郎の注文方法を得る 某口コミサイトから、ラーメン二郎の口コミデータを(諸事情につき)手
みなさまこんにちは。 前回の連載 【特別連載】 さぁ、自然言語処理を始めよう!(第1回: Fluentd による Tweet データ収集) では Twitter Streaming API 経由で、日本人がつぶやいた Tweet の 1% ランダムサンプリングデータを fluentd を用いて取得し、その結果を DB (MySQL) に格納しました。 今回はこの集めた Tweet データを、形態素解析ライブラリの MeCab 、Python というプログラミング言語、数値計算用ライブラリである numpy、scipy、scikit-learnを用いて「ある時間における特徴的な言葉」を機械的に抽出してみたいと思います。 実行環境は前回構築した Amazon Web Service (AWS) の fluentd 用サーバを引き続き利用します。 ・前回利用した Fluentd 用サーバ (AW
データ分析を強みとする上場企業7社(※1)の7-9月期決算が11月、出揃った。 企業の本業の成果を判断する指標である営業利益率は、UBICとフリークアウトを除く5社でマイナスとなった。 各社自らの立ち位置を確立するべく買収や業務提供を実施してきたが、少しずつ基盤が整い、サービスとして展開し始めた印象。それぞれの強みがはっきりとしてきた。 □UBIC 今期、過去最高の売上高を記録したUBIC。ホスティング事業の売上の上昇と、eディスカバリコンサルティング(リーガル分野)の受注増が目立つ。 特に人工知能を応用させるeディスカバリコンサルティングでは、7-9月期(Q2)にして昨年度の合計受注を上回る結果となった。背景には8月に実施したエヴォルヴ・ディスカバリー社の子会社化が挙げられ、アメリカ西海岸のクライアントからの売上を大幅に増大させた。 同社は、マーケティングやITサービスに活用させるための
はじめにみなさまこんにちは。 データ分析に力を入れている会社でも、大量に蓄積されているテキストデータから有用な情報を抽出する「テキストマイニング」はなかなかハードルの高い分野ではないでしょうか? この連載では実際に Twitter でつぶやかれている話題の分析を行うことで、テキストマイニング行う際に必要になる技術・手法を解説したいと思います。 具体的には以下の内容を予定しています。1回目: fluentd による Tweet データ収集2回目: 単純集計によるテキストマイニング3回目: 機械学習によるTweet分類今回は以前の連載記事 【特別連載】さぁ、社内でデータ分析を始めよう!(第2回:新しくログを作成してみる) で解説した fluentd を利用して、対象となるテキストデータを Twitter から収集してみたいと思います。 具体的には Twitter Streaming API を
Unleash Your Possibilities DATUM STUDIOは、 データと先端テクノロジーで経営課題を解決する データ分析コンサルティング・ソフトウェア開発企業です クライアントのパートナーとしてビジネスに 持続的成長と新しい可能性を提供します お問い合わせ Specialist DATUM STUDIOは、創業以来1,000件以上の実績と知見を活かし、あらゆるビジネスの課題に対応する高度なスキルを持ったデータサイエンティストが多数在籍するスペシャリスト集団です。 さらにDX推進にあたり、データ活用における課題設定と解決プロセスの設計、最適なソリューションの選定、運用における体制とフローの構築までコンサルタントが一気通貫で対応し、お客さまのパートナーとして継続的なビジネスの成長を支援いたします。 Knowledge データ活用において「経営・事業」「データアナリティクス」
このページを最初にブックマークしてみませんか?
『DATUM STUDIO株式会社 | データムスタジオ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く