サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
www.graffe.jp
RFMは「分類」に過ぎない。ビジネスを理解して「分析」しよう。 本日は、顧客分析の基本ともいうべき「RFM分析」について解説します。 3つの要素で顧客を「分類」する RFMとは、Recency / Frequency / Monetary の3つの言葉の頭文字をとってつくられた言葉です。RFM分析とは、端的にいえば、この3つの要素で顧客の購買行動を分析する、ということです。 それでは、まずは、3つの言葉の意味をしっかりと理解するところから始めましょう。 R:Recency|最終購買日 その顧客が「もっとも最近、購買したのはいつか?」という指標です。レストランで考えてみましょう。昨日来てくれたお客さんと、1年前に来たのを最後に音沙汰の無いお客さん、は、やはり何か違いますよね?ということを考えるための指標です。 F:Frequency|購買頻度 その顧客が「どれくらいの頻度で購買してくれるか?
問題!1日分のデータを処理するためのプログラムが1日で終わらない 本日は「Hadoop(ハドゥープ)」という言葉を解説します。Hadoopをひとことで説明すると、 「巨大データの取り扱いを目的とした分散処理のフレームワーク」 です。意味がわかりませんよね?これから説明させてください。 Hadoopというキーワードを理解するためには、まずHadoopが求められるにいたった理由を理解する必要があります。ビッグデータ分析に代表されるような「巨大なデータを処理したい」という要求は近年高まるばかりです。コンピュータ自身の性能も向上していますが、処理したいデータ量の増大速度はコンピュータの性能向上速度をはるかに上回っています。ここでIT関連企業はいよいよ「1日分のデータを処理するためのプログラムが1日で終わらない」という問題から逃げられなくなってきたのです。 Hadoopはこの問題を解決するために生ま
BLOG graffe用語集 Hiveとは?:Hadoop上で稼動するデータベースマネージメントシステム(DBMS)|データ分析用語を解説 使い慣れたSQLによるデータ操作環境をHadoopプラットフォーム上で手に入れる 本日は「Hive(ハイブ)・HiveQL(ハイブキューエル)」という言葉を解説します。HiveはHadoopによる高速なビッグデータ処理をより簡単に利用する為の「Hadoop上で動作するソフトウェア」です。またHiveQLは「Hiveの中で管理されているデータを操作するのに用いられるSQLに似たデータ操作言語」です。 以前の記事で「Hadoop(ハドゥープ)」とは、 巨大データの取り扱いを目的とした分散処理のフレームワークである 分散処理によってビッグデータを高速に処理することができる Hadoopの利用者は自作したデータ処理のプログラムや他者が開発したツールプログラムを
Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16の関係を理解する データ分析を行っていると、必ず出てくる専門用語で「文字コード」がありますが、それぞれの文字コードの概念は、曖昧になってはいませんか? これから説明する内容は、文字コードとは何かを代表的な文字コードの関係性から説明します。(パソコンで取り扱う文字について、こちらの記事をご参照ください) UnicodeとUTF-16は別物 ~符号化文字集合と符号化形式について~ 若い情報処理系の技術者に対して、「代表的な文字コードって何?」と質問した時、返ってくる内容として「ASCIIコード、Shift-JIS、UTF-8、UTF-16、Unicode…」と答えるケースがあります。これは、厳密にいえば正しい答えではありません。 Unicodeは「符号化文字集合」と言われ、世界中の文字を集め、それぞれの文字に対して、
クロス集計した値を「相対比較」することで”全体との差”を理解する 記事「“リフト値”を活用する(1)」において、バスケット分析におけるリフト値という考え方は他の分析でも活用できると述べました。この記事では、「老齢人口の割合」という統計データを具体例として挙げましたが、この考え方はあらゆる分析において活用できるものです。 今回は、バスケット分析以外のPOSデータ分析における”リフト値”の考え方の活用法について見ていきたいと思います。 POSデータのクロス集計での活用 クロス集計は分析の基本ともいえるものですが、基本であるからこそ重要であるともいえます。これはPOSデータの分析においてもあてはまることであり、POSデータもまずはクロス集計でしっかりと現状を把握していくことが重要になります。ここでは、このクロス集計における”リフト値”の考え方の活用について見ていきます。 クロス集計でのリフト値に
置換前の文字列を置換後の文字列に引用したい 前回と今回で「正規表現」について解説しています。前回は正規表現の紹介と簡単な使い方を紹介させていただきました。今回は知っておくとすごく便利な「正規表現を用いた文字列の置換テクニック」を紹介させてください。 カッコ()を使って対象を変数に格納、$1,$2…を使って変数から値を取得 今回もテキストエディタとして「サクラエディタ」を利用します。CSVデータも前回と同じものを例として使用します。そして今日の置換実践例は以下の通りです。 「電話番号のデータに対して、先頭0を削除して、代わりに日本の国番号「+81-」を付加したい」 どうでしょうか?パっと見は「0」を「+81-」に置換すればよいように感じますがコトはそれほど単純ではありません。置換対象は「電話番号のデータ」だけなのです。 実はこの場合は0を置換するのではなくて、 「検索してマッチした文字列」を
SKUは「管理したい単位」なので、店・商売によって変わって良い POSデータ分析を行う際に「SKU」という言葉が出てくることがあります。 今回は、この「SKU」という言葉について解説します。 SKUとは「Stock-keeping Unit」の略 SKUについて、Wikipediaには下記のように説明されています。 SKUは最小管理単位 (Stock Keeping Unit) の略。 例えば、「ある店舗で扱っているシャツはデザイン・色はすべて共通だが、サイズがS、M、L、XLの4種類ある」、もしくは「サイズはMのみだが、色は赤、青、白、緑の4種類ある」場合にはどちらの場合も「1アイテム4SKUある」と数える。 出所:単品管理 – Wikipedia SKUは、Wikipediaの記載の通り”最小管理単位”のことですが、これはお店によって変わってくるケースがあります。 例えば、スーパーやコ
Power BI Desktopでデータ抽出とレポート作成をして、Power BI(ブラウザ版)でダッシュボード共有する データ分析結果をグラフなどのレポートに作成する手段としてBIツールを使用する機会が多いです。BIツールには、Tableauのような高機能の有償ツールもありますが、Microsoft社が出しているPower BIは、無償でありながら様々なグラフなどを作成することができます。 (2017/5/18 追記) こちらの記事は2017年4月末時点での情報です。それまで、Power BIブラウザ版は、ある程度の機能を無償で使用できる『無料ユーザー』という形でアカウントを作成することができました。しかし、料金体系がリニューアルし、2017/5/8の時点では『無料ユーザー』という形ではなく『Power BI Online Proという有償扱いのブラウザ版の試用ユーザー』という形でしかア
SparkはHadoopの後発として期待されるビッグデータ処理基盤 今日は「Apache Spark」という言葉について説明します。先日「Hadoop(ハドゥープ)」についての掲載をさせていただきましたが、その中でHadoopとは、 巨大データの取り扱いを目的とした分散処理のフレームワークである 分散処理によってビッグデータを高速に処理することができる Hadoopの利用者は自作したデータ処理のプログラムや他者が開発したツールプログラムをHadoop内に組み込んでビッグデータ処理を行う と説明させていただきました。またその他関連記事の中で、 Hadoop上で稼動するデータベースマネージメントシステム(DBMS)としてHive・Impalaがあり、 同じくHadoop上で稼動するスクリプト環境としてPigがある これらHadoop連携ソフトウェアの存在がビックデータ処理環境をより便利なものに
MapReduceは「処理方法の名前」・Hadoopは「ソフトウェアの名前」 本日は「MapReduce・Hadoop」という言葉の関係について解説します。ビッグデータ処理を行う上でHadoopを基盤としてご活用されている方々も多いと思いますが、この両者の関係といわれると意外に曖昧な状態で意識されている方も多いのではないでしょうか? 話はGoogleからはじまります。Googleは自身が扱う膨大なデータを高速に分散処理するシステムを持っていたわけですが、彼らはこの分散処理システムの処理方法を論文として発表します。それが2003年10月の「The Google File System」および2004年12月の「MapReduce: Simplified Data Processing on Large Clusters」でした。これらの論文に著されている処理方法(プログラミングモデル・仕組み
「平均」を「平均」するときは”自分が何をやってるか”を忘れないように! 記事「ダブりのある集合の計算には気を付ける|クロス集計の落とし穴」では、クロス集計で気を付けなければならない店として、ダブりのある集合の計算について書きました。 今回は、「全体の平均」と「平均の平均」は違う、について書いていきたいと思います。 「平均の平均」を計算しても「全体の平均」にはならない POSデータ分析の結果を例にして話を進めましょう。 この表は、店舗別性別の1回当たり平均決済額のテーブルです。この表から、男女別ではなく、「男女を合わせた全体」で店舗別の1回当たり平均決済額の列を作成したいとします。ここで、男性の平均決済額と女性の平均決済額の平均から全体の平均決済額を求めてしまいがちですが、これは誤りです。 「1回当たり平均決済額」をどのようにして算出しているかを考えれば、これが誤りであることがわかります。
非構造化データには規則性が”ある”データと”ない”データの2種類がある 近年、ビックデータ分析として、非構造化データの分析が注目されています。しかし、非構造化データの種類によっては、データ分析に向き、不向きがあります。今回は、構造化データと非構造化データの関係性に触れながら、非構造化データの規則性が”ある”データと”ない”データについて説明したいと思います。 構造化データと非構造化データの関係 下記の図が、構造化データと非構造化データと「規則性があるデータ」の関係図です。そして、「規則性があるデータ」については、境界線が非常に曖昧です。これから、各データについて説明します。 従来より、商業活動や自然現象などを数値化した意味のあるデータ(情報)として活用してきた。そのような数値データを、より効率的に、より生産的に活用するために、計算機(コンピュータ)が生まれ、活用が高度化していく中で、主にリ
Python言語は統計分析、機械学習の処理に向いているプログラミング言語 世の中には、C言語やJava言語、PHP言語など様々なプログラミング言語があります。その中でPython言語がデータ分析分野で注目されています。今回は、なぜPython言語がデータ分析に向いているかをR言語などの他言語と比較しながら説明したいと思います。 Python言語について、IT用語辞典では下記のように説明しています。 簡潔で読みやすい文法が特徴的な汎用の高水準プログラミング言語の一つ。いわゆるスクリプト言語あるいは軽量言語(LL:Lightweight Language)の草分けの一つで、UNIX系OSを中心に広く普及している。 引用:[IT用語辞典] Python Python言語の特徴を単語で表すなら「簡単」が適していると思います。Python言語は、ほかのJava言語などに比べて少ないプログラミング命令
世界トップレベルの可視化テクニックを体感しよう 本記事では、Tableau Publicというサービスを紹介します。 『Tableauという分析ツールが優れているという話はよく聞くのだが、何ができるかが分からない』や『2週間の試用期間内にライセンスを購入するかどうか判断できるクオリティのレポートを作成できそうにない』などと感じており、Tableauを通じてどのような可視化が実現できるのかが判断できない方は、是非、Tableau Publicにアクセスしてみてください。 また、『Tableauはある程度使えるようにはなったが、表現の幅を広げたい』と感じている方にも、オススメです。 なお、本記事を通じて、Tableau Desktopに興味を持たれた方がいましたら、姉妹サイトにて、インストール方法や基本的な操作方法について紹介しておりますので、参考にしてみてください。 Tableau Publ
使い慣れたSQLによるデータ操作環境をHadoopプラットフォーム上で手に入れる 本日は「Impala(インパラ)」という言葉を解説します。ImpalaはHadoopによる高速なビッグデータ処理をより簡単に利用する為の「Hadoop上で動作するソフトウェア」です。 以前の記事で「Hadoop(ハドゥープ)」とは、 巨大データの取り扱いを目的とした分散処理のフレームワークである 分散処理によってビッグデータを高速に処理することができる Hadoopの利用者は自作したデータ処理のプログラムや他者が開発したツールプログラムをHadoop内に組み込んでビッグデータ処理を行う と説明させていただきました。Hadoopの登場や広まりによってビッグデータ分析処理は劇的に効率化され、多くのデータ分析業務に携わるみなさんがその恩恵を受けています。 しかしここで、Hadoopを利用するユーザはさらに贅沢な要求
名は体を表す!テーブル名、項目名だけでデータ分析精度は変わる データベースの中に素晴らしいデータが入っていても、毎回、テーブル設計書を片手にデータ取得をしては価値は半減です。本編では、テーブル命名規約と項目命名規約を作成し、データベースの資源を効率良く使えるアドバイスをします。 テーブル命名規約と項目命名規約とは 命名規約は、テーブル、または、テーブル項目の名前を付ける為の規則です。データ分析作業に関わらず、複数人でデータベースのテーブル設計を行うプロジェクトでは、導入されることが多いです。命名規約は、プロジェクトごと、開発会社ごと異なり、決まった型があるわけではありません。そのため、命名規則を決める上でポイントを以下に記載します。 命名規則作成のポイント テーブルの属性で頭文字を決める テーブルには、マスタテーブル、トランザクションテーブル、ワークテーブルの3つの属性があります。(参照:
分析は手段であることを意識する これまで3回に渡ってコンセプトダイアグラムのご紹介を行いました。本稿ではまとめとして、コンセプトダイアグラムの価値についておさらい致します。 プランと施策の橋渡し役になる 大まかな計画やイメージがあった際に、それを実現するための施策を目的に沿った洗練されたものにすることは容易ではありません。 例えば、あるレストランが新規顧客の増加を狙って、都内某所で開催されるグルメイベントへの参加を予定しているとします。このイベントに際してお知らせページを作成するという施策を立案したとしても、日次や場所といった基本的な情報の掲載にとどまってしまうというように、実施する施策がおおざっぱなものになってしまうことも珍しくはありません。 イベントに参加するモチベーションが既に高い来訪者であれば、日時や場所が分かれば十分かもしれませんが、そうではない来訪者に興味をもってもらいたい場合
1. 圧倒的な分かりやすさ ノウハウに基づいた「知りたいこと」に手が届くデータビジュアライズで、全体像から詳細までしっかり理解できます。
マスタデータとトランザクションデータを理解して、正しくデータを管理する データを扱う上で必ずと言っていいほど、登場するマスタデータとトランザクションデータについて、解説します。 マスタデータとトランザクションデータ マスタデータとトランザクションデータについて、IT用語辞典を引用します。 【マスタデータ】 出所:IT用語辞典 企業内データベースなどで、業務を遂行する際の基礎情報となるデータのこと。また、それらを集約したファイルやデータベースのテーブルなど。単に「マスタ」と省略するのが一般的である。 【トランザクションデータ】 出所:IT用語辞典 企業の情報システムなどが扱うデータの種類の一つで、業務に伴って発生した出来事の詳細を記録したデータのこと。“transaction”とは「(商)取引」の意味で、顧客との間の商品の受発注や支払い、納品などを記録したものをトランザクションデータというこ
センサーデータを「使う」人材の重要性が増してくる ビッグデータ時代において、注目の集まるデータの一つ「センサーデータ」について解説します。 センサーとは まず、そもそもセンサーとはなんでしょう。wikipediaから引用します センサまたはセンサー(英: sensor)は、自然現象や人工物の機械的・電磁気的・熱的・音響的・化学的性質あるいはそれらで 示される空間情報・時間情報を、何らかの科学的原理を応用して、人間や機械が扱い易い別媒体の信号に置き換える装置のことをいい、センサを利用した計測・判別を行うことを「センシング」という。検知器(英: detector)とも呼ばれる。 出所:wikipedia 要するに、科学的に”何か起こった”ことを判別して、それを ”信号” としてくれる機械のことをセンサーと呼ぶわけですね。 具体的な例を挙げると、自動ドアが開くのは「人が来た」とセンサーが判別して
リフト値が高い=その物事が”起こりやすい” 以前、「バスケット分析とは|データ分析用語を解説」という記事を書きました。 この記事中にもある通り、バスケット分析は「頻繁に購入される商品の組合せ」を見つけるための分析手法です。この組合せを見つける際に重要となる指標が「リフト値」という指標です。今回は、この「リフト値」について解説していきたいと思います。 リフト値とは、バスケット分析における重要な指標の一つであり、ある商品xの購買が他の商品yの購買とどの程度相関しているかを示す指標です。英単語”lift”は「持ち上げる」という意味であり、リフト値は商品xの購買が商品yの購買をどの程度”持ち上げる”か(促進させるか)を示す指標であると言えます。リフト値が大きければ大きいほど、商品xの購買が商品yの購買を”持ち上げて”います。 この「リフト値(Lift)」という指標は、「支持度(support)」と
単なる「便利な情報発信ツール」と捉えていてはいけない 本日は、iBeaconについて考えていきたいと思います。 iBeacon=アップルの近距離位置特定サービス atmarkITより引用します。 「iBeacon」とは、iPhone/iPad/iPod touch(iOS端末)で「Beacon(ビーコン)」と呼ばれる電波を受信することで、数十cm~数十mという範囲(精度)でビーコンの発信器の位置を特定/確認できる機能/サービスのこと。2013年にAppleが発表した。「Bluetooth Low Energy(BLE)」という近距離通信技術を利用している。オンラインでiBeacon対応アプリを入手した顧客に対し、店舗に近づいたことを通知したり、実店舗内の案内情報を提供したり、入店したら割引クーポンを配ったり、というように、「O2O(Online To Offline)」や「オムニチャネル」
データ分析は「ビジネスに活かすため」の手段に過ぎない 本日は、新入社員の皆さんが知るべき「データ分析」および「データ活用」についてご紹介していきたいと思います。 ※ちなみに、本稿の対象とする「新入社員」は、各種分析系のソリューションプロバイダー/ベンダーに入社して「分析結果が売り物だ!」と日々ガシガシ分析作業に身をやつす方々でもなければ、データサイエンス系の大学院を出て戦略コンサルティングファームに入ってアナリティクス専門チームでモデリングするのだ!という方々でもありません。あくまでも「一般の事業会社」の新入社員です。もっと言えば、製造業や小売業などの”伝統的事業会社”だと考えていただくとよろしいかと思います。 新入社員が「データ分析」をする・・・その前に 事業会社に入り、新人研修をこなし、晴れて部門に配属された皆さんが、最初にすることは「仕事を覚える」ことです。データをこねくり回す事では
このページを最初にブックマークしてみませんか?
『データビジュアライズで経営を視える化する/graffe グラーフ -』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く