サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
custle.hatenablog.com
最近データ活用について改めて色々考えているのですが、データ活用がうまく進められないのは、「そもそも適切なKPI設計ができていない」というのが大きな原因ではないかと思うようになりました。 なぜそう思うようになったのかというと、あちこちでデータ活用の気運が高まるようになり、データに関心のある人が増えていますが、なぜかその多くは、そもそもKPIと関係のないデータを見たがるのです。 というと少々語弊があるかもしれませんが、もう少し言い方を変えると「おそらくKGIと多少関係しているのかもしれないデータ」くらいの意識はあるのかもしれません。 ただ本当にKGIと関係するのか裏付けを取っているかというと、そういうことはなく、なんとなくそうかもしれないといったレベルの未検証の仮説データであることがほとんどではなかろうか、と思います。 KPIはKGIを因数分解したものであれば、当然KGIの一部でもあるので、「
NECの新人データサイエンティストの方々が、野菜の値動きに関して分析されていました。 jpn.nec.com オープンデータを使って、野菜の値動きと相関の高い指数は何か?を色々調べられています。 単に相関状況はこうでした、で終わるのではなく、なぜそのようなデータになったのかについても考察を入れられていたのは素晴らしいと思います。 ただ、「なぜこのようなデータを分析したのか?」「そこから何が言えるのか?」「この分析を行うと何が良いのか?何につながるのか?」といった点なども検討され、そのためのシナリオが練りこまれていると、もっと良い分析になるだろうな、とも感じました。 例えばですが、冒頭の分析にあるように、野菜の値動きは需要と供給の関係からも「流通量」の影響を大きく受けていることがわかります。 特にトマトやほうれんそうは流通量の逆数との相関が高いとのことでした。(一方キャベツやじゃがいもは値段
Twitterで少し話題になってたので、トピックとして取り上げてみました。 そもそもですが、分析基盤となるDWHがきちんと作られていないと、それを使ってデータの集計を行うデータアナリスト側の負荷は高くなります。 複雑なデータの集計処理を行いたい場合、DWHが正規化されたままだと、テーブルの結合処理がたくさん必要になったり、中間処理がたくさん必要になったりしてSQLがどんどん長くなってしまいます。 SQLの行数が長いということは処理内容もそれだけ多く複雑であるということでもあり、ミスしていたり非効率な処理をしている可能性が高まるとも言えます。 データアナリストとしては、欲しいデータが「ミスなく」「効率的に」入手できれば良いので、通常はSQLの行数はなるべく少ない方が好ましいです。 ただ、あくまで「ミスなく」「効率的」が大前提なので、一行でも少なく書こうなどこだわり過ぎるのも逆に可読性が悪くな
このページを最初にブックマークしてみませんか?
『データ分析について色々と考えてみたブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く