hidekojiのブックマーク - はてなブックマーク

メジャーリーグのアストロズがゼロからアナリティクス組織に変革してワールドシリーズで優勝した話 - Qiita

データ分析を始めれていない、もしくは少しはやっていても自分たちのビジネスの意思決定に活かせていない日本の企業は今も多くあるのではないでしょうか。現在のようにシリコンバレーの多くの企業がデータ分析を彼らのビジネスの成長にうまく結びつけることができている現状では、どうしてもそれを日本とアメリカの文化の違いということのせいにしてしまいがちです。つまり、アメリカ人は物事を数値化し、データを使ってビジネスを行う文化があって、日本人はもっと直感と経験を重んじる文化であると、日本を訪れたときに聞いたりもします。そこで、今回はアメリカの野球チームでもともとデータを使うという文化がなかったヒューストン・アストロズというチームを、データ分析をチームの運営、試合の進め方、選手の採用と育成などに取り入れることで、昨年のワールシリーズチャンピオンシップで優勝するほどのチームに変革することに成功したJeff Luh

hidekoji 2018/07/10

リンク

Spotifyの76,000曲の属性データを分析した結果、J-RockはRockというよりむしろPunkだった - Qiita

Spotifyの76,000曲の属性データを分析した結果、J-RockはRockというよりむしろPunkだったRデータ可視化主成分分析ExploratorySpotify 日本でも音楽ストリーミングサービスのSpotifyを使っている人が多いと思いますが、そのSpotifyは配信している音楽に関するデータをWeb APIを通して公開しています。このAPIを使って様々な情報が取れるのですが、今日は以下のAPIを使って、音楽のジャンルに関するデータ分析をExploratoryを使ってしてみたいと思います。(他のAPIはこちらを参照) ジャンルを取るAPI 曲検索のAPI 曲の属性を取るAPI これらのAPIを組み合わせて、Spotifyからジャンル毎に1000曲ずつ取ってきて、それぞれの曲の属性データをもとに、ジャンル同士の類似性を調べてみます。事前準備 Spotifyのアカウントの作成 S

hidekoji 2018/05/15

リンク

Netflixがカスタマーを誰よりも理解するためのデータ分析プロセス、コンシューマー・サイエンスの紹介 - Qiita

時間がたつに連れて、私のフォーカスは、「カスタマーが何を言っているのか？」から、「まずはテストしよう！」というコンシューマー・サイエンスの態度に変わりました。私のチームのカスタマーに関するインサイトは向上し、学びの速度も上がり、何がカスタマーを喜ばせるのかについてのある仮説を形成するに至りました。以下が、コンシューマー・サイエンスとカスタマーオブセッションのために私達が使ったリサーチの手法です。既存のデータを使って過去と現在のカスタマーの行動を理解する。私達の作っているものに対してカスタマーがどう反応するのかを聞くために、フォーカス・グループや一対一のインタビューやユーザーテストといったクオリティティブなリサーチをする。カスタマーがどういった人たちなのかを、デモグラフィック（人口統計学的属性、つまり性別、年齢、住んでいる地域、所得、職業、学歴、家族構成など）、競合する製品の使用度、

hidekoji 2018/05/01

consumer science

リンク

間違いの多い統計プロバガンダに騙されないための8つのアドバイス - Qiita

最近ではフェイクニュースという言葉のおかげで、ニュースなどメディアでみかける主張や数値に対して疑問を持つというスタンスが以前に比べて少しづつではありますが見られるようになってきたように思います。それでもまだ多くの人がふだん毎日忙しい中で、センセーショナルなニュースのヘッドラインをついつい鵜呑みにしてしまい、さらにそれらをソーシャル・ネットワークなどで共有することで知らず知らずのうちにおかしな主張をどんどん拡散してしまっているというのが現状です。社会的に与える影響を考えるとこれは大変憂慮すべきことです。今日は、Financial Timesのコラムニストで、経済学者のTim Harfordが、データや統計的な主張にまどわされるのでなく、それらを正しく理解するための提案を８つのアドバイスとしてこちらの”Tim Harford’s guide to statistics in a mislea

hidekoji 2018/04/26

リンク

AI - その革命はまだ起きていない、そして起きそうもない - Qiita

Artificial Intelligence — The Revolution Hasn’t Happened Yet - Link 先週、データサイエンス、AI業界にとって、ターニングポイント（潮の変わり目）となるほど重要なエッセイをUC Berkeleyの教授で、統計、機械学習、AIの研究者でもあるMichael Jordanという人が発表していました。もちろんあのバスケのMichael Jordanとは違います。(笑) 冗談はさておき、ここ最近のビッグデータの世界では標準になってしまったとも言えるSparkを開発したのはもともとAMP LabというUC Berkeleyの研究所のチームなのですがそこを率いていた人がこの人です。彼はシリコンバレーではもちろん、世界的にもビッグデータ、データサイエンスの世界ではかなり有名な人です。その彼が、最近のAIという言葉に対する一般の誤解と誇大

hidekoji 2018/04/25

リンク

安倍首相に関するtweetデータをクラスタリングして類似を分析してみた (Part 2) - Qiita

前回までのおさらい前回はTwitterから安倍首相に言及されたTweetをインポートし、RMeCabでトークナイズして、ストップワード等を取り除き、頻出する単語が何かを確認するところまで見てきました。Part 2では、Tweetのテキストから、Tweetをクラスタリングして類似性を分析してみます。 Tweetのクラスタリングまでの道のり安倍首相に関するTweetを、類似するクラスタにクラスタリングするには前回単語分けされた安倍首相関連のTweetsのテキストを使う Nグラムのアルゴリズムを使って1単語と2単語の組み合わせのテキストを作成 TF-IDFのアルゴリズムを使ってそれぞれのTweetを数値化する SVDのアルゴリズムを使って次元削減する K-Meansクラスタリングのアルゴリズムを使ってTweetsを似た者同士のグループに分けるという手順を踏んでいきます。では早速順場に見て

hidekoji 2018/04/25

k-means clustering

リンク

安倍首相に関するTweetデータをテキストマイニングして可視化してみた (Part 1) - Qiita

最近、日本の政界も色々騒ぎがありますが、それを受けてTwitterでは安倍首相に関してどんなことが話題になっているのか気になるところです。そこで今日は安倍首相に言及しているTweetデータを使ってテキスト分析してみようと思います。ここで一つチャレンジなのは、日本語のテキスト分析になると、英語などの言語と違い、単語と単語の間にスペースがないので、単語化(トークナイズ)するのが難しいという点です。Exploratoryでは5.5.3というバージョンから日本語の単語化(トークナイズ)をMeCabなど外部のソフトウェアをインストールしなくてもできるようになりました。安倍首相に言及しているTweetをTwitterからインポートする。それではまず、安倍首相に言及しているTweetをTwitterからインポートしましょう。 Tweetをインポートプロジェクトを開き、画面左側のデータフレームの隣

hidekoji 2018/04/18

RMeCab twitter

リンク

多くの大企業がデータサイエンティストを活かしきれていない４つの理由 - Qiita

おそらく日本も同じ状況だと思いますが、特にこちらUSではデータサイエンティストという職はたいへん人気があり、給料もよく、仕事の満足度も高く、ワークライフバランスもいいと言われています。(リンク) つい最近も、仕事先探しで有名なGlassdoorが発表していたアメリカのトップ50という職種リストでは3年連続で1位となっていました。(リンク) しかし、だからといってデータサイエンティストを雇ってデータサイエンスのプロジェクトを始めると何かすごい事が起きるというわけではありません。先週そうしたデータサイエンティストを企業が雇ってデータサイエンス関連のプロジェクトを始める時に犯す失敗について書いてある記事が2つほど出ていたので、ここで紹介したいと思います。これからもさらに多くのデータサイエンス関連のプロジェクトを始める機会があると思いますので、その際に参考にしていただければと思います。 Why A

hidekoji 2018/02/07

データサイエンススタートアップ

リンク

あまりにも多くのスタートアップがデータ分析するときに犯す４つの失敗パターン - Qiita

ホテルを直前に予約する時に人気のあるHotel Tonightというサービスを提供しているスタートアップがこちらシリコンバレーにあります。そこでデータ分析のチームを率いているAmanda Richardsonが、スタートアップがデータを使うときによく犯す間違いをこちらの"The Four Cringe-Worthy Mistakes Too Many Startups Make with Data"という記事の中で4つにまとめていますが、今日はそちらを紹介したいと思います。これらはもちろんスタートアップに限らず、どのようなサイズの会社でも、とくに新しいデータ分析のプロジェクトを始める時によく見られる失敗パターンだと思いますが、こちらの記事では間違いだけでなく、逆にこうすればいいという提案も最後にわかりやすくまとめられているので、是非参考にしてみて下さい。それでは、以下抜粋です。間違い１

hidekoji 2018/01/31

startups

リンク

Stitch Fix(パーソナル・スタイリング・スタートアップ)がどうやってAIを運用してるのか覗いてみた - Qiita

先々週になりますが、こちらでは特に仕事をしている女性の方に人気のあるStitch Fixという服のパーソナル・スタイリング・サービスを提供しているシリコンバレーのスタートアップがIPO（株式公開）をしました。スタートアップの世界ではIPOは大きな成功のマイルストーンという意味があるので、たいへん盛り上がっていました。この会社はこの業界で初となるChief Algorithms Officerという職を設けて、AIを使ってパーソナル・スタイリングを効率化させていくということを最初の段階からやってきたデータサイエンス先進企業です。普通の会社ですと、データサイエンティストはサイドから分析サービスを提供するという立場が多いのですが、ここでは会社の中の主要なポジションを占め、さらにこの会社のビジネスにとってもっとも戦略的で価値のあるモノを作っています。こうしたStichFixのようにデータサイエ

hidekoji 2017/12/12

AI スタートアップ

リンク

昭和以降の全横綱データをスクレイプしてサバイバル分析にかけたら、突っ張り横綱は短命なのがわかった。 - Qiita

Photo By Better Than Bacon CC BY 2.0 現在、日馬富士による暴行事件で相撲界は賑わっていますが、その中でもそうした騒動の問題を起こす中心に横綱がいるというのは誠に残念と言わざるを得ません。そんな中、先の場所で白鵬が優勝しました。彼は実はすでに40回も優勝していて、さらに横綱歴が10年らしいです。結構長い間横綱なんだなというかんじですが、そもそも今までの横綱というのは、普通どれくらいの間横綱でいつづけるのでしょうか？横綱の時期の一番長い、もしくは一番短い力士は誰なのでしょうか？さらに、横綱の時期の長い力士というのは、短い力士に比べて何か特徴があるのでしょうか？例えば、モンゴルなど外国人力士というのは日本人力士に比べて長いのでしょうか、それとも短いのでしょうか？今日はこういった質問に答えるべくデータサイエンスの手法を使って分析をしてみたいと思います。方針とし

hidekoji 2017/12/02

R サバイバル分析

リンク

AirbnbのデータサイエンティストはなぜRが好きなのか? - Qiita

今シリコンバレーで、もしくは世界中のスタートアップ業界で一番ホットな会社といえばAirbnbと言っても過言でないのでしょうか。日本では民泊のプラットフォームとして知られていますが、今や3兆円近い企業価値がついている超ユニコーン企業です。私も日本に行く時はホテルでなく、いつもAirbnbで普通のアパートを一週間ほど渋谷のあたりに借りますが、使いやすく、コストパフォーマンスもよく、出張をするときには欠かせないサービスです。 Airbnbnはシリコンバレーのスタートアップの中でも特にデータの使い方がうまい会社として有名で、いろいろとデータに関するツールをオープンソースとして公開もしています。そんなAirbnbのデータサイエンティストたちの間ではRというプログラミング言語が一番人気があるというのは以前から広く知られていることですが、今回、彼らがどう社内でRを使っているのか、どのようにプロダクトに関

hidekoji 2017/10/12

R, AirBnB

リンク

データサイエンスのすゝめ — シリコンバレーに全てを飲み込まれる前に - Qiita

こんにちは、プログラミングなしでよりたくさんの人がデータサイエンスを簡単に使えるようにするために、シリコンバレーでExploratoryというプロダクトを作ってる西田(Kan Nishida)です。今日は現在進行中のデータ・AIというステージに移ったソフトウェア革命の波を日本企業にとってのチャンスととらえて、どう攻めていくことができるかについて書いてみたので、ぜひ読んでみてください。最近久しぶりに仕事の関係で日本を訪れることがあったのですが、インターネット、モバイルの変革の時期を経た日本は、いよいよガラパゴスと言われていた鎖国の時代から開国へと舵をきったようです。iPhone、Android、Amazon、Facebook、Instagram、Netflix、AirBnBといった次から次へとシリコンバレーからやってくるプロダクト（製品）、サービスが普通にみんなの間に浸透しているのには驚き

hidekoji 2017/10/08

リンク

アメリカにおける日系人の強制収容

Do you want to subscribe to the notification em ail? Once subscribed, notification em ails will be sent to your registered em ail address when the insight is republished or refreshed by the scheduling.

hidekoji 2017/09/21

リンク

Exploratory、R、kerasでディープラーニングを体験する。 - Qiita

最近kerasは深層学習（ディープラーニング）を使う人達の間でますます人気が上がってきています。 kerasを簡単に紹介しておくと、深層学習（ディープラーニング）のモデルをTensorFlowまたはCNTK、Theano上でより簡単に素早く作って実行できるニューラルネットワークのライブラリです。 keras自体はpythonで実装されているのですが、RstudioがRから直接kerasを呼べるRパッケージkerasを出しています。今日は、Exploratoryの中でこのRパッケージを通してkerasを使って予測モデルを作ってみます。問題としては、kaggleの練習問題である、タイタニック号の乗客の生存予測をしてみましょう。こちらは、年齢、性別、乗船チケットの種類などの乗客の情報から、その乗客がタイタニック号の事故を生き残ることができたのかを予測する問題です。 keras Rパッケージ

hidekoji 2017/09/12

keras & exploratory

リンク

安倍政権による北朝鮮ミサイル打ち上げ関与の陰謀論をデータから検証してみた - Qiita

最近よく、北朝鮮でのミサイル発射が話題になっていますよね。その度に、ニュースや新聞で大々的に取り上げられます。そんな中、実は安倍政権が、支持率を上げるために北朝鮮のミサイル打ち上げに関与しているのではないかという陰謀論を最近ウェブで見かけることがありました。防衛費増額や、テロ対策の法案を推し進めたい安倍政権にとっては、恐怖心を掻き立ててくれる北朝鮮のミサイル発射により、その支持率を上げられることが狙いなのではないかと言うことらしいです。そこで、検証出来るようなデータがどこかに有るかなと思い、データを探してみたところ、丁度良いデータが見つかりました。北朝鮮のミサイル発射に関するデータ内閣支持率のデータこれらのデータを使って、実際にミサイル発射のタイミングと支持率はどういう関係になっているのか、さらにはこうした陰謀論をデータをもとに検証してみたいと思います。ツール今回もプログラミ

hidekoji 2017/05/31

リンク

コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog

目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学的ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザインその1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザインその2-』目的コンプガチャのコンプに必要な回数を求める問題は「The Coupon Collector's Probl em」と呼ばれる数学モデルの枠組みに沿った美しい問題である事を述べ，いくつかの有用な結果を示す。 ※ あくまで個人研究のつもりで書いたので，色々不備があるかもしれません。その際は一言頂けると助かります。定義コンプガチャ問題を Coupon Collector's Probl em に準じた形で書くと以下の様になる：「全部で n 種類のアイテムがあって，1つのガチャの中にアイテムが1つ入って

hidekoji 2012/05/10

リンク

OS X：32 ビットまたは 64 ビットカーネルで起動する - Apple サポート

Mac OS X v10.6 以降には 64 ビットカーネルが含まれています。64 ビットカーネルをサポートしているハードウェアでは、Mac を起動するのに 64 ビットカーネルを使うか、または以前の 32 ビットカーネルを使うかを選択できます。次のいずれかの方法を使用できます。方法 1：起動時のキーの組み合わせ (その起動のみ) Mac がデフォルトで 32 ビットカーネルを使っていても、64 ビットカーネルをサポートしている場合、起動中に 6 および 4 キーを押し続けることで、64 ビットカーネルで起動することができます。 Mac がデフォルトで 64 ビットカーネルを使っている場合、起動中に 3 および 2 キーを押し続けることで、32 ビットカーネルで起動することができます。再起動すると、Mac はデフォルトのカーネルに戻ります。方法 2：ディスク上での設定 (永続

hidekoji 2011/07/22

Mac OS X

リンク

大人になった今だからこそ楽しめる東大iTunes U/ Podcast5講義。100講義聴講したToshismが超厳選。

2012/9/20に iTunes U へのリンクを追記しました iTunes Uアプリはこちら→iTunes U: これ1本で様々な学問が学べる！Apple 純正の夢のような学習支援アプリ。無料。大学がPodcastを配信していてスゴイ！！よく聞きます。「今思うと、面白い授業あったよなー」「大人になった今、改めて聞きたいな」選定しました、厳選5講義。東大が配信しているiTunes U/ Podcastを100講義ほど視聴したToshismが、涙ながらに・・・泣く泣く・・・たった5つ！たった5つに厳選しました！聴講後、きっとあなたは「こんなわかりやすくて面白い講義を聴けるなんて生きてて良かった。お父さん、お母さん、生んでくれてありがとう」と思うはずです。（私は思いました）早速ご紹介していきます！講義1：理系の私が感激した歴史の講義私は根っからの理系です。歴史が苦手です。テ