サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大谷翔平
www.mirandora.com
今年も例年同様、jupyter notebookを眺めていたら、いつの間にか夏が終わっていました。 フェスといえば、パリピがインスタ映えのために行く野外音楽イベントやナイトプールでのDJイベントではなく、 Kaggleのコンペを意味する皆様において、今年も実りの多い夏であったかと思います。 さて、パリピがトークネタを常に更新し磨きをかけるように データサイエンティストも、自らのノウハウを整理しておかなければ、 いざという時に活用できないことは言うまでもありません。 そこで、Kaggleや普段の業務を通して得られた ここ最近の機械学習のTipsを自らの備忘録として記載したいと思います。 ※すでにご存知の方は、安心してナイトプールでインスタしててください。 <<目次>> (1) 環境編:GoogleCloudPlatformとDataLab (2) 前処理編:クロスフィーチャーの自動生成 (3
世間は久々の天気の中、3連休ですが、みなさんイカがお過ごしでしょうか。 ある人はバイトに勤しみ、ある人はロブズ・10・プラーでフードを買い、 ある人はバッテラストリートに出かけて塗りたくっているでしょう。 そう、スプラトゥーン2の話です。 スプラトゥーンは、言わずとも知れたNintendo WiiUおよび、Switchにおける超人気ゲームでして、 インクを打ち合うアクションシューティングゲームで、 シリーズ累計で国内270万本、世界590万本の売上本数(2017年9月時点)となるようです。 私の職場のデータサイエンス系の部署でも、80%以上の人がやっておりまして、 もはやSQL、Python、Splatoonが必須のスキルの部署になってしまいました。 さて、スプラトゥーンは対戦ゲームのため、 公式・非公式含め、大会が頻繁に開催されております。 先日、私も初めて大会に参加してきました。 結果
本記事のコード/ご参照 ・本記事の全体のコードのnotebookを以下にアップしております。あわせてご参照くださいませ。 “Kaggle houseprices-tutorial-code” ・本記事含むKaggleやデータ分析初学者向けのチュートリアル解説本を執筆しました。あわせてご参照くださいませ。 ※本記事のコードや環境構築の詳細手順を記載した書籍となります。 『Pythonで動かして学ぶ!Kaggleデータ分析入門』 ※はじめに 本記事は2020年の上記書籍発売に合わせて内容を加筆・修正しました。そのため執筆当初と内容が異なる箇所がございます。 データサイエンティストの業務は華やかなPythonでの機械学習よりもBigQueryなどでの地道なデータ収集・データ集計に時間が割かれるのではと思います。もちろん、機械学習とデータ集計、どちらが華やかなのかには異論があり、芸術的なQuery
近年、多くの企業が連日、AIやビッグデータ関連のリリースを出しておりまして、 それに伴い、データサイエンティストの市場価値も高まっている状況です。 しかしながら今後、AIが発達して自動でデータの収集や分析、可視化を行う世界が来た時、 データサイエンティストの価値とは何になるのでしょうか。 データサイエンティストとは、データサイエンティスト協会によると 統計・機械学習スキル x プログラミング(エンジニアリング)スキル x ビジネススキルを併せ持ったものとのことです。 では、それぞれのスキルをデータサイエンティストから除くと、 一体何者になるのでしょうか。ただの人でしょうか。 今後AIが担ういろんなものを除いてもそれでも残る価値、 それが将来的に必要な本質的な”データサイエンティスト”の価値なのかもしれません。 そこで今回は、 「word2vecを用いて、”データサイエンティスト”の価値を検
蒸し暑い日が続く日本の6月には、 涼しい北海道の広大な自然に囲まれたいものですが、 都心のイベント会場で最先端のテクノロジーと人混みに揉まれざるを得ないことも、 データサイエンティスト諸君には、ままあるかと思います。 2017年6月28日〜6月30日に、東京ビッグサイトにて、 「AI・人工知能EXPO」が開催されておりました。 上記イベントは、 「ライセンシング・ジャパン」、「クリエイターEXPO」、「映像・CG制作展」、 「コンテンツ配信・管理ソリューション展」、「コンテンツマーケティングEXPO」、「先端コンテンツテクノロジー展」 「グラフィックデザインEXPO」との同時開催、 および、初日からのマスコミでの紹介、とあって、会場は非常に活況となっておりました。 もともと、本イベントに興味を持ったきっかけは、 SQUARE ENIXでAIリサーチャーをやっていらっしゃる、三宅陽一郎さんが
今年のJリーグも終了し、あとは天皇杯を残すのみとなりました。 平日は深夜までデータ解析を仕事とするマリノスファンの私にとって、 Jリーグのシーズンオフは、週末の数少ない外出機会の消失を意味し、 部屋の中という狭いフィールドは人間性の消失につながっていき、 苦し紛れに送るLINEは、スルーパス(既読スルー)に苦しめられる日々の始まり、を意味します。 一方、近年、サッカーデータのトラッキングが進み、 毎試合の各種データがファン向けに公開されております。 そこで、横浜F・マリノスに全く関係のない私が、 趣味で今年のマリノスをデータ解析で振り返ろうと思います。 ※足繁く日産スタジアムに通うマリノスファンではあります。 | (1) サッカーデータの取得 ・横浜F・マリノス公式サイト 横浜Fマリノスの公式サイトでは、2012年以降の試合結果、レポートを閲覧することができます。 各試合の基本的なスタッツ
本記事のコード/ご参照 ・本記事の全体のコードのnotebookを以下にアップしております。あわせてご参照くださいませ。 “Kaggle titanic_tutorial_code” ・本記事含むKaggleやデータ分析初学者向けのチュートリアル解説本を執筆しました。あわせてご参照くださいませ。 ※本記事のコードや環境構築の詳細手順を記載した書籍となります。 『Pythonで動かして学ぶ!Kaggleデータ分析入門』 ※はじめに 本記事は2020年の上記書籍発売に合わせて内容を加筆・修正しました。そのため執筆当初と内容が異なる箇所がございます。またKaggleあるいはデータ分析における最初のチュートリアルとしてtitanicは長らく親しまれておりましたが、下記3点の現状があることをご認識いただいた上で取り組まれるのが良いかと思います。 ・データ数が少なくOverfit(過学習)しやすい ・
12月の忘年会が終われば1月の新年会、 3月の解散会、4月のキックオフ会、など、 社会人は年末年始から春にかけては、特に飲む機会が多いように思います。 さらに土日にも、結婚式の2次会などがある方もいることでしょう。 さて、ここで重要なことは、“いかにして孤立しないか”、となります。 しかし、従来、多くの場合においてそれはコミュニケーション上の問題と誤解されておりました。 プログラマであれば、 それはコミュニケーション上の課題ではなく、プログラミングで解決するべき課題である、 と認識すべきかと思います。 飲み会における、前提条件は多くの場合、下記のとおり整理できます。 ・他の参加者のうち、自分と親しい人の位置が重要である。 ・親しい人が周りに多ければ孤立しないが拡がりは無い。 ・しかし親しくない人に囲まれると孤立する。 ・ある程度親しい人が周りにいるときのみ、親しくなかった人とも親しくなり交
今回はGoogle Chromeの閲覧履歴をSQliteを使って取得する方法を見ていきます。 | (1) Chromeの履歴データ Chromeブラウザは何十件かづつであれば、下記のように右上の三本線ボタンから「履歴」で表示することができます。 ただ、分析する際に、これまでのすべての履歴を逐一コピペするわけにもいきませんので、 一覧でcsvファイルで取得する方法を見ていきます。 アウトプットイメージは下記のように、タイムスタンプごとの閲覧URLが、一覧で並んでいるものとなります。 | (2) Chromeの履歴データの保存場所 まずは、Chromeの閲覧履歴のデータがどこにあるか確認します。 macの場合は、通常、下記のフォルダにあります”History”ファイルが該当のものとなります。 「Machintosh HD/ユーザ/(ユーザ名)/ライブラリ/Application Support
今回はGmailのやり取りのデータを取得する事を見ていきます。 といっても、いわゆるIMAP機能でバックアップするのではなく、 あくまでデータ分析が目的ですので、利用しやすい形で取得する事を目指します。 具体的にはGoogle Apps Scriptによって取得していきます。 Google Apps Scriptとは、Google製品であるスプレッドシートやドキュメント、Googleドライブ、 Goolgeカレンダー、およびGmailやGoogleマップなどをプログラム経由で制御するための言語となります。 Google Apps Scriptを用いる事で、Gmail上から任意の条件にマッチするメールのうち、 欲しい項目(送信日時や差出人など)を自由に選んでGoogleスプレッドシート上に一覧で記載する、 といったことが可能になります。 それでは具体的な手順をみていきます。 まずはGoogl
日本全国各所で猛暑日が続き、 facebookは野外フェスと海と海外旅行とビアガーデンの写真が溢れ始めております。 しかし猛暑だろうが極寒だろうが、 データ分析官は、週末のビールを信じて 黙々とパソコンに向き合う日々なはずです。 ところが、この週末ビールを阻む大いなる壁があります。 そう、もうお気づきかと思いますが、みなさんおなじみ”既読スルー”です。 飲みに誘ってもレスポンスが無いのですから飲みに行けません。(一人飲みをするには勇気が足りない) 「え?既読スルーて、友人の間でもカジュアルに起こる事なの?」と思った貴君、 私だってこの状態が当たり前だとは思っておりません。 メールコミュニケーションの時代は、返信が来なかろうが 「もう寝たんだろう」「海外旅行中なんだろう」「ケータイ紛失したんだろう」 「深爪してメールを打つのも困難なんだろう」などと、 あり得ないほどのオプティミストな思考が思
今回はamazonの購入履歴を取得する方法について見ていきます。 2014年11月現在、”amazon.com”については管理画面から、購入履歴のデータをダウンロードできるようですが、 “amazon.co.jp”はローデータでの購入履歴の取得はできません。(なぜなのでしょうか、。) 本稿では、Ruby[ref]実行時に、”Syntax error”となる場合は、プログラムの改行コードが”LF(LINUX)”となっているかチェックです。[/ref]を用いてWebスクレイピングする方法について見ていきます。 だいたい最近の言語ですと、Webスクレイピング用の外部ライブラリが用意されておりますが、 Rubyの場合は”Nokogiri”および”Mechanize”となります。[ref]ネーミングについては、Pythonの”BeautifulSoup”の方が、かっこいいですね、。[/ref] No
3月下旬となり、組織では人の入れ替わりがある時期になります。 毎年、この時期前後では、新人(あるいは異動してきた人など)に、 研修で話す機会が多くなる方もいらっしゃるかと思います。私もそうです。 データ解析やモデリング、可視化について、これまで専門ではなかった方に説明する際、 質疑応答で時々出るのが、 「なぜデータ解析が必要なのでしょうか? 私自身、実際にモノを購入するときに、本日出てきたような数式を意識したことはありません。 データで人の気持ちや行動がすべて決まるとは思えません。 そもそも私は、数字ではなく、面白いアイデアを実現することを仕事としていきたいのです!!」 といったニュアンスのことです。 なぜか、彼らはデフォルト怒っています。 ※そもそも、データで人の気持ちや行動がすべて決まるとは言っていない。 そういった疑問に対して、「い、息吐きすぎです!」と言って後ずさりするのも 全く解
今回は、iTunesの再生履歴の取得についてみていきます。 iTunesのバージョンにもよるかと思いますが、 筆者の環境(iTunes 11.1.5)ですと、 以下の手順によりダウンロードできます。 iTunesを立ち上げ、 「ファイル」→「ライブラリ」→「プレイリストを書き出し」を選択 この際、選択されているプレイリストが書き出し対象になります。 もし、全てのiTunes上の音楽を対象としたい場合は、 プレイリストで「ミュージック」を選択すると良いかと思います。 書き出し形式は「テキスト(tab区切り)」「XML」「M3U」などが選べます。 ※テキスト(tab区切り)の例 ※XMLの例 項目には以下のものが含まれます。 ■曲情報 「名前(曲名)」「アーティスト」「作曲者」「アルバム」「グループ」「ジャンル」 ■ファイル情報 「サイズ」「時間」「変更日」「追加日」「ビットレート」「サンプル
collect, analyze, and visualize data / produced by Hiroyuki Shinoda
このページを最初にブックマークしてみませんか?
『mirandora.com - データ取得、データ解析、データビジュアライズに関するメディア』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く