sh19910711のブックマーク / 2018年9月9日

前の仕事でやってたディープラーニングの話

お仕事紹介この夏にやってた仕事が、その後の皆様の努力もあって無事リリースされたようで、手元のアプリにも降ってきたし、ちょこちょこ表でも話が出ているのでその紹介を。 https://speakerdeck.com/diracdiego/20171029-kantocv-kikuta ここで紹介されているカテゴリ分類、というのが自分がやってた物です。写真を、料理の名前ごとにフォルダ分けしたかのようなビューを作る、という機能で、そのうちモデルの所だけを担当していました。 UIやサービスとしてはいろいろ難しさもあるにせよ、モデルとしては画像からどの料理か当てる、なんていう、いかにも普通の画像認識問題となっている。マルチラベルにするかシングルラベルにするか、とか、細かい所で選択肢はいろあろあるにせよ、データセットもラベル付けされてるのが既にあるし、そう難しい事は無いだろう、と思っていた（それは

sh19910711 2018/09/09

リンク

【Game Boy Advent Calendar】PythonプログラマーがGBでチップチューンを始めて変わったこと・驚いたこと - 歩いたら休め

これはGame Boy Advent Calendar 2017の15日目の記事です。遅くなってしまいすみません。「クラウド環境（AWS）やスクリプト言語（Python）を使うWEBプログラマーが、ゲームボーイというレトロな環境に触れて驚いたこと」をまとめた記事です。私は仕事で、PythonやRubyを主に使って、AWS/GCP上でのシステム開発やちょっとしたデータ分析を行っています。また、『抽象度の高いプログラミング』をするために、クラス設計や（使いこなしているとは言えませんが）Haskell等の関数型言語も勉強しています。本当は、ファミコン（正確にはNES）でのチップチューンで有名なchibi-tech先生に「矩形波で人間の声を再現して歌わせる方法」について質問することができ、GBでどの程度再現できるのか実験しようと考えていたのですが、正直時間が足りずにできませんでした。機会があ

sh19910711 2018/09/09

リンク

目黒のランチと分析と私 - Tech Inside Drecom

これはドリコム Advent Calendar 2017 の25日目です。 24日目は YuyaUsami さんによる、 Rails Developers Meetup 2017に弊社エンジニアが登壇しました！です。本記事の概要目黒駅近辺のランチ店を把握しよう A社とB社の評価の違い A社とB社の評価から総合評価点を出して今日のランチ店を選ぶ参考にする分析の動機と目的筆者の在籍している新目黒東急ビル周辺には飲食店が沢山あり、空腹に困ることはありません。しかし、それゆえにランチ店選びは困ってしまいます。また、オフィスが最近移転したため、ビル周辺（ほぼ目黒駅周辺）のお店をあまり知りません。通常ですとインターネットでの評価や口コミなどを参考にして探してみるのが定番かと思います。ですが、せっかくこのような記事を書く機会をいただいたので、データ分析部の人間らしく周辺のランチ店をいろ

sh19910711 2018/09/09

リンク

無条件に「正規化すべし」というのはどうだろうか

統計学では，正規化（Normalization）も標準化（Standardization）も同様の意味で用いられる事が多いが，機械学習やデータ分析の世界では，標準化は正規分布→標準正規分布を指し，正規化はデータを[0, 1]にリスケーリングする事を指す場合が多いので，ここでは後者の意味で用いる事にする．標準化については，これは言うまでもなく，非常にパラメトリックな話で，議論の余地は無いだろう．問題になるのは後者で，正規化はデータプリパレーション時に，非常に重要なプロセスだけど，何をしたいのか，目的によって，本当に正規化した方が良いのかどうかというのは，やはり考えないといけないのではないか．何でもかんでも，無条件に正規化するべし，みたいな論調があるけど，そうではない（例えば，手法によっては，手法自体に中心化のバイアスがあって，その場合はプリパレーション時に正規化（というかその場合は「標準化」

sh19910711 2018/09/09

*data
統計

リンク

Predicting world temperature with time series and DeepAR on Amazon SageMaker

sh19910711 2018/09/09

AR; Autoregressive Recurrent Networks / https://arxiv.org/pdf/1704.04110.pdf

リンク

Redshiftのルーツを紐解く | DevelopersIO

IT系勉強会ウォッチャーの川崎です。とある勉強会で、Redshiftのバージョン表記が「8」台である、という話題が出まして、そこからRedshiftのルーツとなる製品の話をさせていただきました。 select version(); PostgreSQL 8.0.2 on i686-pc-linux-gnu, compiled by GCC gcc (GCC) 3.4.2 20041017 (Red Hat 3.4.2-6.fc3), Redshift 1.0.1056 この記事では、ネット上のリソースから、Redshiftのベースとなる製品についてご紹介したいと思います。オンプレ版Redshift？みなさんは「オンプレ版のRedshift」とでもいうべき製品があるのをご存知ですか？ *1 私がそれについて知ることになったのは、CROSS2016のビデオを見ていた時でした。「Goog

sh19910711 2018/09/09

リンク

Redshiftを数百人で使うためのコツ（クラスター構成編） — HACK The Nikkei

日経ではアクセスログ、所謂クリックストリームデータを用途に合わせた複数のデータベースに格納し、サービス開発やマーケティングに携わる社員が自身でデータ分析ができるよう、セルフサービス化を進めています。セルフサービス化を進めている背景として、データの集計や分析のニーズは日々増え続ける一方で、アナリストやデータサイエンティストのリソースはオンデマンドに増やせないため、いかにしてデータのアウトプットをスケールさせるかという課題があります。この課題に対するソリューションとして、データ専門チームの設立やオフショアのような人のリソースを拡張する施策に加え、ツールの整備と教育によるセルフサービス化に力を入れています。データの集計や分析のセルフサービス化において、特に大きな課題がクエリーの負荷です。現在、およそ 200 人が BI ツールにログインして Redshift でクエリーを実行できる権限を保有

sh19910711 2018/09/09

WLM, クエリのタイムアウトも設定できるのか

リンク

データサイエンティストに必要な3つのスキル | quipped

久しぶりにタイトルで釣りにいっているが、ブラウザの「戻る」ボタンを押さないでくれw ... ... ... （よし、まだ「戻る」ボタンを押してない！）ぼく自身、データサイエンティストだったことはないが、一応大学では数学を勉強していたし、金融でクオンツトレーダーもやっていたし、人生3回分（と言ったら言い過ぎか）くらいのSQLクエリは書いている。なので、これから書くことは、本屋に立ち並ぶ歯の浮く様なビッグデータ談義よりは、普遍的な価値があると自負できる。もう一つ本題に移る前に、「データサイエンティスト」という呼称について感じる両価的な感情について軽く説明したい。ぼくは幸いにも優秀な同僚や友人に恵まれていて、彼らの中には、データ分析屋さんでありながら、データを集めてきて（広義の）データウェアハウスに突っ込むという非常に面倒くさい一連の作業もちゃっちゃか出来る奴が2、3人いる。そういうマルチ

sh19910711 2018/09/09

リンク

TOP | SIGNATE - Data Science Competition

SIGNATEのコンペティション一覧です。SIGNATEは、Data Science Competitionはもちろん、学習コンテンツや求人情報等、データサイエンティストの皆さんに役立つコンテンツを用意しています。

sh19910711 2018/09/09

リンク

レコメンドエンジン作成コンテストの勝ち方

PyData.Tokyo Meetup #18での講演資料です。 https://pydatatokyo.connpass.com/event/Read less

sh19910711 2018/09/09

"周期性のある数値は円周上に並べて(cos, sin)で表現"

リンク

特徴量抽出－カテゴリ変数と数値変数の取り扱い方 - 川雲さんの分析ブログ

1. 特徴量抽出とは特徴量抽出（Feature Engineering）は機械学習の実応用において重要な工程です。機械学習分野の大家であるAndrew Ng先生は次のように仰ったそうです（出典が見つからないので本当かは分かりません）。 "Coming up with feature is difficult, time-consuming, requires expert knowledge. 'Applied machine learning' is basically feature engineering." 実際に、Kaggleでも良い特徴量を見つけられるかどうかが順位を左右することがあるそうです。しかしながら、特徴量抽出はアカデミックな研究対象ではないので、網羅的な解説が中々見つかりません。そんな中で良い資料がありましたので、この内容を簡単にまとめます。ただし、前半のカ

sh19910711 2018/09/09

*data
統計

リンク

カーネル主成分分析とは - Qiita

はじめに普通の主成分分析だと，線形の相関のあるデータ（相関がなくても出来ますが相関があればなおいいぐらいの意味）の次元圧縮しかできません．データを高次元に射影して，通常の主成分分析を行う，カーネル主成分分析では非線形の相関データを扱うことが可能になるという訳です．普通の主成分分析は以下を参考にしてみてください． https://qiita.com/NoriakiOshita/it ems/460247bb57c22973a5f0 カーネル関数とは (半)正定値性を満たす関数($k:\mathcal{X} \times \mathcal{X} \to \mathbb{R}$)のことカーネル関数といいます．集合$\mathcal{X}$の二つの要素$x,x^{'}$に対し，カーネル関数$k(x,x^{'})$はx,x^{'}それぞれの特徴ベクトルの内積として定義される．正定値性 $\

sh19910711 2018/09/09

リンク

データ視覚化のデザイン #1｜Go Ando / PREDUCTS / THE GUILD

こんにちは、THE GUILDの @goando です。私はTHE GUILDの中でもデータを扱う仕事を中心に活動しており、「UXの改善をデータでサポートする」をミッションに取り組んでいます。ざっくり言うと、THE GUILDのクライアント企業が運営するサービスのログを分析してユーザーの行動傾向からUXの改善点を見つけ出したり、マーケットの市場リサーチを通じてサービスの戦略の策定を支援したり、と言った内容です。こうした活動を通じて、データ分析の結果をグラフ等のレポートに落とし込むという事を数多く行ってきました。試行錯誤を繰り返しつつ、データをどのようなデザインで視覚化するとメッセージが伝わりやすいのか、逆にどういう点に気をつけないと誤解を与えやすいのか、といったノウハウを少しずつ蓄積してきました。データ分析を台無しにするダメグラフかく言う私もかつて、そのグラフから何が言いたいのか

sh19910711 2018/09/09

リンク

Apache Arrowの最新情報（2018年9月版） - 2018-09-05 - ククログ

Apache ArrowのPMC（Project Management Commitee、プロジェクト管理チームみたいな感じ）のメンバーの須藤です。みなさんはApache Arrowを知っていますか？聞いたことがないとか名前は聞いたことがあるとかコンセプトは知っているあたりがほとんどで、触っている人はあまりいないのではないでしょうか。Apache Arrowは数年後にはデータ処理界隈で重要なコンポーネントになっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので2018年9月現在の最新情報を紹介します。私は、PMCの中では唯一の日本人で、コミット数は3番目に多いので、日本ではApache Arrowのことをだいぶ知っている方なはずです。日本語でのApache Arrowの情報があまりないので日本語で紹介します。ちなみに、英語ではいろいろ情報がありま

sh19910711 2018/09/09

リンク

Amazon SageMaker を使用して、人口区分のために米国の国勢調査データを分析する | Amazon Web Services

Amazon Web Services ブログ Amazon SageMaker を使用して、人口区分のために米国の国勢調査データを分析する米国では 2018 年の中間選挙に向けて、人々は投票プロセスについてより多くの情報を求めています。このブログ記事では、有権者を理解するタスクに科学を有効に統合するために、機械学習 (ML) を適用する方法を探っています。通常、機械学習アプリケーションでは、ラベルの付いたデータから明確なユースケースが得られます。例えば、古さや型番などデバイスの属性に基づいて、障害の可能性を予測できます。特定の結果を予測する際に監督またはガイドがあるため、これは教師あり学習と呼ばれます。しかし、現実世界では、きれいなラベルを定義するのが難しい場合、予測する特定の結果が存在しない大規模なデータセットがしばしば存在します。適切な結果が予測するものを、正確に特定することは

sh19910711 2018/09/09

リンク

文法ミニレクチャー　that 節に原形をとる動詞のおぼえかた - spotheoryの日記

文法ミニレクチャー　that節に原形をとる動詞のおぼえかた「that節に原形をとる動詞」って習いましたよね？たとえば， We suggested that he return home. （私たちは彼が家に帰ることを提案した） suggestedは過去形なのにthat節のreturn は原形です。文法の参考書には，このパターンをとる動詞が２０個ぐらいずらりとならんでいたりして，これをおぼえないといけないの？ってうんざりするでしょう？でも，そんなにたくさんの動詞のリストをおぼえなくても，この種の動詞に共通する意味がわかっていればだいじょうぶです。よく「要求・提案・依頼・命令…の動詞」とかずらずら書いてありますが，つまりはすべて「人になにかをやらせたい」という意味をふくむ動詞，っていうことじゃないですか？「人になにかやらせたい」ときにはどんな文を使いますか? そう，命令文を使いま

sh19910711 2018/09/09

"動詞の原形というのは，現在形や過去形とちがって，まだ現実ではないことを表す形"

*english

リンク

変化点分析：変化要因の可視化 - Qiita

ECサイトなどでデータ分析やっていると「売上が下がった原因を調べてくれ」とかよく言われる。調べてみると確かに売上が減っている。これを changepoint パッケージで変化点を検出してみる。売上の変化点が3つ検出された。これに対して、売上を男女別に分けてみる。上が男性、下が女性。 1番目と3番目の変化は男性によるもの、2番目の変化は女性によるものである。これを可視化したい。 changepointExt パッケージというものを作った。 # 男女別の売上を作成 ------------------------------------------------------------- set.seed(314) sales_male <- c(rnorm( 50, mean = 500, sd = 50), rnorm(100, mean = 400, sd = 50), rno

sh19910711 2018/09/09

リンク

Elasticsearch SQLで何ができるか整理してみた

sh19910711 2018/09/09

集計クエリがカジュアルに書ける

リンク

データアナリティクスによる『体感』で雨を予測する方法 - データで見る世界

我々の身の回りはデータで溢れています。人口統計、視聴率、売上、株価、内閣支持率、例を挙げれば枚挙に暇がありません。その中でも、最も身近なデータといえば、天気予報でしょう。外出する前に、傘を持っていくべきかどうかの判断に必要なデータが天気予報、さらに言えば降水確率です。ところで、そんなに身近な降水確率ですが、朝のニュースや天気予報アプリを見て確認する行為は果たしてクールでしょうか？結論から言うと、クールではありません。来る日も来る日も、傘を持っていくかどうかという重要な判断を、どんなアルゴリズムで算出されたかも分からない降水確率に頼りっきりではいけません。そんなことでは、もし無人島に漂着したときに困ってしまいます。では、雨が降るかどうかをクールに予想するには、どうすればいいでしょうか？その答えは、簡単です。自分の目で見て、体で感じて、予測するのです。よくマンガなどである、「大

sh19910711 2018/09/09

リンク

データ分析のワークフローをdrakeで管理して効率的に作業を進めよう - 株式会社ホクソエムのブログ

要約 drakeパッケージは、GNU makeのようにあらかじめ定義されたワークフローを自動的に実施する仕組みを、Rユーザに馴染みやすいデータフレーム形式で提供するワークフローの構築と管理、実行はRの関数として提供され、依存関係を可視化する関数も用意される drakeパッケージを使うことで、データ分析でありがちな「再実行」の負担（再計算、コードの保守）を軽減することが可能となる各オブジェクトは自動的にキャッシュされ、コードや依存関係に変更のない場合はキャッシュが利用されるワークフローの各処理の状況、依存関係を可視化する関数も用意され、ワークフロー管理が容易になる要約はじめにシーシュポスの岩既存の解決策 drake: Rユーザのためのワークフロー処理パッケージワークフロー管理の基礎ワークフローと依存関係の可視化ワークフローの変更参考URL はじめにデータ分析の作業は、

sh19910711 2018/09/09

"その特徴は、ワークフローをデータフレームとして管理する点にあります。"

リンク

はてなブックマーク

タグ

2018年9月9日のブックマーク (20件)

前の仕事でやってたディープラーニングの話

【Game Boy Advent Calendar】PythonプログラマーがGBでチップチューンを始めて変わったこと・驚いたこと - 歩いたら休め

目黒のランチと分析と私 - Tech Inside Drecom

無条件に「正規化すべし」というのはどうだろうか

Predicting world temperature with time series and DeepAR on Amazon SageMaker

Redshiftのルーツを紐解く | DevelopersIO

Redshiftを数百人で使うためのコツ（クラスター構成編） — HACK The Nikkei

データサイエンティストに必要な3つのスキル | quipped

TOP | SIGNATE - Data Science Competition

レコメンドエンジン作成コンテストの勝ち方

特徴量抽出－カテゴリ変数と数値変数の取り扱い方 - 川雲さんの分析ブログ

カーネル主成分分析とは - Qiita

データ視覚化のデザイン #1｜Go Ando / PREDUCTS / THE GUILD

Apache Arrowの最新情報（2018年9月版） - 2018-09-05 - ククログ

Amazon SageMaker を使用して、人口区分のために米国の国勢調査データを分析する | Amazon Web Services

文法ミニレクチャー　that 節に原形をとる動詞のおぼえかた - spotheoryの日記

変化点分析：変化要因の可視化 - Qiita

Elasticsearch SQLで何ができるか整理してみた

データアナリティクスによる『体感』で雨を予測する方法 - データで見る世界

データ分析のワークフローをdrakeで管理して効率的に作業を進めよう - 株式会社ホクソエムのブログ

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス