werdandiのブックマーク / 2019年10月14日

R と Stan で Factorization Machines - 廿TT

Factorization Machines の解説はこの記事がわかりやすかった：一歩Matrix Factorization、二歩Factorization Machines、三歩Field-aware Factorization Machines…『分解、三段突き！！』 - F@N Ad-Tech Blog Factorization Machines は傾向線に以下の式を仮定した回帰型のモデルである。ただしはドット積、を表す。例えばこんな感じの表が与えられたとき、 deviceCategory userGender userAgeBracket userType landingPagePath sessions desktop female 18-24 New Visitor /entry/2013/03/22/004017 11 desktop female 18-24

werdandi 2019/10/14

あとで読む

リンク

データサイエンスや機械学習のチートシートを最も効率的に収集する方法 - Qiita

機械学習・データサイエンスのチートシート集、便利なものがたくさん出回っていますが、ちまちまブラウザからダウンロードしていたりしませんか？そんな貴方にお勧めなのがこちらのレポジトリ。 FavioVazquez/ds-cheatsheets https://github.com/FavioVazquez/ds-cheatsheets はい、クリックあるいはコマンド一つで100を超えるチートシートが一括でダウンロードできちゃいますね。以上、釣りタイトル失礼しました。と、これだけではなんなので、個人的に有用性が高いと感じたものを、大きなサムネイル付きでまとめてみました。ソースとして、DataCamp及びRStudio公式ページの情報量は圧倒的なので、一読をお勧めします。科学計算・データ操作・可視化 Python (NumPy/SciPy/Pandas/matplotlib/bokeh) Pyt

werdandi 2019/10/14

リンク

SQLによるデータ分析のテクニック - Qiita

概要前処理大全を読み、以下の理由から感銘を受けたものを記載する。データ分析で、これに近いことを頼まれた(このような面倒くさい処理は、データ分析ではよくある) こんなふうにSQLを書けるんだ。めっちゃ楽やんと知った。詳しくは前処理大全を読むことをおすすめします。データなども「前処理大全」のgithubにあります。前提以下のSQLはPostgreSQLのものです。(最下部の日付の計算以外はほかでも動きそう) 内容最も多い価格帯(最頻値)の取得予約を格納したテーブルから、最も頻出する価格帯を取得する。正確な価格ではなく、ROUND関数を使って千円の桁で四捨五入をしたものを対象にする。 SQL SELECT ROUND(total_price, -3) as total_price_round FROM reserve_tb GROUP BY total_price_round

werdandi 2019/10/14

リンク

Rは本当に遅いのか？Juliaとの比較例 - Qiita

このコードについて、twitter上で「Juliaなら数十秒で終わるのにRだとめっちゃ時間かかったんだろうな…」的な発言が流れてきたのを見かけて、本当にそうなのか気になったので少し調べました。そもそもRのループは遅いのか？たしかに、Rのforループが非常に遅いとされていた時代はありました。繰返し処理はなるべくベクトル化して書くべきものであって、forを書くというのは可能であれば避けるべき作法でした。しかし、R 3.4.0からJITコンパイラが同梱されており、これがデフォルトでONになっている恩恵で、現代のRのforループの速度は相当に改善されています。場合によってはforを書いたほうが速度的に有利なことすらあります。やってみるまあともかくやってみましょう。実測とプロファイリングまず「そもそも元のコードがどれだけ時間がかかるのか」を確認しておくと、私の手元のちょっと古くなってき

werdandi 2019/10/14

あとで読む

リンク

Why are you using Python ? Rによる自動集計ガイド - Qiita

※タイトルで煽るのは良くないと思ったのでタイトルを変えました。まだExcelで消耗してるの？Pythonによる自動集計ガイド基礎編 - Qiitaを読んでいて（Rのが絶対便利…！）というお気持ちが強まってきたので勢い余って書きました。はじめに PythonはColaboratoryで手軽に試せて非常に良いです。実は、RもColaboratoryから使うことができます。ColaboratoryにはRのカーネルが既に入っているのですが、表から見えないようになっているだけなのです。そこで、見えるようにしたものを用意しました。 R Example - Colaboratory このノートブックを使えば、Rだってすぐ試せます（もうちょっと詳しい説明はColaboratoryでRやSwiftを使う - Qiitaをどうぞ）。試して下さい。今すぐ。使用するパッケージ主にdplyrを使います

werdandi 2019/10/14

あとで読む

リンク

tidyr v1.0.0？を使ってみた。 - Technically, technophobic.

tidyr v1.0.0がそろそろリリースされそうな雰囲気を感じるのでそろそろ重い腰を上げて使ってみます。ちなみにこのv1.0.0というバージョンは、stableになったという意味ではなくて、新機能てんこ盛りなのでメジャーバージョン上げとくか、というノリなんだと思います。既存の機能には基本的には変更はないはずです（ただし内部実装は変わってたりするので念のため動作確認しましょう）。 pivot_longer()/pivot_wider() gather()とspread()の上位互換です。縦長に変形したいときはpivot_longer()、横長に変形したいときはpivot_wider()を使います。かなーりいろんな機能が詰め込まれているので、詳しくはvignetteを見てください。ここで紹介する例もvignetteから取ってきたものです。 pivot_longer() 基本的な使い方

werdandi 2019/10/14

あとで読む

リンク

DataExplorerパッケージで探索的データ解析を手助けする - Qiita

概要 DataExplorerは探索的データ解析を手助けするR言語のパッケージ ggplot2パッケージをラップしており、関数ひとつでデータセットを可視化できる可視化結果をまとめたHTML形式の定型レポート生成も手軽前書き探索的データ解析(EDA: Exploratory Data Analysis)とは？ S-PLUS -トップ > 製品概要 > 探索的データ解析」より引用。探索的データ解析は、1960年ごろより有名な統計学者J.W.Tukeyによって提唱されたもので、データの解釈にあたっては「まずモデルありき」ではなく、モデルを仮定する前に現実的な立場で、データの示唆する情報を多面的に捉えるという、解析初期のフェーズを重視したアプローチです。それ以前は、あらかじめモデルを用意して、データをあてはめて確率計算を行っていました。しかし現実には、複雑な現実のデータ構造の中から、最適

werdandi 2019/10/14

あとで読む

リンク

『RとStanではじめるベイズ統計モデリングによるデータ分析入門』は「みどりぼん」に取って替わる次世代の統計モデリング＋ベイジアン入門書 - 渋谷駅前で働くデータサイエンティストのブログ

ここ2ヶ月ぐらいに渡って多くの方々からご著書をご恵贈たまわっているのですが、そのうちの一冊がこちら。かつて計量時系列分析を学んでいた頃に僕も大変お世話になった、Logics of Blueブログの馬場さんの手による『RとStanではじめるベイズ統計モデリングによるデータ分析入門』です。実践Data Scienceシリーズ RとStanではじめるベイズ統計モデリングによるデータ分析入門作者:馬場真哉出版社/メーカー: 講談社発売日: 2019/07/10メディア: 単行本以前はベイズ統計モデリングの入門書というと「みどりぼん」こと『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』一択でしたが、皆さんもご存知のように既にメンテされていないWinBUGSを使っているなどout-of-dateな要素が多く、近年はこれに替わる良書

werdandi 2019/10/14

あとで読む

リンク

xgboostで小さいカテゴリもちゃんと分類するテクニック「sample weights」 - Qiita

はじめに今お仕事でカテゴリ分類の予測モデルを構築しています。例えば、ビールのような多ブランド展開をしているような商品において「今Aブランドを好んで飲んでいる人が、半年後はどのブランドを飲んでいそうか？」ということを当てるようなことをやっています。で、この予測モデル、ただ単に精度が高ければ良いわけではなく「マイナーなブランドの分類精度もある程度担保してほしい」というビジネス上のオーダーがありました。不均衡データでそのまま分類モデルを作ると、どうしてもメジャーなブランドへの予測確率が高くなるように予測されやすくなるので、それは避けてほしい、ということでした。手法はあまり複雑なことや色々な手法を試している暇が無いので、コンペでお馴染みのxgboostでやるとして、その際に上記のオーダーを満たすために使っているテクニックとして「sample weights」を使用しています。実際のkagg

werdandi 2019/10/14

あとで読む

リンク

BeautifulSoup+Pythonで、マルウェア動的解析サイトからWebスクレイピング - Qiita

はじめに JoeSandboxというマルウェアを解析してレポートを出力してくれるサイトがあります。 https://www.joesandbox.com JoeSandboxには色々バージョンがありますが、Cloud Basicというバージョンであれば無料でマルウェア解析ができます。さらにCloud Basicで解析されたレポートは公開されますので、他の人の分析結果レポートを見ることもできます。今回はマルウェアの分析結果レポートをBeautifulSoup+PythonでWebスクレイピングし、プロセス情報を取得してみたいと思います。ちなみにCloud Basic以外のバージョンですとWeb APIが利用できますが、Cloud Basicでは利用できないようです。 JoeSandboxについて分析画面です。この画面でマルウェアを指定し、色々なオプションなどを設定したのちに分析を行い

werdandi 2019/10/14

あとで読む

リンク

Convert curl commands to code

curl from Google Chrome Open the Network tab in the DevTools Right click (or Ctrl-click) a request Click "Copy" → "Copy as cURL""Copy as cURL (bash)" Paste it in the curl command box above This also works in Safari and Firefox. Warning: the copied command may contain cookies or other sensitive data. Be careful if you're sharing the command with other people, sending someone your cookie for a websi

werdandi 2019/10/14

リンク

Python Is Not A Great Programming Language

python.md Python is not a great programming language. It's great for beginners. Then it turns into a mess. What's good What should be good What's "meh" What's bad What's bad about the culture What's good A huge ecosystem of good third-party libraries. Named arguments. Multiple inheritance. What should be good It's easy to learn and read. However, it's only easy to learn and read at the start. Once

werdandi 2019/10/14

リンク

Elasticsearchを用いて類似度ベクトル検索をやってみてわかったこと

2019年7月31日、検索技術研究会が主催するイベント「Search Engineering Tech Talk 2019 Summer」が開催されました。「検索」や「検索システム」にまつわる技術や手法を共有する本イベント。第3回となる今回は、3人のエンジニアが、現場の経験を通して学んだノウハウや、検索にまつわる知見を語ります。プレゼンテーション「Elasticsearch における類似度ベクトル検索のベストプラクティスを求めて」に登壇したのは、伊藤敬彦氏。講演資料はこちら Elasticserchにおける類似度ベクトル検索のベストプラクティスを求めて伊藤敬彦（@takahi_i）氏（以下、伊藤）：「Elasticserchにおける類似度ベクトル検索のベストプラクティスを求めて」ということで、いろいろ調査をしてみましてとりあえずまとめてみましたというお話です。シュッとやると最初は書

werdandi 2019/10/14

あとで読む

リンク

安倍首相「被災者に元気と勇気を与える」ラグビーベスト８で | NHKニュース

安倍総理大臣は、日本が、初めてのベスト８進出を決めたことを受け、みずからのツイッターなどに「東日本大震災でもスポーツの力を実感しましたが、世界の強豪を相手に最後まで自らの力を信じ、勝利を諦めないラグビー日本代表の皆さんの勇姿は、台風で大きな被害を受けた被災者の皆さんにとっても元気と勇気を与えてくれるものだと思います。日本代表初の決勝トーナメントでのご活躍を期待しています」という祝福のコメントを投稿しました。

werdandi 2019/10/14

あとで読む

リンク

台風１９号　買い込みの中、残った韓国製ラーメンが話題に（産経新聞） - Yahoo!ニュース

【ソウル＝桜井紀雄】韓国で、日本に甚大な被害をもたらした台風１９号に関するニュースは、日本に上陸する前から大きく報じられてきた。今年は例年になく複数の台風が韓国にも接近し、少なくない被害を与えてきたからだ。さらに今回は過去最悪ともいわれる日韓対立を反映した見方も目立った。「日本の安倍（晋三首相）は嫌いだが、善良な市民たちの災難には胸が痛い」。韓国で日本の台風被害を伝えるインターネット上のニュースには、台風被害を揶揄（やゆ）するコメントも一部寄せられたが、政治と天災は別で、「国民に大きな被害がないことを祈る」といった書き込みが相次いだ。台風に備えた買い込みで商品がほとんどなくなった日本のコンビニエンスストアやスーパーの写真がネットニュースなどで取り上げられ、話題を集めた。インスタントラーメンなど韓国製品だけがたくさん残った商品棚が写されたものだ。命にかかわる災害を前にしても日本人が韓国製

werdandi 2019/10/14

あとで読む

リンク

はてなブックマーク

タグ

2019年10月14日のブックマーク (15件)

R と Stan で Factorization Machines - 廿TT

データサイエンスや機械学習のチートシートを最も効率的に収集する方法 - Qiita

SQLによるデータ分析のテクニック - Qiita

Rは本当に遅いのか？Juliaとの比較例 - Qiita

Why are you using Python ? Rによる自動集計ガイド - Qiita

tidyr v1.0.0？を使ってみた。 - Technically, technophobic.

DataExplorerパッケージで探索的データ解析を手助けする - Qiita

『RとStanではじめるベイズ統計モデリングによるデータ分析入門』は「みどりぼん」に取って替わる次世代の統計モデリング＋ベイジアン入門書 - 渋谷駅前で働くデータサイエンティストのブログ

xgboostで小さいカテゴリもちゃんと分類するテクニック「sample weights」 - Qiita

BeautifulSoup+Pythonで、マルウェア動的解析サイトからWebスクレイピング - Qiita

Convert curl commands to code

Python Is Not A Great Programming Language

Elasticsearchを用いて類似度ベクトル検索をやってみてわかったこと

安倍首相「被災者に元気と勇気を与える」ラグビーベスト８で | NHKニュース

台風１９号　買い込みの中、残った韓国製ラーメンが話題に（産経新聞） - Yahoo!ニュース

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス