chezouのブックマーク / 2015年12月31日

Predicting Clicks: Estimating the Click-Through Rate for New Ads

The WWW2007 Conference site has been archived at: thewebconf.org This notice is provided as a courtesy in memory of RFC 2068 and HTTP Status Code 402.

chezou 2015/12/31

リンク

GitHub - donnemartin/data-science-ipython-notebooks: Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS,

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

chezou 2015/12/31

リンク

線形回帰モデルにおける説明変数の選択と回帰係数の縮小推定法：LassoとElastic Net

3. 研究背景線形回帰法は、一般的に目的変数 Yn×1 を、説明変数 X1 , ..., Xp の線形結合で説明する方法である。このような方法のうち最も基本的なものの１つは、最小二乗法 (OLS 法) であり、OLS 法を利用した回帰係数の推定値は以下のように表される ˆ β(OLS) = (X T X)−1 X T y (1) 回帰における重要な 2 つの視点 ▶ データの予測精度 - 学習データで構築したモデルが、未知のデータが得られたとき、結果をどの程度の精度で予測できるか。 ▶ モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的変数に対して影響の大きい説明変数のみで、モデルを構築できているか。 3 / 33 4. 研究背景線形回帰法は、一般的に目的変数 Yn×1 を、説明変数 X1 , ..., Xp の線形結合で説明する方法である。このような方法のう

chezou 2015/12/31

リンク

はてな，Googleインターン行ってイカやりすぎたイカVimmerの2015年の振り返り - haya14busa

今年は4月から大きく環境が変わったり，インターンに行ったりちょくちょくVim活したりイカ(Splatoon)したりと振り返ってみると色んな事がありました．最初にネタバレをすると最も進捗があったのは Splatoon で最高ウデマエS+90まで行ったことでした．マンメンミ! 去年や一昨年の Vim歴換算1年目 -> 1年間『Vim駆動学習』してきて最高に楽しかったのでオススメしたい - haya14busa プログラミング2年目 -> 2014年の振り返り. またはプログラミング2年目をVimに捧げるとこうなるという話 - haya14busa 今年はプログラミング初めてからだいたい3年目でした．もう初心者とか言ってられないようになって気がしますが，まだまだ勉強不足・力不足すぎるので精進したい. はてなサマーインターン長くなったので記事分けた -> 2015年夏，はてなインターンでM

chezou 2015/12/31

リンク

効果量では見えない指導の効果（6）：分位点回帰 - 草薙の研究ログ

1. これまでのおさらい前回は，事前－事後の成績の比較について，（1）効果量には，相関を考慮するものと，しないものがある（2）いずれにせよ，事前－事後の比較では，平均差，標準偏差だけではなく，相関係数（r）や分散比（F）が重要になる場合もある詳しくはこちら～ kusanagi.hatena blog.jp （一部誤っていたところを直しました，ご指摘くださった方ありがとうございました）今回はこれをちょっと掘り下げてみる。とくに，（2）について，もう一回ちょっと見てみる。まずはおさらい。仮に平均差と標準偏差が固定されても，つまり，標準化平均差と呼ばれるもの（の一部）の値が一緒だとしても，「（統計的な意味での）効果が同等だとしても」，相関係数や分散比の影響によって，（実質的，実務的な観点のもとにおける）処遇の結果（treatment outcome）の振る舞いが同一になるとは限らな

chezou 2015/12/31

リンク

Predicting CTR with online machine learning | MLWave

Good clicklog datasets are hard to come by. Luckily CriteoLabs released a week’s worth of data — a whopping ~11GB! — for a new Kaggle contest. The task is to predict the click-through-rate for ads. We will use online machine learning with Vowpal Wabbit to beat the logistic regression benchmark and get a nr. 1 position on the leaderboard. Updates Demo with data from this contest added to Vowpal Wab

chezou 2015/12/31

リンク

Home - Criteo Engineering

Software Engineer in Machine Learning Introduction Machine learning engineers (or ENG-ML in Criteo's slang) are expert in... More Data Scientist Criteo's business model is based on performance advertising: we optimize sales on... More DevOps Engineer When people ask me what my job is, I never really know... More Software Engineer Criteo recommendation team is charge of choosing the best products t

chezou 2015/12/31

Terabyte click logsを提供しているの凄い

リンク

【統計学】【R】分位点回帰を使ってみる。 - Qiita

分位点回帰、という手法のご紹介です。通常の回帰直線は、$x$が与えられた時の$y$の条件付き期待値(平均)と解釈できますが、分位点回帰では、25%分位点、とか95%分位点、等で使われる "分位点" をベースに回帰直線を引いてみようというものです。何はともあれ、まずはこれを使ってグラフを書いて可視化を試みます。 1.誤差の分散が説明変数に依存した正規分布の例説明変数$x$が小さいところでは誤差の分散が小さく、大きいところでは誤差の分散も大きくなるようなケースです。そんなデータを生成して試しています。分位点回帰では、分位点ごとに異なる $\beta$が設定されるので、それぞれ傾きが異なります。分位点回帰の実行結果下から順に5%, 10%, 25%, 75%, 90%, 95%の分位点回帰直線と、通常の回帰直線です。まずはデータを生成して散布図を描きます。 # 未インストールならイ

chezou 2015/12/31

リンク

Datasets for Data Mining

This page contains a list of datasets that were selected for the projects for Data Mining and Exploration. Students can choose one of these datasets to work on, or can propose data of their own choice. At the bottom of this page, you will find some examples of datasets which we judged as inappropriate for the projects. Particle physics data set Description: This data set was used in the KDD Cup 20

chezou 2015/12/31

“Internet advertisements dataset ”

リンク

Rebuild.fm 120 に出ました＆今年のまとめ - Islands in the byte stream

今年の総括エントリでも書こうかな、と思ったのですが、だいたい12月冒頭の #rebuildfm 120 で喋った気もします。 Rebuild: 120: Swiftonomics (gfx) Rebuild: Aftershow 120: Cooperative Single-Tasking (gfx) まあ被ってもいいやということで、今年の振り返りです。 Open Sourced Swift (rebuildfm 120) SwiftがOSSになったのは2015年のなかでも大きなニュースでした。特に私が注目するトピックは、仕様の提案を受け付ける専用のリポジトリを用意したことと、Linux Portです。特にLinux Portによって、Swiftは汎用プログラミング言語としての可能性が生まれました。今後の成長次第では3~4年たつと定番のウェブアプリ実装言語になる可能性もあります。一方

chezou 2015/12/31

write code every dayなんとか真似したい

リンク

機械学習によるデータ分析まわりのお話

2. データサイエンティスト 2 今世紀でもっともセクシーな職業ハーバード・ビジネス・レビュー 2013年年2⽉月号 2018年年までに⽶米国で14〜～19万⼈人不不⾜足マッキンゼー 2011年年5⽉月求められるスキルビジネススキル，機械学習／ビッグデータ，数学／OR，プログラミング，統計 Analyzing the Analyzers, O’reilly 2013 4. 本⽇日お話すること 4 1. データのこと Keywords: ダミー変数，⽋欠損値，正規化，次元の呪い 2. 機械学習のこと Keywords: 機械学習の分類，アルゴリズム，注意点 3. 評価のこと Keywords: 混同⾏行行列列，適合率率率，再現率率率，F値，ROC曲線 4. 分析のこと Keywords: 過学習，交差検証，学習曲線，バイアス・バリアンス教師あり学習(後述)寄りの内容が多いです

chezou 2015/12/31

リンク

Pythonでの機械学習を支援するツール MALSS（基本） - Qiita

cls = MALSS('classification', shuffle=True, standardize=True, n_jobs=3, random_state=0, lang='jp', verbose=True) cls.fit(data, y, 'result_classification') コンストラクタMALSSへ渡す引数で必須のものは，分析タスクのみです．今回はラベル（Yes/No）を予測する分類（識別）タスクなので"classification"です．値を予測する回帰タスクでは"regression"になります．それ以外のオプションは初期値が設定されているので，入力は必須ではありません． shuffle は機械学習を行う際にデータをシャッフルするか（初期値：True）， standardize はデータを基準化（各列を平均0，分散1に）するか（初期値：True

chezou 2015/12/31

リンク

SpeakEmoji – 音声→絵文字変換アプリ

SpeakEmojiは、音声で入力した言葉から、それにマッチした絵文字への翻訳ツールです。ブラウザ・iPhone・Android アプリが提供されています。 [更新 2022-08-12] ドメインが放棄されていたのでリ […] SpeakEmojiは、音声で入力した言葉から、それにマッチした絵文字への翻訳ツールです。ブラウザ・iPhone・Android アプリが提供されています。 [更新 2022-08-12] ドメインが放棄されていたのでリンクを外しました。 https://www.speakemoji.co.uk/app マイクから英語のセンテンスをしゃべると、うまくいけば対応する(?)絵文字のテキストを返してくれます。これをツイッターやフェイスブックに張り付けて送れば、絵文字で会話できますね。こちら説明動画。わざとらしいイギリス英語ですが、ドメインもco.uk だしイギリスの

chezou 2015/12/31

リンク

2015年を振り返ってみる - たごもりすメモ

今年はとにかく仕事してた……。ということで、Blogエントリ数を見てみるとこれまでの数年に較べてだいぶ少ない。転職した大手インターネットサービス事業者から、いろいろあって結果的には西海岸のスタートアップ(の東京オフィス)に移った。 tagomoris.hatena blog.com tagomoris.hatena blog.com 今年のいちばん大きな変化だったのは間違いない。このあとUSオフィスに少し行ってたり、この「いろいろあって」のときに考えてたことをエントリに書いたりもしていた。結局その後に仕事をしていてこれまでと全く違う環境になったし、書くコードの種類や性質、考えかたなんかもけっこう変わったなという自覚はある。マウンテンビューの片隅で意識低く短期間滞在を生き抜くためのノウハウ - たごもりすメモ小中規模のIT系企業における技術的選択と雇用戦略に関する雑感 - たごもりすメ

chezou 2015/12/31

そうか、TD行かれたのまだ今年だったか

リンク

L1正則化で重みが0につぶれる理由

L1正則化、つまり正則化項としてL1-normを使うとパラメタの大部分が0につぶれてモデルがコンパクトになるよという話をよく聞くと思います。初めて聞くと、何で？と思われるかと思います。先日の岡野原握手会でもこの話題がさらっとでて、@hillbigさんはよく微分した形でこれを説明しています（「押すなよ押すなよー」）。私は目的関数の形で理解した方がわかりやすいと思っているので、それを紹介。まず、正則化項の入っていない凸な目的関数を考えます。普通パラメタベクトルは多次元なので、多次元の山みたいな形になりますが、ここでは1次元だと思いましょう。この時点で最適値は（頂点の位置）は3です。これに正則化項を足します。L2だとこんな形をしています、というか0を中心とする放物線です。足しましょう。足すと0に向かってシフトすることがわかるでしょう。L2正則化の式は原点中心の山なので、元の山（頂点がどこ

chezou 2015/12/31

一個画像が見えない...

リンク

A Guide to Multiple Regression Using Statsmodels

Platform AI Platform The platform for generative and predictive AI. Learn more Documentation Pricing What’s New Demo Hub Explore Generative AI Product Offering Operate Confidently scale AI and drive business value with unparalleled enterprise monitoring and control. Deploy and Run Learn and Optimize Observe and Intervene Govern Unify your AI landscape, teams, and workflows for full visibility and

chezou 2015/12/31

リンク

起業して1年経って仲間が誰もいなくなって、自分はもっとやりたいことをやるべきだと思った - Make Local Happiness

2015年は最高と最低の両方味わった気がします。自己破産したとか、借金したとかお金が関わっていないので、まだまだ最低と呼ぶには可愛いですが、今までの人生の中ではなかなか最低な出来事がありました。同じくらい最高なことも沢山ありました。よかったことも悪かったことも、誰が悪いとかではなく、すべて自分の責任だったので、総じて2015年は最高な1年だったと思います。今年の経験があったからこそ、来年やらなければいけないことがはっきりしました。最低なことがあって初めてやるべきことはわかるかもしれないです。来年やらなければいけないこと自分のサービスをローンチするエンジニアに気軽に相談できるサービス作ります英語まずは3ヶ月から半年ほど海外に滞在したいなんで起業したのか？普段あまりブログは書いていなく、退職エントリーもないので、ちょっと起業した背景から書きます。元々、東京の

chezou 2015/12/31

2014年にクラウドソーシングはだいぶ厳しい世界に移っていたと思うんだけどなぁ。業界を盛り上げる何かに乗せられてしまったのかな

リンク

Photo Tourism: Microsoft Research, Interactive Visual Media Group

chezou 2015/12/31

なるほど、logistic regressionが広告で使われてるのここからかな

リンク

How to run Linear regression in Python scikit-Learn - Big Data Examiner

You know that linear regression is a popular technique and you might as well seen the mathematical equation of linear regression. But do you know how to implement a linear regression in Python?? If so don’t read this post because this post is all about implementing linear regression in Python. There are several ways in which you can do that, you can do linear regression using numpy, scipy, stats m

chezou 2015/12/31

リンク

https://matplotlib.org/stable/api/markers_api.html

chezou 2015/12/31

リンク

達人出版会

関数型ドメインモデリング Scott Wlaschin(著), 猪股健太郎(訳) 関数型デザイン Robert C. Martin(著), 角征典(訳) JavaScript Primer 改訂2版 azu, Suguru Inatomi The Art of Computer Programming Volume 4B Combinatorial Algorithms Part 2 日本語版 Donald E. Knuth(著), 和田英一(監訳・訳), 岩崎英哉, 田村直之(訳) ChatGPTで身につけるPython 掌田津耶乃 Swift 5.9からのデータ監視 Observationフレームワーク入門佐藤剛士現場で使える! AI活用入門北崎恵凡 Babylon.js レシピ集 Vol.3 Babylon.js 勉強会入門!実践! Kotlin Compose

chezou 2015/12/31

アジャみつとPM本ががが

リンク

人工知能によるコンテンツ生成と著作権 - 人工知能に関する断創録

今朝の読売新聞に面白い記事があったのでご紹介。 AI芸術著作権は？人工知能（AI）が自動的に作った楽曲や小説は「誰の作品」になるのか。政府は「AIアート」が将来、本格的に普及するとみて、年明けから著作権のあり方について議論を始める。そもそも著作権を認めるべきなのか、「これはこのAIの作品だ」ということをどう証明するのかなど、整備すべきルールは多岐にわたる。読売新聞 2015年12月30日この記事では人工知能芸術の事例として短編小説生成システム「きまぐれ人工知能プロジェクト作家ですのよ」自動作曲システム「Orpheus」の2つが取り上げられている。このような人工知能システムで作ったコンテンツの著作権はどうなるのか？というお話だった。著作権は作者の死後50年間とされているが、人工知能は死なないので保護期間が問題になるそうだ。システム（サービス）停止から50年でいいのでは？と

chezou 2015/12/31

"共同著作物については、共同で創作に寄与した者全員が一つの著作物の著作者となる。"とあるので、きっと訓練データに用いたすべての著作者が(ry

リンク

G Suite の料金プラン

Google Workspace を 14 日間お試しいただけます。この機会に Gemini もぜひお試しください。

chezou 2015/12/31

5人いれば月1200円でgoogle drive容量無制限ってかなり良い

リンク

エンジニアが0から英語を勉強する為にした事 - hotchemi-ja-blog

今年の始め、正確には去年の暮れ辺りから英語の勉強を開始した．自分の場合、殆ど0からのスタートで、色々と試行錯誤したので振り返ってみる．背景として、日本に住んでいる英語が苦手なソフトウェアエンジニアが英語を学ぶ上で良かった事なので、ビジネスの人とか海外移住を考えている人の役には立たないと思う．また、既に英語に苦手意識が無い人は読んでも得るものはないと思う．スタート今も対してできないが、当時は輪をかけて全く英語ができなかった．どれくらいできないかったかというと、以下の様な感じ．冷静に見て下の下． TOEIC・TOEFL受けた事ない未だに未受験なので次受けようと思っている… 大学4年間、一度も英語を勉強しなかった日本文学という珍妙なものを専攻していたせいで危機感を覚える事もなかった英語に触れると変な汗が出て、そそくさとその場から立ち去るだから今から勉強を始める人も、安心して欲

chezou 2015/12/31

やっぱAll ears Englishいいすよねー。英語で面接チャレンジしてみたい

リンク

MeCabをPython3から使う(続報)

Python3からMeCabを扱おうとして挫折していたのですが (MeCabをPython3から使う(中間報告))、改めて調査して、上手くいかなかった原因が分かったのでご報告します。おさらい Python3で以下のようにMeCabを使おうとすると import MeCab tagger = MeCab.Tagger('') text = u'MeCabで遊んでみよう!' node = tagger.parseToNode(text) while node: print(node.surface + '\t' + node.feature) node = node.next BOS/EOS,*,*,*,*,*,*,*,* 名詞,一般,*,*,*,*,* 助詞,格助詞,一般,*,*,*,で,デ,デ動詞,自立,*,*,五段・バ行,連用タ接続,遊ぶ,アソン,アソン助詞,接続助詞,*,*,*

chezou 2015/12/31

parseToNodeが壊れている問題も2013年から続いているのか

リンク

WikipediaのデータからElasticsearch用類義語辞書をつくる - Qiita

Elasticsearchには類義語によるクエリ拡張機能があります。これを適用するとまどマギと検索したときにまどかマギカと書かれた文書もヒットするようになります。 (LuceneやSolrにもありますがここではElasticsearchの話だけします) この類義語辞書は、人手で作ること (e.g., FRILの商品検索をnGramから形態素解析にした話 - mosowave) もできますが、今回はなるべく手間をかけたくないのでWikipediaのリダイレクトデータから自動で類義語辞書を作る方法を紹介します。 (自動といってもノイズも含まれてるので実用的に使うにはある程度人手でフィルタリングする必要があります。それでも一から人手で作るよりは手間が少ないと思います) (ElasticsearchではWordNetでの類義語検索に対応しているようですが、これを書いてる2015年12月時点

chezou 2015/12/31

広島→カープ/広島市みたいな多義語どうすんだろう？

リンク

PythonでMeCabの制約付き解析を使う - Qiita

MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、それを満たすように解析する機能です。たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。制約付き解析 (部分解析)より形態素境界の制約をつける文の一部の形態素境界がわかってるときに、その部分を一つの形態素として扱って解析するよ

chezou 2015/12/31

リンク

PythonでのMeCabを速くするtips - Qiita

ちゃお... Python Advent Calendar 2015 18日目の記事です... Pythonといったらデータサイエンスに強いし、データサイエンスといったら形態素解析が必要になることがあるし、形態素解析といったらMeCabだし――ということで、今回はPythonでのMeCabの処理を少しでも速くする豆知識を共有したいと思います！ parseToNodeを捨てよ parseを使おう MeCabの解析結果を得るにはparseとparseToNodeの2つのメソッドがあります。わたしはもっぱらparseToNode使ってたのですが、なんか遅いなーって思って、本当に遅いのか確かめるために処理時間測ってみました。現実的な設定でやった方が実用的だと思ったので、今回は夢野久作のドグラマグラから名詞を抽出することにします。コード import MeCab tagger = MeCab.T

chezou 2015/12/31

これ、やすかわさんの奴でも同じなのかな

リンク

YAMAGUCHI::weblogの2015年を振り返る - YAMAGUCHI::weblog

はじめにこんにちは、Go界の北陸新幹線です。今日でまた1歳を歳を取りました。例のやつ貼っておきます。とんぷーリスト関連エントリ振り返り9年目です。 YAMAGUCHI::weblogの2007年を振り返る - YAMAGUCHI::weblog YAMAGUCHI::weblogの2008年を振り返る - YAMAGUCHI::weblog YAMAGUCHI::weblogの2009年を振り返る - YAMAGUCHI::weblog YAMAGUCHI::weblogの2010年を振り返る - YAMAGUCHI::weblog YAMAGUCHI::weblogの2011年を振り返る - YAMAGUCHI::weblog YAMAGUCHI::weblogの2012年を振り返る - YAMAGUCHI::weblog YAMAGUCHI::weblogの2013年を振り返る

chezou 2015/12/31

リンク

タグ

2015年12月31日のブックマーク (29件)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

公式Twitter

はてなのサービス