本記事では、Kaggleのタイタニックを例に、仮説と可視化から新しい特徴量を作る過程についてまとめます。 仮説と可視化から新しい特徴量を作る 予測精度に寄与する新しい特徴量を作成するに当たっては、仮説と可視化を繰り返す過程が大事です。 予測精度に寄与しそうな仮説を立てる 可視化を実施する 予測精度に寄与する仮説を見つけるため 仮説が正しいかを検証するため 個々人や問題によって、どちらが起点になるかが変わってきます。 ケース1)ドメイン知識がある場合 例えば自分が詳しい、つまりドメイン知識を持っている分野の問題に取り組む場合、最初から仮説がいくつかあると思います。その場合は仮説を検証するような可視化を実施し、本当に予測精度に寄与するかを確認します。その可視化の結果によっては、改めて仮説を立てることになるかもしれません。 ケース2)ドメイン知識がない場合 ドメイン知識がない場合は、まずは仮説を
(この記事は STBBS.NET Blogで掲載された記事を2013年4月に移動したものです) プライベートなネットワークの中でホスト名を管理する簡単な方法は /etc/hostsを使うことだが、台数が増えてくるとそれじゃあんまりなので DNSを使って名前を管理してみる。ついでに、ローカル以外の名前解決は外のちゃんとした DNSにフォワードさせる。 ローカルな名前解決とはいえ DNSに扱わせるためには(多分)一応ドメイン名が必要なため、ここでは .local を使う。 /etc/named.conf options { // 前略 forwarders { x.x.x.x; y.y.y.y; }; // 外のちゃんとしたDNSをここで指定 }; // 正引き zone "local" { type master; file "local.zone"; forwarders {}; // こ
量子コンピューターとブロックチェーンという未来の情報処理技術を中心テーマに世界の科学者・技術者が集う会議体「Table Unstable」が、初めて日本で開催された。このイベントには、欧州から欧州原子核研究機構(CERN)も参加しており、スイス・ジュネーブから3名の研究者が京都府宮津市を訪れた。 日本からは国内量子コンピューター研究の第一人者である京都大学の藤井啓佑准教授、計算機ホログラムや最適化計算のアプリケーションで知られる筑波大学の落合陽一准教授、量子力学と情報理論の融合によって生まれた量子情報に関する研究で知られる大阪大学の井元信之名誉教授らに加え、科学的根拠を元にしたリアリティーのある表現で展開されるアニメやゲームでの人気コンテンツ『STEINS;GATE』(シュタインズ・ゲート)原作者として有名な志倉千代丸氏が参加した。 本記事では「Table Unstable」夜の部として開
こんにちは、機械学習の研究分野の中でニッチながらも少しずつ知名度をあげてきている分野、"biologically plausible backpropagation"(日本語に直訳すると『生物学的に妥当な誤差逆伝播法』)についてこれから何回かに分けて記事を書いていきます。 初回は全体の概要的な話を書いて、次回から具体的に提案されているアルゴリズム、例えばfeedback alignmentやtarget propagationなどについて詳しく紹介していきたいと思います。 誤差逆伝播法の生物学的妥当性 誤差逆伝播法は現在ニューラルネットワークを学習させる際に最も広く用いられている方法で、実際それによって深層学習は大成功を収めている。しかしこれを脳内の学習メカニズムの候補として考えると(元々ニューラルネットワークは脳にヒントを得て作られたにも関わらず)いくつかの問題に晒される。そこで誤差逆伝
Gitのコンセプトや内部動作の理解のために、Gitの情報を格納する隠しディレクトリである.gitの内部構造を解説する。Gitを使い始めたがおまじないとしてコマンドを打っている人が、本当の理解への第一歩として読むのにおすすめ。 「Gitに関するこの簡単なチュートリアルを読んでみたけどこりゃいいね。今ではGitを使うのがすごく快適だし、何かやらかしてしまうのにおびえることもないよ」とはまだ誰も言ってない。 初心者としてGitを使うのは、その土地の言葉を読んだりしゃべったりできないのに新しい国を訪れた時に似ています。どこにいるか、どこに行くかわかっているうちは全てうまくいくのですが、一度場所がわからなくなると、大きな問題の始まりです(英語圏ではこういった例えに #badMetapher タグを使います)。 世の中にはGitの基本的なコマンドを学ぶための記事がたくさんありますが、これはそのひとつで
POPなポイントを3行で 成人向けサービス・FANZAが年間の統計データを発表 65歳以上のユーザーが多い県No.1は奈良県 検索されたワード1位は「熟女」、世界的な注目も? デジタルコマースが運営する成人向けサービス「FANZA」は、直近1年間の3億5000万人のユーザーデータから抽出した統計「FANZA REPORT 2018」を公開した。 「男女比」「訪問回数」「人気女優ランキング」といった一般的なデータに加え、「65歳以上のユーザーが多い県No.1は奈良県」「女性の検索ワードトップは男性ではランク外の“クンニ”」といった意外な事実まで網羅している。 統計期間は2017年9月1日から2018年8月31日まで、解析にはGoogle Analyticsを使用した。 突出する奈良県のシニア層と世界的な熟女への注目 ユーザーの年齢層として最も多いのは25-34歳(30%)で、35-44歳(2
こんにちは、SRE の @masartzです。 今回は最近取り組んだ、メルカリの主要データベースの容量削減のお話をしようと思います。 TL;DR 主要データベースの容量を20%以上削減しました どういう状況だったか? 何をしたか? メルカリでは2017年11月現在、出品数は1日100万件を超えています。 なので、単純に日々多くのデータが増えていっています。 そのためデータベースのスケーリングは常に検討し、取り組まなければならない課題です。 今回扱ったデータベースはいくつかあるデータベースの中で商品テーブルを持つ、メルカリの主要データベースになります。 増え続けるデータに対応するための、テーブル分割を変則的な形で対応したのでその過程を紹介します。 前提:データベース分割方法 メルカリのデータベースには 会員情報や商品情報など、基本要素となるデータから、通知やお知らせメッセージなど付加的な機能
By Aditya Agarwal async/await freed us from callback hell, but people have started abusing it — leading to the birth of async/await hell. In this article, I will try to explain what async/await hell is, and I’ll also share some tips to escape it. What is async/await hell While working with Asynchronous JavaScript, people often write multiple statements one after the other and slap an await before
このエントリは全9回を予定する18卒新人ブログリレーの第3回です. はじめまして.今年度よりリクルートテクノロジーズに入社した河野 晋策です. 7月からQassチームにて検索ロジックの改善を行っています. Qassチームは,検索基盤の運用や検索ロジックの改善を行っているチームです. 詳しくは以下の記事をご覧ください. 検索組織の機械学習実行基盤 リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか Elasticsearch+Hadoopベースの大規模検索基盤大解剖 本記事の想定読者:普段Jupyter notebook・Jupyter Lab,Google Colaboratoryを使っている方,またこれから使おうと考えている方 本記事の概要:jupyter notebookの知見共有 はじめに Jupyter notebookとは 近年,データの重要性が様々な
本記事について 本記事では、Deep Learningを用いた学習の要となる学習率の決め方、また学習率更新関数の決め方ご説明します。 これから説明する方法は、米国で数多の機械学習エンジニアを輩出している学習講座 fast.ai に取り入れられている手法で、その手法はDeep Learningフレームワークに導入、または導入検討されているものです。 この学習率決定法・更新関数は導入が簡単な割に、精度が数%上昇したり既存の精度までに到達する学習時間(Epoch数)が半分以下なるため、取り入れないのはもったいないと思いから記事にしました。 この記事は fast.ai 及び 論文『Cyclical Learning Rates for Training Neural Networks』を参考しにしています。 初期学習率の決め方: LR range test LR range testとは 初期学習
数学基礎用語集(和英編) 注) 当分の間、大略意味内容の順とします。 各種用語集 数学一般・論理 科学 science 算術 arithmetic 幾何学 geometry 代数 algebra 微積分 calculus 解析学 analysis 確率論 probability theory 統計学 statistics 方法 method 分析 analysis 論理 logic 理論 theory 定義 definition 命題 proposition 仮説 hypothesis 公理 axiom 要請 postulate 定理 theorem 証明 proof 仮定 assumption 結論 conclusion 証明終わり Q.E.D. (quod erat demonstrundum) 補題 lemma 系 corollary 反例 counter-example 背理法 r
はじめに こんにちは。メディアデータ分析部の飯塚(@zr_4)です。 弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。 左から:LUCRA、ニュースパス、グノシー そのため、記事のランキングに関するA/Bテストをする機会が多々あり「少数のユーザーで高速に有力なパラメータを探したい」というニーズがありました。 今回は上記ニーズを満たすべく、グノシーの本番環境に導入したインターリービングを紹介します。 インターリービングとは 概要 インターリービングは高感度なランキング評価手法です。 実験的に、10倍から100倍従来のA/Bテストよりも効率的であることが知られています。*1 従来のA/Bテストにおいて、2つのランキングリストを評価する際は、ユーザを2つの群に分け各々に別々のランキングリストを提示
pandas.DataFrame, pandas.Seriesに窓関数(Window Function)を適用するにはrolling()を使う。 pandas.DataFrame.rolling — pandas 0.23.3 documentation pandas.Series.rolling — pandas 0.23.3 documentation 窓関数はフィルタをデザインする際などに使われるが、単純に移動平均線を算出(前後のデータの平均を算出)したりするのにも使える。 窓関数 - Wikipedia ここでは以下の内容について説明する。 rolling()の基本的な使い方 Windowの幅を指定: 引数window Windowの中心に結果の値を格納する: 引数center 最小データ個数を指定: 引数min_periods 窓関数の種類を指定: 引数win_type 列方向に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く