[B! 機械学習] dulltzのブックマーク

This document discusses methods for automated machine learning (AutoML) and optimization of hyperparameters. It focuses on accelerating the Nelder-Mead method for hyperparameter optimization using predictive parallel evaluation. Specifically, it proposes using a Gaussian process to model the objective function and perform predictive evaluations in parallel to reduce the number of actual function e

dulltz 2013/05/18

リンク

PRMLガール〜文芸部のマネージャーが「パターン認識と機械学習」を読んだら〜 - 木曜不足

放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広げている女子生徒の横を通り過ぎたところで突然立ち止まった。振り返ってその先客をよく眺めると、ツインテールの頭をどこか見覚えのある黄色い本に乗せて、机に突っ伏すようにして寝ていた。カズは思わず近寄って、本の正体を確認するためにのぞき込もうとしたそのとき。「やっぱ、わかんない！　……って、ひゃあ!?」「わわっ」突然跳ね起きたその生徒は、目と鼻の先にいたカズの姿にびっくりして悲鳴を上げた。カズもやはり驚きうろたえてしまった。二人してしばらくそのまま息をのむようにして顔を見合わせていたが、そのうちどちらともなくぷっと吹き出した。「あはは、ごめん……す

dulltz 2013/04/15

文体模写うまい

リンク

FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

朱鷺の杜Wiki（ときのもりうぃき）† 朱鷺の杜Wikiは，機械学習に関連した，データマイニング，情報理論，計算論的学習理論，統計，統計物理についての情報交換の場です．これら機械学習関係の話題，リンク，関連事項，書籍・論文紹介などの情報を扱います．更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか，最終更新のページを参照してください．ページの中でどこが更新されたかを見るには，上の「差分」をクリックして下さい．数式の表示に MathJax を利用しています．数式の上でコンテキストメニューを使うと各種の設定が可能です．特に設定をしなくても数式は閲覧できますが，フォントをインストールすれば数式の表示がきれいで高速になります．詳しくは数式の表示のページを参照して下さい．ごく簡単なWikiの使い方がこのページの最後にあります．トップページやメニューなど

dulltz 2013/01/12

機械学習

リンク

計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について - デー

まだgithubにはpushしていないのですが、さいきょうの組み込み型画像検索エンジンotamaに計量学習を用いて与えられたデータにあった画像間の距離関数を学習してそれを使って検索するというドライバを入れたので、先行的なデモとしてアニメ顔類似検索v3を作ってみました。計量学習は、ベクトル間の距離の計り方を機械学習で決めるみたいな分野です。アニメ顔類似検索v3 AnimeFace Search v3 - Otama LMCA_VLAD_HSV Driver randomボタンを押すと顔画像がランダムに出るのでどれかクリックするとそれをクエリに検索します。color weightは色の重みを調節するパラメーターで、1にすると色だけで検索します。0にすると形状やテクスチャだけで検索します。結果画像の上の数字は類似度的なもので、その横のgglは元画像をGoogle Search by Imag

dulltz 2013/01/10

機械学習

リンク

愛され系データマイニング屋に必要な５個のソフトスキル - dataminer.me

前回のエントリーではどちらかというと技術的な区分で今回のエントリーではデータマイナーとして持っていると愛される（＝仕事を湯水の如くふられる）ために必要なソフトスキルについての経験的なメモ。せっかくデータマイナーをやるなら、マネーボールのピーター・ブランド（サーバーメトリックスの人）見たいに愛されながら働きたいですよね、ということでそのために必要だと思ったこと： 1.数字をいくらでも見ていられるスキル膨大なKPIの中からみるべき数字を見つけ出すとか、毎日決まった数字を何個も見続けられるスキル。毎日みているKPIから仮説を構築したり、考察を加えると重宝されます。毎日KPIをみると素早く異変に気づくことができるし、それがあまり得意ではない人も多いので、これをやってあげるとみんなに愛される（見るべきKPIが無限増殖する）人生がスタートします。 2.みんな気づかない数値の関係性が見つけられるスキ

dulltz 2012/12/30

リンク

BLOG::broomie.net: 各種分類器の分類精度を示した絵がおもしろい

今日会社で多次元のデータを２次元にクールでベストプラクティスな感じでプロットするにはどうしたらいいんだろうね、やっぱ多次元尺度構成法じゃない？的な会話をしていたのだけれども、２次元にデータを落とし込むと人間にもわかるデータになって本当におもしろいですよね。今日はその一例というか、いくつかの分類器の分類精度を２次元にプロットした結果を示した実験結果を解説したページを紹介します。おおーこうゆうのみたかったんだよなー！と個人的にはかなりエキサイティングな感じでした。要約というか意訳になってしまうのですが、ページに以下のように説明されています。(細かいところは訳してません) http://home.comcast.net/~tom.fawcett/public_html/ML-gallery/pages/index.html 分類タスクの機械学習の研究では定量的な評価が重要です(精度とかACUと

dulltz 2012/12/21

機械学習

リンク

k近傍法 - Wikipedia

k近傍法（ケイきんぼうほう、英: k-nearest neighbor algorithm, k-NN）は、入力との類似度が高い上位 k 個の学習データで多数決/平均するアルゴリズムである[1]。パターン認識（分類・回帰）でよく使われる。最近傍探索問題の一つ。k近傍法は、インスタンスに基づく学習の一種であり、怠惰学習の一種である。その関数は局所的な近似に過ぎず、全ての計算は分類時まで後回しにされる。また、回帰分析にも使われる。 k近傍法は以下の手順からなる：入力と全学習データとの類似度（距離）測定類似度上位 k 個の選出選出されたデータの多数決あるいは平均すなわち「入力とよく似た k 個のデータで多数決/平均する」単純なアルゴリズムである[1]。例えば環境（気温/湿度/風速）から天気（雨/曇り/晴れ）を予測する分類問題を考える。k=5 のk近傍分類では、過去100日の環境-天

dulltz 2012/12/21

リンク

機械学習はじめよう記事一覧 | gihyo.jp

dulltz 2012/12/08

機械学習

リンク

Machine Learning that Matters(ICML 2012) 読んだ - 糞糞糞ネット弁慶

機械学習やってる人は皆読むべきだと思う． Machine Learning that Matters (pdf) 概要機械学習のトップカンファレンスICMLに数式/アルゴリズム/定理を1つも書かずに通った論文．機械学習は何のために重要なのか，現実世界との繋がりを失っていないか，あなたは「機械学習って何の役に立つの?」と聞かれた時にちゃんと答えられるのか，まだ取り組まれてない重要な問題は何か，について触れた長文ブログのような論文． contributionsは機械学習の研究と人類と科学全体におけるもっと大きな研究との間にある欠落に対する明確な特定と解説そのギャップに取り組むための第一歩 (どう訳していいかわからなかった) 機械学習において重要な問題の提示機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの？) ベンチマークデータの問題こ

dulltz 2012/11/28

リンク

Charming Python: Functional programming in Python, Part 3

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

dulltz 2012/11/09

リンク

データマイニングを仕事にする人の生態系 - dataminer.me

「データマイニングを仕事とする人＝データマイナー」はどういう人たちがいるかということについてビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます！」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる：研究開発をする人統計学的に新しいイノベーションを起こせる人。Google のPageRankアルゴリズムを作りましたとか、NetfrixやAmazonのレコメンデーションエンジン作りましたとかいう人がこれにあたる。スキル的には統計学にかなり長けている必要があり、その他

dulltz 2012/10/23

リンク

自然言語処理ツール

自然言語処理の研究で役立つツールを集めてみました。音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法（Knese

dulltz 2012/10/23

リンク

いい話判定器を作った | 774::Blog

※この記事はすでに内容が古くなっています。こちらをご覧ください。いい話判定器を作った。いい話判定器 http://goodstory.id774.net/goodstory/ テキストを入力するかコピー＆ペーストすると、いい話かどうか判定してくれる。アルゴリズム基本的に単純ベイズ分類器 (= ナイーブベイズ) そのままである。形態素解析エンジンで自然言語処理をして教師あり学習する。蓄積された教師データと呼ばれる知識により機械学習をおこない、入力データを分類するところに特徴がある。ナイーブベイズは例えばスパムメールの分類に利用されるアルゴリズムである。人間が見るとスパムメールの判別は一目瞭然であるが、これを人力でおこなうとなると大変に不毛な作業となる。そこで機械にスパムメールのパターン認識をさせ、自動的に処理することにより恩恵を得ることができる。実装分類器本体は数学関数ライブラ

dulltz 2012/10/20

リンク

いい話判定器

なにこれこのサービスではいい話判定をおこなうことができます。いい話判定ってなにいい話かどうか判定することです。このサービスは機械学習を利用していい話判定を自動的におこなうことを目的に作られました。いい話なのかどうか判定するにはいい話判定したい文章をテキストエリアに入力またはコピー＆ペーストしてください。 URL 貼り付けには対応していないので目的のウェブサイトからテキストを貼り付けてください。プルダウンメニューは未選択のまま「送信する」ボタンをクリックするといい話判定がおこなわれます。訓練にご協力ください分類器はインターネットの皆様に訓練されることでその知力を向上させていきます。ぜひ分類器の訓練にご協力ください。なお現在の学習状況は知力という値で表示されます。訓練をするにはテキストを入力したあと、プルダウンメニューにて学習させたい帰結を選択し「送信する」ボタンをクリックし

dulltz 2012/10/20