2. 解析動機 2013年5月18日Tokyo WebMining #26 2 最後の春だし画像処理の勉強でもしとくか 後輩からAV女優の類似画像検索の話を聞く (ぱろすけ 2012) DMMにはアフィリエイトあったよな これでウェブサービス作れば儲かるかも 決して下半身からの要望で解析したのではありません http://blog.parosky.net/archives/1506 3. 計算環境 2013年5月18日Tokyo WebMining #26 3 使用言語:Python 2.7 (少しだけR) 使用モジュール:Numpy, Scipy, OpenCV 科学技術計算用のライブラリ MATLABにできることは大体できる numpy.ndarray 型付き多次元配列 numpy.linalg 線形代数計算 scipy.cluster 今回はこれのk-means法を使用
放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。 静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広げている女子生徒の横を通り過ぎたところで突然立ち止まった。 振り返ってその先客をよく眺めると、ツインテールの頭をどこか見覚えのある黄色い本に乗せて、机に突っ伏すようにして寝ていた。カズは思わず近寄って、本の正体を確認するためにのぞき込もうとしたそのとき。 「やっぱ、わかんない! ……って、ひゃあ!?」 「わわっ」 突然跳ね起きたその生徒は、目と鼻の先にいたカズの姿にびっくりして悲鳴を上げた。カズもやはり驚きうろたえてしまった。 二人してしばらくそのまま息をのむようにして顔を見合わせていたが、そのうちどちらともなくぷっと吹き出した。 「あはは、ごめん……す
朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど
まだgithubにはpushしていないのですが、さいきょうの組み込み型画像検索エンジンotamaに計量学習を用いて与えられたデータにあった画像間の距離関数を学習してそれを使って検索するというドライバを入れたので、先行的なデモとしてアニメ顔類似検索v3を作ってみました。 計量学習は、ベクトル間の距離の計り方を機械学習で決めるみたいな分野です。 アニメ顔類似検索v3 AnimeFace Search v3 - Otama LMCA_VLAD_HSV Driver randomボタンを押すと顔画像がランダムに出るのでどれかクリックするとそれをクエリに検索します。color weightは色の重みを調節するパラメーターで、1にすると色だけで検索します。0にすると形状やテクスチャだけで検索します。結果画像の上の数字は類似度的なもので、その横のgglは元画像をGoogle Search by Imag
前回のエントリーではどちらかというと技術的な区分で今回のエントリーではデータマイナーとして持っていると愛される(=仕事を湯水の如くふられる)ために必要なソフトスキルについての経験的なメモ。 せっかくデータマイナーをやるなら、マネーボールのピーター・ブランド(サーバーメトリックスの人)見たいに愛されながら働きたいですよね、ということでそのために必要だと思ったこと: 1.数字をいくらでも見ていられるスキル 膨大なKPIの中からみるべき数字を見つけ出すとか、毎日決まった数字を何個も見続けられるスキル。毎日みているKPIから仮説を構築したり、考察を加えると重宝されます。毎日KPIをみると素早く異変に気づくことができるし、それがあまり得意ではない人も多いので、これをやってあげるとみんなに愛される(見るべきKPIが無限増殖する)人生がスタートします。 2.みんな気づかない数値の関係性が見つけられるスキ
今日会社で多次元のデータを2次元にクールでベストプラクティスな感じでプロットするにはどうしたらいいんだろうね、やっぱ多次元尺度構成法じゃない?的な会話をしていたのだけれども、2次元にデータを落とし込むと人間にもわかるデータになって本当におもしろいですよね。今日はその一例というか、いくつかの分類器の分類精度を2次元にプロットした結果を示した実験結果を解説したページを紹介します。おおーこうゆうのみたかったんだよなー!と個人的にはかなりエキサイティングな感じでした。 要約というか意訳になってしまうのですが、ページに以下のように説明されています。(細かいところは訳してません) http://home.comcast.net/~tom.fawcett/public_html/ML-gallery/pages/index.html 分類タスクの機械学習の研究では定量的な評価が重要です(精度とかACUと
k近傍法(ケイきんぼうほう、英: k-nearest neighbor algorithm, k-NN)は、入力との類似度が高い上位 k 個の学習データで多数決/平均するアルゴリズムである[1]。 パターン認識(分類・回帰)でよく使われる。最近傍探索問題の一つ。k近傍法は、インスタンスに基づく学習の一種であり、怠惰学習 の一種である。その関数は局所的な近似に過ぎず、全ての計算は分類時まで後回しにされる。また、回帰分析にも使われる。 k近傍法は以下の手順からなる: 入力と全学習データとの類似度(距離)測定 類似度上位 k 個の選出 選出されたデータの多数決あるいは平均 すなわち「入力とよく似た k 個のデータで多数決/平均する」単純なアルゴリズムである[1]。 例えば環境(気温/湿度/風速)から天気(雨/曇り/晴れ)を予測する分類問題を考える。k=5 のk近傍分類では、過去100日の環境-天
機械学習やってる人は皆読むべきだと思う. Machine Learning that Matters (pdf) 概要 機械学習のトップカンファレンスICMLに数式/アルゴリズム/定理を1つも書かずに通った論文. 機械学習は何のために重要なのか,現実世界との繋がりを失っていないか,あなたは「機械学習って何の役に立つの?」と聞かれた時にちゃんと答えられるのか,まだ取り組まれてない重要な問題は何か,について触れた長文ブログのような論文. contributionsは 機械学習の研究と人類と科学全体におけるもっと大きな研究との間にある欠落に対する明確な特定と解説 そのギャップに取り組むための第一歩 (どう訳していいかわからなかった) 機械学習において重要な問題の提示 機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの?) ベンチマークデータの問題 こ
「データマイニングを仕事とする人=データマイナー」はどういう人たちがいるかということについて ビックデータとかで世の中がバズってるけど「僕はデータマイニングをやってます!」といったときに適切にその人がやっている業務領域を把握している人ってかなり少ないと思う。 グリーで働いていたときもデータマイナーはどういった仕事をしていて、何をやっていて何ができるのかっていうことを理解していなくてミスコミュニケーションが生まれていたと思うのでちょっとその生態系についてまとめてみた。おそらく、データマイナーといわれる人は以下のタイプがいる: 研究開発をする人 統計学的に新しいイノベーションを起こせる人。Google のPageRankアルゴリズムを作りましたとか、NetfrixやAmazonのレコメンデーションエンジン作りましたとかいう人がこれにあたる。スキル的には統計学にかなり長けている必要があり、その他
自然言語処理の研究で役立つツールを集めてみました。 音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。 言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法(Knese
※この記事はすでに内容が古くなっています。こちらをご覧ください。 いい話判定器を作った。 いい話判定器 http://goodstory.id774.net/goodstory/ テキストを入力するかコピー&ペーストすると、いい話かどうか判定してくれる。 アルゴリズム 基本的に単純ベイズ分類器 (= ナイーブベイズ) そのままである。形態素解析エンジンで自然言語処理をして教師あり学習する。蓄積された教師データと呼ばれる知識により機械学習をおこない、入力データを分類するところに特徴がある。 ナイーブベイズは例えばスパムメールの分類に利用されるアルゴリズムである。人間が見るとスパムメールの判別は一目瞭然であるが、これを人力でおこなうとなると大変に不毛な作業となる。そこで機械にスパムメールのパターン認識をさせ、自動的に処理することにより恩恵を得ることができる。 実装 分類器本体は数学関数ライブラ
なにこれ このサービスではいい話判定をおこなうことができます。 いい話判定ってなに いい話かどうか判定することです。このサービスは機械学習を利用していい話判定を自動的におこなうことを目的に作られました。 いい話なのかどうか判定するには いい話判定したい文章をテキストエリアに入力またはコピー&ペーストしてください。 URL 貼り付けには対応していないので目的のウェブサイトからテキストを貼り付けてください。プルダウンメニューは未選択のまま「送信する」ボタンをクリックするといい話判定がおこなわれます。 訓練にご協力ください 分類器はインターネットの皆様に訓練されることでその知力を向上させていきます。ぜひ分類器の訓練にご協力ください。なお現在の学習状況は知力という値で表示されます。 訓練をするには テキストを入力したあと、プルダウンメニューにて学習させたい帰結を選択し「送信する」ボタンをクリックし
ILSVRC'12のHintonらの結果に対するざわつきを雑にまとめました タイトルで損してる言われたのでタイトルを雑に直しました
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く