[B! classifier] yukimori_726のブックマーク

Soft Confidence-Weighted Learning の実装 - y_uti のブログ

[2017-03-20] アルゴリズムと実装の対応など、全体的に説明を補強しました。 Soft Confidence-Weighted (SCW)[1] を実装して、Iris データセットを分類する様子を観察します。SCW-I と SCW-II のほかに Confidence-Weighted (CW)[2], Adaptive Reguralization of Weight Vectors (AROW)[3] も実装して、それぞれの動作を比較します。実装にあたっては『オンライン機械学習』と各アルゴリズムの論文を参考にしました。 www.kspub.co.jp 参考にした論文は以下のとおりです*1*2。 [1] J. Wang, P. Zhao, and S. C. H. Hoi. Exact soft confidence-weighted learning. ICML 2012. [

yukimori_726 2017/04/20

リンク

MLC toolbox: MATLAB/Octave用のマルチラベル分類ライブラリ - 楡楡

記事を非公開にしてたけど，いま少し頑張っていることを書くことにする．マルチラベル分類従来の分類問題は一つのデータ点（インスタンス）は一つのクラスのいずれかに属するという設定．マルチラベル分類は一つのインスタンスが一つ以上のクラスに属するという設定．割り当てがラベルの組み合わせの数だけ存在するので比較的難しいよねという話．（おおざっぱにいえばマルチラベル分類のライブラリ色んなところで色んな人が公開している．有名なのは Mulan http://mulan.sourceforge.net/ MEKA http://meka.sourceforge.net/ 特にMulanはデータセットを公開しているので(arff形式だが)非常によく引用されている．これらはJavaのWekaというデータマイニングライブラリをベースに実装されている．しかし一方で，個人がいろいろと公開しているもの

yukimori_726 2017/04/11

classifier

リンク

scikit-learn でランダムフォレストによる多ラベル分類 - Qiita

まえがき本記事は機械学習関連情報の収集と分類(構想)の❷を背景としています。例えば某企業がクラウド上の某サービスを利用して Q&A システムを構築したニュースがあったとしましょう。そうすると❷のローカルファイルシステムのフォルダ例から推察できるように、このニュースのインターネットショートカットは、・ツール/クラウド/某サービス・機械学習/応用/Bot・対話システム・社会動向/企業/某企業の少なくとも３か所に配置されねばなりません。これらの分類は排他的ではないので、いわゆる多ラベル分類です。調べてみると Python / scikit-learn でこのような問題を扱うアルゴリズムは多様ですが、それなりに API インタフェースが統一されていて、アルゴリズムを差し替えるだけで動作する様なコードが書けるようです。そこで、そのAPI インタフェースを確認してみようというのが本記

yukimori_726 2017/03/08

リンク

spark mlで分類器に関するTips - Qiita

この記事は、Machine Learning Advent Calendar 2016 8日目の記事です。 spark mlの分類器をお試しする上でのTipsを4つご紹介します！ 1. お試しに便利なlibsvmデータセット機械学習を試す上で、データセットを用意する必要があります。よく知られているものとして、 UCI http://archive.ics.uci.edu/ml/index.html kaggle https://www.kaggle.com/datasets MovieLens http://grouplens.org/datasets/movielens/ などを利用することが多いと思います。ただ、クラス数、特徴量の数、データ量など、適切なものを探すのは大変です。 LIBSVMでは、UCI等で取得できる分類や回帰に利用できるデータが、それぞれのクラス数、特徴量数、デ

yukimori_726 2016/12/07

リンク

機械学習（文章から分類を判定）のサンプルソース（JAVA） - Qiita

主旨 1.文章を投入すると、その文章が何を説明しているのか判断 2.あらかじめ学習データを投入する教師あり学習で、単純ベイズ分類器を利用 3.学習させている分類の割合と、文中の単語の頻出度合いを元に分類を決定している（但し、学習データの事前確率は各分類で等価、つまり各分類につき１個の説明文書を投入） 4.サンプルソースなので、学習データの永続化などは行っていない 5.数学的に厳密に正しいという自信はない・・・ですつまり、、、以下のソースで、分類を正しく返してくれるサンプルモジュール public static void main(String argv[]) { NaiveBayesClassifier classifier = new NaiveBayesClassifier(); /** * 分類と説明をセットにして学習させる */ classifier.learn("青龍",

yukimori_726 2016/11/09

リンク

機械学習関連情報をトピックモデルで分類する - Qiita

機械学習関連情報の収集と分類(構想)の❷の部分に関連する記事です。実際に調べた時点から数か月ほど時間が経っていますので、現状と若干ずれがあるかもしれません。また、満足できる結果になっていないことをあらかじめお断りしておきましょう。 Qiita にも Python にも慣れていないのでいろいろおかしな記述があるかもしれませんが、そういうところはコメントいただければありがたいです。今回の記事で説明する処理は下記のような流れになっています。 ❶サイトのクロウルクロウルした文書(article)を bookmarks.crawled ディレクトリ配下に置きます。 ↓ ❷articleのPythonオブジェクト化文書(article)単位で Pythonオブジェクト化します。 ↓ ❸コーパスのPythonオブジェクト化文書群全体をコーパスとしてPythonオブジェクト化します。 ↓ ❹ト

yukimori_726 2016/11/09

リンク

Kerasによる2クラスロジスティック回帰 - 人工知能に関する断創録

まずはもっとも簡単な2クラスロジスティック回帰モデルをKerasで書いてみる。前にTheanoでやった（2015/5/19）のをKerasで書き換えただけ。ロジスティック回帰は、回帰とつくけど分類のアルゴリズムで、隠れ層がなく、活性化関数にシグモイド関数を使ったニューラルネットとしてモデル化できる。データは、PRMLの4章のex2data1 を使う。1列目と2列目がデータで3列目がクラスラベル（0または1の2クラス）。ソースコード：ex2data1.py データのロードと正規化データを読み込むライブラリにはpandasなどもあるが、ここではnumpy.genfromtxt()を使う。Xがデータで二次元データのリスト、tがラベルで0または1のリスト。 # load training data data = np.genfromtxt(os.path.join('data', 'ex2d

yukimori_726 2016/10/30

リンク

実践コンピュータビジョンの8章をScikit-learnで

kNN, Naibe Bayesm, SVM, (Random Forrest)をScikit-learnでやってみた。データはiPython NotebookでReSTで出力したものをpandocでmarkdown_strictに変換しなおしてblogに貼り付けた。描画用のヘルパー関数とデータセットの生成 from matplotlib.colors import ListedColormap import Image from numpy import * from pylab import * import pickle def myplot_2D_boundary(X,y): x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1 y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1

yukimori_726 2016/10/27

リンク

The 2nd Big Data Analysis Contestに参加しました。 - Qiita

(2016/9/20 追記) 先ほど、入賞者が公表されました！売上予測部門＜最高予測精度賞＞ moemoeと遊び隊様売上予測部門＜モデリングアイデア賞＞ nami3373様新商品開発部門＜ローソン賞＞いっしー様新商品開発部門＜データパティシエ賞＞ 0pus0ne様上記の皆様、入賞おめでとうございます！え、自分？つ、次頑張りますよ次… -以降は売上予測部門のモデル提出期限直後の内容になります- お疲れ様でした！興奮冷めやらぬままに本記事を書いているのですが、二ヶ月弱に及ぶ長い激闘の果てに、先日DeepAnalyticsのThe 2nd Big Data Analysis Contestが締め切られました。発表されたてホヤホヤですが、上位を競っていた方がprivateの方で大きく順位を落としたりと、最後まで波乱含みの展開だったと思います。 1位を獲得されたdeeshiさん

yukimori_726 2016/09/21

リンク

高速と噂のfastTextの仕組み - Qiita

８月中旬、facebookが公開したfastTextの仕組みを軽くまとめる。 fastTextができること自然言語処理の範囲は広く、ものによってできるものは異なる。fastTextは、word2vecのような単語をベクトルにしたり、文章をクラス分けする（予め決まったクラスに分類する（複数クラスに入ることは可能））ことができる。ベクトル化するモデルはCBOWとskip-gramが使われている。クラス分けを行うときは、学習データに、それぞれの文章がどのクラスにあるかという教師データが必要となる。 fastTextを試す githubに公開されているので、でコンパイル（新しめのc++コンパイラが必要）。使い方の詳細はREADME.mdを参考にしてください。サンプルとして複数のスクリプトが用意されている。しかし、巨大なデータがダウンロードされてしまうので、するなら、時間や十分なネットワーク環

yukimori_726 2016/09/21

リンク

【Python】自然言語処理でラーメン屋を分類してみる - Qiita

はじめにこんにちは、コピペデータサイエンティストです。 3年ぐらい前に「ラーメンと自然言語処理」というおちゃらけLTをしたのですが、今見ると恥ずかしいぐらいショボいので、Pythonで作りなおしてみました。長くなったので3行でまとめると Web上に転がっている口コミとか紹介文を Pythonのライブラリを用いて解析することで好きなラーメン屋に似たラーメン屋を見つける手法を構築した方法統計的潜在意味解析という手法を用います。ざっくり言うと、文書がどんなトピックを持っているか、何に関する文書なのか、を推定してくれるものです。以下の様なイメージで各トピックに割り振られる割合を算出できるため、以下の例ではAとBが近い、ということを計算することが可能です。ラーメン屋A： [0.75, 0.15, 0.10] ラーメン屋B： [0.60, 0.15, 0.15] ラーメン屋C： [0.0

yukimori_726 2016/07/24

リンク

Deep Learning はじめました【CIFAR-10の識別】 - sonickun.log

最近趣味で機械学習の勉強をしていて、中でもDeep Learningに興味を持って取り組んでいたので、備忘録としてブログにまとめておきます。はじめに本稿の目的は Deep Learning で実際に画像識別を行う Deep Leraning の特性を理解する（性能向上について考察を行う）の2点です。Deep Learningの概要・アルゴリズムについてはあまり触れません。ニューラルネットやDeep Learningについて参考にした書籍・Webサイトは以下の通りです。書籍深層学習(機械学習プロフェッショナルシリーズ) Python 機械学習プログラミング達人データサイエンティストによる理論と実践データサイエンティスト養成読本機械学習入門編初めてのディープラーニング --オープンソース"Caffe"による演習付きはじめてのパターン認識 Web 初心者でも今すぐ機械学習・ディ

yukimori_726 2016/07/15

リンク

Chainerで始めるニューラルネットワーク - Qiita

Chainerは、Preferred Networksが開発したニューラルネットワークを実装するためのライブラリです。その特徴としては、以下のような点があります(ホームページより)。高速: CUDAをサポートし、GPUを利用した高速な計算が可能柔軟: 柔軟な記法により、畳み込み、リカレントなど、様々なタイプのニューラルネットを実装可能直観的: ネットワーク構成を直観的に記述できる個人的には、さらに一つ「インストールが簡単」というのも挙げたいと思います。ディープラーニング系のフレームワークはどれもインストールが面倒なものが多いのですが、Chainerは依存ライブラリが少なく簡単に導入・・・できたんですが、1.5.0からCythonを使うようになりちょっと手間になりました。インストール方法については以下をご参照ください。 Mac Windows AWS 公式インストール情報また、C

yukimori_726 2016/07/12

リンク

developer's blog |

はじめに今回はTensorflowを使って、シンプルなレコメンデーションシステムの構築を行ってみる。レコメンデーションのアルゴリズムはいくつか存在するが、今回使うのは「協調フィルタリング（Collaborative Filtering）」と呼ばれるもの。全体像お薦めレストランを紹介するサービスがあったとする。ユーザは、利用したレストランに対して１〜５の評価をつけることができる。このサービスでは、ユーザが過去につけた評価から、他のお薦めレストランを紹介する機能を作りたいと考えている。まずは話を理解しやすくするために、以下のような少ないデータで考えてみる。ここで、佐藤さんにはレストランBを紹介すべきなのか、それともレストランDを紹介すべきなのか。また、伊藤さんにはレストランAを紹介すべきなのか、それともレストランBを紹介すべきなのか。この部分を機械学習を使って解いてみたいと思う。

yukimori_726 2016/07/12

リンク

BOW+TFIDFでニュース記事分類

前回： word2vecでニュース記事分類の続き．というかこっちを先にするべきだった．引き続きlivedoorニュースコーパスを使う．クラス数は9で総文書数は7356件．今回の対象はタイトルと全文．なので各文書がある程度長いことを想定（次回はここをタイトルのみにして短い文書に対する分類結果も出してみる）．前回はword2vecを使ったが，今回は普通にBag-of-WordsモデルとそれにTFIDFで重み付けをしたものを比較してみる．実験の設定は前回と同じなので，前回の結果とも比較できる．各文書がある程度長いのでBOWでもいい結果が出るだろうと予測したが，どうなんだろうか．結果は以下のようになった．

yukimori_726 2016/07/10

リンク

sentence2vec 動かした - laughingのブログ

paragraph vector の実装が Qiita で紹介されていたので，ホイホイと動かしてみたという話動くか動かないかというところを試しただけで，分析はまた今度参考【自然言語処理 NLP】word2vec の次は、Paragraph2vec （Mikolov氏論文）～ Google発の実装ソース・コード公開未定なので、第三者によるGithubアップ済み実装コードを試してみる - Qiita 準備 sentence2vec clone する python apt-get する scipy と six と python-mecab と cython も corpus 適当なのを作る情報学研究データリポジトリニコニコデータセット今回は nii のニコニコ動画コメント等データを適当に使った前処理ニコニコ動画コメント等データを形態素解析する下記のスクリプトで pytho

yukimori_726 2016/07/10

リンク

https://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/D3-2.pdf

yukimori_726 2016/07/10

リンク

文書分類器で単語分類をしてみる

keywords: 文書分類 (document classification），単語分類（word classification）， Pointwise mutual information 文書へのラベリングと単語へのラベリングはどちらが簡単だろう？例えば多くのニュースサイトではすでに文書は分類されている．しかし，単語が分類されているのは見たことがない．というより，そんなものを表に出してもあまり意味がないので表に出ていないのだろう．この状況を踏まえると，データをクロールする側からすると，ラベル付き文書データを入手するのは容易で，ラベル付き単語データを入手するのは困難だと言える．いま，文書データをクロールして，検索エンジンを作ることを考えよう．各文書にはラベルが付いている．このラベル情報を活かせないか？例えばクエリにラベルが付いていれば，クエリと文書のラベルを見て，一

yukimori_726 2016/07/10

リンク

word2vecでニュース記事分類

word2vecの応用として文書分類，ここではニュース分類をやってみました．データはlivedoorニュースコーパスを使いました．あと，wikipediaのデータで学習させたモデルを使いました． http://www.rondhuit.com/download.html#ldcc bag-of-wordsを用いた場合は以下で議論されています． http://qiita.com/yasunori/it ems/31a23eb259482e4824e2 さて，今回はword2vecを使って文書分類に挑戦してみます． word2vecにより，単語空間は有限次元ベクトル空間で表現されています．単語のベクトル表現をとし長さ1に正規化されているとします（正規化すると内積がcos類似度になる．特に正規化しなくてもよいと思うが念のため）．さらに，文書のベクトル表現をとします．ここで，文書は単語を

yukimori_726 2016/07/10

リンク

Bag of Tricks for Efficient Text Classification

This paper explores a simple and efficient baseline for text classification. Our experiments show that our fast text classifier fastText is often on par with deep learning classifiers in terms of accuracy, and many orders of magnitude faster for training and evaluation. We can train fastText on more than one billion words in less than ten minutes using a standard multicore~CPU, and classify half a

yukimori_726 2016/07/10

w2v+linearclassifierの法がVDCNNよりテキスト分類の精度が高い

リンク

はてなブックマーク

タグ

関連タグで絞り込む (89)

classifierに関するyukimori_726のブックマーク (117)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス