タグ

classifierに関するyukimori_726のブックマーク (117)

  • Soft Confidence-Weighted Learning の実装 - y_uti のブログ

    [2017-03-20] アルゴリズムと実装の対応など、全体的に説明を補強しました。 Soft Confidence-Weighted (SCW)[1] を実装して、Iris データセットを分類する様子を観察します。SCW-I と SCW-II のほかに Confidence-Weighted (CW)[2], Adaptive Reguralization of Weight Vectors (AROW)[3] も実装して、それぞれの動作を比較します。実装にあたっては『オンライン機械学習』と各アルゴリズムの論文を参考にしました。 www.kspub.co.jp 参考にした論文は以下のとおりです*1*2。 [1] J. Wang, P. Zhao, and S. C. H. Hoi. Exact soft confidence-weighted learning. ICML 2012. [

  • MLC toolbox: MATLAB/Octave用のマルチラベル分類ライブラリ - 楡楡

    記事を非公開にしてたけど,いま少し頑張っていることを書くことにする. マルチラベル分類 従来の分類問題は一つのデータ点(インスタンス)は一つのクラスのいずれかに属するという設定. マルチラベル分類は一つのインスタンスが一つ以上のクラスに属するという設定. 割り当てがラベルの組み合わせの数だけ存在するので比較的難しいよねという話.(おおざっぱにいえば マルチラベル分類のライブラリ 色んなところで色んな人が公開している. 有名なのは Mulan http://mulan.sourceforge.net/ MEKA http://meka.sourceforge.net/ 特にMulanはデータセットを公開しているので(arff形式だが)非常によく引用されている. これらはJavaのWekaというデータマイニングライブラリをベースに実装されている. しかし一方で,個人がいろいろと公開しているもの

    MLC toolbox: MATLAB/Octave用のマルチラベル分類ライブラリ - 楡楡
  • scikit-learn でランダムフォレストによる多ラベル分類 - Qiita

    まえがき 記事は機械学習関連情報の収集と分類(構想)の❷を背景としています。 例えば某企業がクラウド上の某サービスを利用して Q&A システムを構築したニュースがあったとしましょう。 そうすると❷のローカルファイルシステムのフォルダ例から推察できるように、このニュースのインターネットショートカットは、 ・ツール/クラウド/某サービス ・機械学習/応用/Bot・対話システム ・社会動向/企業/某企業 の少なくとも3か所に配置されねばなりません。これらの分類は排他的ではないので、いわゆる多ラベル分類です。 調べてみると Python / scikit-learn でこのような問題を扱うアルゴリズムは多様ですが、それなりに API インタフェースが統一されていて、アルゴリズムを差し替えるだけで動作する様なコードが書けるようです。 そこで、そのAPI インタフェースを確認してみようというのが

    scikit-learn でランダムフォレストによる多ラベル分類 - Qiita
  • spark mlで分類器に関するTips - Qiita

    この記事は、Machine Learning Advent Calendar 2016 8日目の記事です。 spark mlの分類器をお試しする上でのTipsを4つご紹介します! 1. お試しに便利なlibsvmデータセット 機械学習を試す上で、データセットを用意する必要があります。 よく知られているものとして、 UCI http://archive.ics.uci.edu/ml/index.html kaggle https://www.kaggle.com/datasets MovieLens http://grouplens.org/datasets/movielens/ などを利用することが多いと思います。 ただ、クラス数、特徴量の数、データ量など、適切なものを探すのは大変です。 LIBSVMでは、UCI等で取得できる分類や回帰に利用できるデータが、それぞれのクラス数、特徴量数、デ

    spark mlで分類器に関するTips - Qiita
  • 機械学習(文章から分類を判定)のサンプルソース(JAVA) - Qiita

    主旨 1.文章を投入すると、その文章が何を説明しているのか判断 2.あらかじめ学習データを投入する教師あり学習で、単純ベイズ分類器を利用 3.学習させている分類の割合と、文中の単語の頻出度合いを元に分類を決定している (但し、学習データの事前確率は各分類で等価、つまり各分類につき1個の説明文書を投入) 4.サンプルソースなので、学習データの永続化などは行っていない 5.数学的に厳密に正しいという自信はない・・・です つまり、、、 以下のソースで、分類を正しく返してくれるサンプルモジュール public static void main(String argv[]) { NaiveBayesClassifier classifier = new NaiveBayesClassifier(); /** * 分類と説明をセットにして学習させる */ classifier.learn("青龍",

    機械学習(文章から分類を判定)のサンプルソース(JAVA) - Qiita
  • 機械学習関連情報をトピックモデルで分類する - Qiita

    機械学習関連情報の収集と分類(構想)の❷の部分に関連する記事です。 実際に調べた時点から数か月ほど時間が経っていますので、現状と若干ずれがあるかもしれません。 また、満足できる結果になっていないことをあらかじめお断りしておきましょう。 Qiita にも Python にも慣れていないのでいろいろおかしな記述があるかもしれませんが、そういうところはコメントいただければありがたいです。 今回の記事で説明する処理は下記のような流れになっています。 ❶サイトのクロウル クロウルした文書(article)を bookmarks.crawled ディレクトリ配下に置きます。 ↓ ❷articleのPythonオブジェクト化 文書(article)単位で Pythonオブジェクト化します。 ↓ ❸コーパスのPythonオブジェクト化 文書群全体をコーパスとしてPythonオブジェクト化します。 ↓ ❹ト

    機械学習関連情報をトピックモデルで分類する - Qiita
  • Kerasによる2クラスロジスティック回帰 - 人工知能に関する断創録

    まずはもっとも簡単な2クラスロジスティック回帰モデルをKerasで書いてみる。前にTheanoでやった(2015/5/19)のをKerasで書き換えただけ。ロジスティック回帰は、回帰とつくけど分類のアルゴリズムで、隠れ層がなく、活性化関数にシグモイド関数を使ったニューラルネットとしてモデル化できる。 データは、PRMLの4章のex2data1 を使う。1列目と2列目がデータで3列目がクラスラベル(0または1の2クラス)。 ソースコード:ex2data1.py データのロードと正規化 データを読み込むライブラリにはpandasなどもあるが、ここではnumpy.genfromtxt()を使う。Xがデータで二次元データのリスト、tがラベルで0または1のリスト。 # load training data data = np.genfromtxt(os.path.join('data', 'ex2d

    Kerasによる2クラスロジスティック回帰 - 人工知能に関する断創録
  • 実践コンピュータビジョンの8章をScikit-learnで

    kNN, Naibe Bayesm, SVM, (Random Forrest)をScikit-learnでやってみた。データはiPython NotebookでReSTで出力したものをpandocでmarkdown_strictに変換しなおしてblogに貼り付けた。 描画用のヘルパー関数とデータセットの生成 from matplotlib.colors import ListedColormap import Image from numpy import * from pylab import * import pickle def myplot_2D_boundary(X,y): x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1 y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1

    実践コンピュータビジョンの8章をScikit-learnで
  • The 2nd Big Data Analysis Contestに参加しました。 - Qiita

    (2016/9/20 追記) 先ほど、入賞者が公表されました! 売上予測部門<最高予測精度賞> moemoeと遊び隊様 売上予測部門<モデリングアイデア賞> nami3373様 新商品開発部門<ローソン賞> いっしー様 新商品開発部門<データパティシエ賞> 0pus0ne様 上記の皆様、入賞おめでとうございます! え、自分? つ、次頑張りますよ次… -以降は売上予測部門のモデル提出期限直後の内容になります- お疲れ様でした! 興奮冷めやらぬままに記事を書いているのですが、 二ヶ月弱に及ぶ長い激闘の果てに、先日DeepAnalyticsのThe 2nd Big Data Analysis Contestが締め切られました。 発表されたてホヤホヤですが、上位を競っていた方がprivateの方で大きく順位を落としたりと、最後まで波乱含みの展開だったと思います。 1位を獲得されたdeeshiさん

    The 2nd Big Data Analysis Contestに参加しました。 - Qiita
  • 高速と噂のfastTextの仕組み - Qiita

    8月中旬、facebookが公開したfastTextの仕組みを軽くまとめる。 fastTextができること 自然言語処理の範囲は広く、ものによってできるものは異なる。fastTextは、word2vecのような単語をベクトルにしたり、文章をクラス分けする(予め決まったクラスに分類する(複数クラスに入ることは可能))ことができる。ベクトル化するモデルはCBOWとskip-gramが使われている。クラス分けを行うときは、学習データに、それぞれの文章がどのクラスにあるかという教師データが必要となる。 fastTextを試す githubに公開されているので、 でコンパイル(新しめのc++コンパイラが必要)。使い方の詳細はREADME.mdを参考にしてください。 サンプルとして複数のスクリプトが用意されている。しかし、巨大なデータがダウンロードされてしまうので、するなら、時間や十分なネットワーク環

    高速と噂のfastTextの仕組み - Qiita
  • 【Python】自然言語処理でラーメン屋を分類してみる - Qiita

    はじめに こんにちは、コピペデータサイエンティストです。 3年ぐらい前に「ラーメンと自然言語処理」というおちゃらけLTをしたのですが、今見ると恥ずかしいぐらいショボいので、Pythonで作りなおしてみました。 長くなったので3行でまとめると Web上に転がっている口コミとか紹介文を Pythonのライブラリを用いて解析することで 好きなラーメン屋に似たラーメン屋を見つける手法を構築した 方法 統計的潜在意味解析という手法を用います。ざっくり言うと、文書がどんなトピックを持っているか、何に関する文書なのか、を推定してくれるものです。 以下の様なイメージで各トピックに割り振られる割合を算出できるため、以下の例ではAとBが近い、ということを計算することが可能です。 ラーメン屋A: [0.75, 0.15, 0.10] ラーメン屋B: [0.60, 0.15, 0.15] ラーメン屋C: [0.0

    【Python】自然言語処理でラーメン屋を分類してみる - Qiita
  • Deep Learning はじめました【CIFAR-10の識別】 - sonickun.log

    最近趣味機械学習の勉強をしていて、中でもDeep Learningに興味を持って取り組んでいたので、備忘録としてブログにまとめておきます。 はじめに 稿の目的は Deep Learning で実際に画像識別を行う Deep Leraning の特性を理解する(性能向上について考察を行う) の2点です。Deep Learningの概要・アルゴリズムについてはあまり触れません。ニューラルネットやDeep Learningについて参考にした書籍・Webサイトは以下の通りです。 書籍 深層学習(機械学習プロフェッショナルシリーズ) Python機械学習プログラミング 達人データサイエンティストによる理論と実践 データサイエンティスト養成読 機械学習入門編 初めてのディープラーニング --オープンソース"Caffe"による演習付き はじめてのパターン認識 Web 初心者でも今すぐ機械学習・ディ

    Deep Learning はじめました【CIFAR-10の識別】 - sonickun.log
  • Chainerで始めるニューラルネットワーク - Qiita

    Chainerは、Preferred Networksが開発したニューラルネットワークを実装するためのライブラリです。その特徴としては、以下のような点があります(ホームページより)。 高速: CUDAをサポートし、GPUを利用した高速な計算が可能 柔軟: 柔軟な記法により、畳み込み、リカレントなど、様々なタイプのニューラルネットを実装可能 直観的: ネットワーク構成を直観的に記述できる 個人的には、さらに一つ「インストールが簡単」というのも挙げたいと思います。 ディープラーニング系のフレームワークはどれもインストールが面倒なものが多いのですが、Chainerは依存ライブラリが少なく簡単に導入・・・できたんですが、1.5.0からCythonを使うようになりちょっと手間になりました。インストール方法については以下をご参照ください。 Mac Windows AWS 公式インストール情報 また、C

    Chainerで始めるニューラルネットワーク - Qiita
  • developer's blog |

    はじめに 今回はTensorflowを使って、シンプルなレコメンデーションシステムの構築を行ってみる。 レコメンデーションのアルゴリズムはいくつか存在するが、今回使うのは「協調フィルタリング(Collaborative Filtering)」と呼ばれるもの。 全体像 お薦めレストランを紹介するサービスがあったとする。ユーザは、利用したレストランに対して1〜5の評価をつけることができる。 このサービスでは、ユーザが過去につけた評価から、他のお薦めレストランを紹介する機能を作りたいと考えている。 まずは話を理解しやすくするために、以下のような少ないデータで考えてみる。 ここで、佐藤さんにはレストランBを紹介すべきなのか、それともレストランDを紹介すべきなのか。また、伊藤さんにはレストランAを紹介すべきなのか、それともレストランBを紹介すべきなのか。この部分を機械学習を使って解いてみたいと思う。

    developer's blog |
  • BOW+TFIDFでニュース記事分類

    前回: word2vecでニュース記事分類 の続き.というかこっちを先にするべきだった. 引き続きlivedoorニュースコーパスを使う. クラス数は9で総文書数は7356件. 今回の対象はタイトルと全文. なので各文書がある程度長いことを想定 (次回はここをタイトルのみにして短い文書に対する分類結果も出してみる). 前回はword2vecを使ったが, 今回は普通にBag-of-WordsモデルとそれにTFIDFで重み付けをしたものを比較してみる. 実験の設定は前回と同じなので,前回の結果とも比較できる. 各文書がある程度長いのでBOWでもいい結果が出るだろうと予測したが,どうなんだろうか. 結果は以下のようになった.

    BOW+TFIDFでニュース記事分類
  • sentence2vec 動かした - laughingのブログ

    paragraph vector の実装が Qiita で紹介されていたので,ホイホイと動かしてみたという話 動くか動かないかというところを試しただけで,分析はまた今度 参考 【自然言語処理 NLPword2vec の次は、Paragraph2vec (Mikolov氏論文)~ Google発の実装ソース・コード公開 未定なので、第三者によるGithubアップ済み 実装コード を試してみる - Qiita 準備 sentence2vec clone する python apt-get する scipy と six と python-mecab と cython も corpus 適当なのを作る 情報学研究データリポジトリ ニコニコデータセット 今回は nii のニコニコ動画コメント等データを適当に使った 前処理 ニコニコ動画コメント等データを形態素解析する 下記のスクリプトで pytho

    sentence2vec 動かした - laughingのブログ
  • https://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/D3-2.pdf

  • 文書分類器で単語分類をしてみる

    keywords: 文書分類 (document classification), 単語分類(word classification), Pointwise mutual information 文書へのラベリングと単語へのラベリングはどちらが簡単だろう? 例えば多くのニュースサイトではすでに文書は分類されている. しかし,単語が分類されているのは見たことがない. というより,そんなものを表に出してもあまり意味がないので表に出ていないのだろう. この状況を踏まえると,データをクロールする側からすると,ラベル付き文書データを入手するのは容易で, ラベル付き単語データを入手するのは困難だと言える. いま,文書データをクロールして,検索エンジンを作ることを考えよう. 各文書にはラベルが付いている. このラベル情報を活かせないか? 例えばクエリにラベルが付いていれば,クエリと文書のラベルを見て,一

    文書分類器で単語分類をしてみる
  • word2vecでニュース記事分類

    word2vecの応用として文書分類,ここではニュース分類をやってみました. データはlivedoorニュースコーパスを使いました. あと,wikipediaのデータで学習させたモデルを使いました. http://www.rondhuit.com/download.html#ldcc bag-of-wordsを用いた場合は以下で議論されています. http://qiita.com/yasunori/items/31a23eb259482e4824e2 さて,今回はword2vecを使って文書分類に挑戦してみます. word2vecにより,単語空間は有限次元ベクトル空間で表現されています. 単語のベクトル表現をとし長さ1に正規化されているとします (正規化すると内積がcos類似度になる.特に正規化しなくてもよいと思うが念のため). さらに,文書のベクトル表現をとします. ここで,文書は単語を

    word2vecでニュース記事分類
  • Bag of Tricks for Efficient Text Classification

    This paper explores a simple and efficient baseline for text classification. Our experiments show that our fast text classifier fastText is often on par with deep learning classifiers in terms of accuracy, and many orders of magnitude faster for training and evaluation. We can train fastText on more than one billion words in less than ten minutes using a standard multicore~CPU, and classify half a

    yukimori_726
    yukimori_726 2016/07/10
    w2v+linearclassifierの法がVDCNNよりテキスト分類の精度が高い