[B! algorithm] mwsoftのブックマーク

単語クラスタリングについて - nokunoの日記

調べた．主に言語モデルに応用する場合の話．大きく分けて階層的と非階層的クラスタリングがある．Class-Based n-gram Models of Natural Language 階層的クラスタリングDistributed word clustering for large scale class-based language modeling in machine translation MapReduceによる単語クラスタリング元論文のpdfが見つからないが，exchange algorithm(Kneser and Ney, 1993)を分散処理向けに改良している．Exploring Asymmetric Clustering for Statistical Language Modeling 非対称クラスタリングAn Efficient Method for Determin

mwsoft 2012/07/28

algorithm

リンク

簡潔データ構造 LOUDS の解説（全12回、練習問題付き）

「日本語入力を支える技術」（通称「徳永本」）や「高速文字列解析の世界」（通称「岡野原本」）で紹介されている LOUDS というデータ構造を、12回に分けて解説しました。友達に教える時に使ったもので、練習問題付きです。実際に紙に書いてやってみるとわかりやすいと思います。詳解 LOUDS (1) LOUDS とは詳解 LOUDS (2) ビット列を作ってみる詳解 LOUDS (3) 0番ノード詳解 LOUDS (4) ビットの意味詳解 LOUDS (5) 木構造の復元詳解 LOUDS (6) インデックスでノードを表す詳解 LOUDS (7) ノード番号からインデックスを得る詳解 LOUDS (8) インデックスからノード番号を得る詳解 LOUDS (9) 子ノードから親ノード詳解 LOUDS (10) 親ノードから子ノード詳解 LOUDS (11) 木の検索詳解

mwsoft 2012/04/23

algorithm

リンク

Count-Min Sketch のライブラリを公開しました

2012-02-17 Count-Min Sketch のライブラリを公開しました written by Susumu Yata. はじめに先日 groonga プロジェクトでの利用を目的として開発しているライブラリ Madoka を公開しました．Madoka は Count-Min Sketch という手法をライブラリ化したものであり，文書集合に含まれるキーワードの頻度を求める，クエリの頻度を求める，などの用途に使うことができます． s-yata/madoka - GitHub Documentation - Madoka ライブラリの使い方についてはドキュメントに書いてあるので，こちらは Count-Min Sketch と Madoka の特徴をまとめた内容になっています． Count-Min Sketch 頻度を求めることが目的であれば，ハッシュ表による連想配列を使うのが，おそら

mwsoft 2012/02/20

algorithm

リンク

大規模グラフアルゴリズムの最先端

[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...

mwsoft 2012/01/19

algorithm

リンク

高速な安定ソートアルゴリズム "TimSort" の解説 - Preferred Networks Research & Development

先日、TimSortというソートアルゴリズムが話題になりました。TimSortは、高速な安定ソートで、Python(>=2.3)やJava SE 7、およびAndroidでの標準ソートアルゴリズムとして採用されているそうです。 C++のstd::sort()よりも高速であるというベンチマーク結果1が話題になり(後にベンチマークの誤りと判明)、私もそれで存在を知りました。実際のところ、ランダムなデータに対してはクイックソート(IntroSort)ほど速くないようですが、ソートというシンプルなタスクのアルゴリズムが今もなお改良され続けていて、なおかつ人々の関心を引くというのは興味深いものです。しかしながら、オリジナルのTimSortのコードは若干複雑で、実際のところどういうアルゴリズムなのかわかりづらいところがあると思います。そこで今回はTimSortのアルゴリズムをできるだけわかりやすく解

mwsoft 2011/10/27

algorithm

リンク

最近のバイナリハッシングをいくつかJavaで実装してみた - rubyu's blog

去年の終わりから、バイナリハッシングを使った近似近傍検索をいろいろ調べていたのですが、ぼちぼち一段落したので、ひと通りまとめておきます。バイナリハッシングとは。個の次元の点からなるデータセットで、元空間での近傍点を、類似したバイナリコードに関連づける技術。要するに、実数ベクトルの検索をマトモにやるには、最近のデータは膨大すぎるのでお手上げ。なので、元空間での距離をなるべく保ったまま、バイナリコードに落としましょう。そうすると、バイナリ一致か、1ビット違うか、2ビット違うか...と、捜索していくにしても、元空間のデータでやるより高速で、しかもストレージ容量を削減できるというわけです。そのビットのバイナリコードを作るために、個のハッシュ関数が使われる。ハッシュ関数はと定義される。ここで、はデータセット。は射影ベクトル。は閾値。線形写像ベースのハッシングはシンプル

mwsoft 2011/06/23

algorithm

リンク

高村本でCRFのお勉強をしたのでメモ - EchizenBlog-Zwei

「言語処理のための機械学習入門」通称高村本でCRF(Conditional Random Fields, 条件付き確率場)のお勉強をしたのでメモしておく。まず最初に世界には単純な線形識別関数があった。 y = wxこの線形識別関数で、素性はxそのもの。人々はよりリッチな素性が欲しくなったので事例xと正解ラベルtによって定まる素性φ(x, t)を思いついた。つまり y = wφ(x, t)である。さらにこれを確率化したくなった。確率とはつまり 1: P(x) >= 0 2: ΣP(x) = 1を満たす関数のこと。まずは1:を考える。つねにゼロ以上の値をとればよいのでyをexp(y)とする。こうすると y = -∞ => exp(y) = 0 y = ∞ => exp(y) = ∞ となりゼロ以上になることが保障される。つぎに2:を考える。足して1にするには全てのexp(y)の和で各exp(

mwsoft 2011/06/23

algorithm

リンク

Sleep sortの各言語での実装まとめ – Yuyak

盛り上がってるSleep sort。僕もどの言語かで実装しようと思ったけどもう色々やられていて悔しいのでまとめてみる。随時更新。そもそもの発端 4chan BBS – Genius sorting algorithm: Sleep sort （本家）常識を覆すソートアルゴリズム！その名も”sleep sort”！ – Islands in the byte stream bash 4chan BBS – Genius sorting algorithm: Sleep sort （本家） 4chan BBS – Genius sorting algorithm: Sleep sort C# 4chan BBS – Genius sorting algorithm: Sleep sort JavaScript 話題のソートアルゴリズム「sleep sort」をJavascriptで実

mwsoft 2011/05/24

algorithm

リンク

Project Euler - PukiWiki

Project Euler † プログラムで解く数学の問題集です。公式サイト適当に和訳してます。我こそはと思う人はライセンスを確認した上で自由に書いてください。 ↑

mwsoft 2011/05/22

algorithm

リンク

LDA 追試(訓練データとテストデータを分けたら) - 木曜不足

LDA の評価結果＋Collapsed Variational Bayesian の初期化における工夫 - Mi manca qualche giovedi`? のコメント欄にて、daichi さんに「テストデータを用意して、そちらのperplexityを順次評価してみるとどうなるでしょうか。LWLM等と同様、その場合には smart init が一番高い確率を与える可能性があるかも知れません」とアドバイスをいただいた。多謝。 θ_d が大変そう、とつぶやいてたら同じくコメント欄にて yossy さんから「θ_d周りの実装が少し面倒なせいか、各文書の90%の単語で学習して残り10%で評価することがよく行われます」とさらにアドバイスをいただいた。またまた多謝。というわけで試してみた。 https://github.com/shuyo/iir/blob/master/lda/lda_test

mwsoft 2011/05/13

algorithm

リンク

livedoor Techブログ : decision tree (決定木) でユーザエージェント判定器を作ってみる

アクセスログのユーザエージェント(UA)からブラウザを判別するのって，みんな何使ってますか？自分が作ったアクセス解析システムでは HTTP::BrowserDetect と HTTP::MobileAgent にそれぞれ独自パッチをあてたものを使っています。これらはルールベースの判定器なので，新しいブラウザや新種の bot が登場するたびに手作業でルールを追加し，パッチを作って配布するという作業が必要になります。この更新作業が大変面倒くさくて対応が遅れがちになるので，「このUA文字列はこのブラウザですよ、という例を大量に与えたら、自分で勝手に判定ルールを学習してくれるようになったら便利なのになぁ」と思い，decision tree (決定木)を使ってみることを思い立ちました。目標は， "Mozilla/5.0 (Windows; U; Windows NT 6.1; ja; rv:1

mwsoft 2011/05/11

algorithm

リンク

Python and Machine Learning

The document provides an overview of various Python machine learning libraries and tools, including Orange, MDP, PyMC, PyML, hcluster, NLTK, mlpy, LIBSVM, PyEvolve, FANN, Theano, PyBrain, Shogun, ffnet. For each library, it gives information on the homepage, dependencies, installation/source options, key developers and details. It also discusses machine learning and Python in general terms, noting

mwsoft 2011/04/25

algorithm

リンク

Confidence Weightedでランク学習を実装してみた

[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...

mwsoft 2011/04/08

algorithm

リンク

http://www.lab2.kuis.kyoto-u.ac.jp/~itohiro/Games/080307/080307-03.ppt

mwsoft 2011/03/31

2008年3月

リンク

SVM のチューニングのしかた（１） - ほくそ笑む

SVM のチューニング SVM(Support Vector Machine) はみなさん御存じ機械学習の手法です。 SVM はデフォルト設定でモデルを作ってもしょうがないです。gamma と cost というパラメータがあるので、これらの値に最適値を設定しなければなりません。R の SVM の Help にもこう書いてあります。 Parameters of SVM-models usually must be tuned to yield sensible results! (訳) SVM でいい結果出したかったらチューニングしろよな！というわけで、SVM のチューニングのしかたについて説明したいと思います。交差検証おっと、その前に、交差検証の話をしなければなりません。 SVM モデルをチューニングする際、二つのパラメータでグリッドサーチをします。すなわち、パラメータをいろいろ変

mwsoft 2011/03/28

algorithm

リンク

きれいなおねいさんのあつめかた：Bijostagramのはなし。 - TMBのおぼえがき

Bijostagram（びじょすたぐらむ）というWebサービスを作ってみました。 Bijostagram - Cute Girls on Instagram きれいなおねいさんは、好きですか？ Bijostagramとは？ Bijostagramは、きれいなおねいさんの画像がたくさん眺められるサービスです（個人的に作りました）。一番の大きな特徴は、Instagramから自動的にきれいなおねいさんの画像を集めてくる、というところです。Bijostagramでは、集めてきたおねいさん画像をランダムに表示しています。 Instagramは写真版Twitterで、しかも撮影した画像をオサレな感じで加工できてツイートできるというサービス。２月末に公式のAPIが公開されたので、いじってみました。→インスタグラムのAPIについてはこちら Bijostagramは、画像抽出と画像配置のアルゴリズムをPer

mwsoft 2011/03/18

algorithm

リンク

diffの動作原理を知る～どのようにして差分を導き出すのか | gihyo.jp

UNIXの基本的なコマンドの1つであるdiff。これに実装されているアルゴリズムは実に興味深い世界が広がっています。本稿では、筆者が開発した独自ライブラリ「dtl」をもとに「diffのしくみ」を解説します。はじめに diffは2つのファイルやディレクトリの差分を取るのに使用するプログラムです。ソフトウェア開発を行っている方であれば、SubversionやGitなどのバージョン管理システムを通して利用していることが多いかと思います。本稿ではそのdiffの動作原理について解説します。差分の計算の際に重要な3つの要素差分を計算するというのは次の3つを計算することに帰結します。編集距離 2つの要素列の違いを数値化したもの LCS（Longest Common Subsequence） 2つの要素列の最長共通部分列 SES（Shortest Edit Script）ある要素列を別の要

mwsoft 2011/03/11

algorithm

リンク

パターン認識に関する公開プログラム

宇野毅明と有村博紀による公開プログラム（コード）このページでは、公開しているプログラムのコードがダウンロードできます。主に、列挙アルゴリズムやデータマイニングに関するものです。全て、宇野毅明、あるいは、良く一緒に研究をしてお世話になっている北海道大学の有村博紀先生によって作られたものです。各プログラムに使用言語とコード作成者が書いてありますので、質問、あるいはバグの報告などは、作成者にご連絡ください。宇野毅明は uno@nii.ac.jp、有村博紀先生は arim@ist.hokudai.ac.jp です。 !!! コードの最近のバージョンに、マッキントッシュのフォーマットではエラーが出るというバグがありました。現行バージョンではこのバグは治っています。 LCM (Linear time Closed it emset Miner) ver.2 (C言語、宇野毅明) [文献 1]

mwsoft 2011/03/07

algorithm

リンク

LDA で実験その２:初期値を逐次サンプリングにしてみた - 木曜不足

Collapsed Variational Bayesian での LDA 推論も実装してみたのだが、そのときに「パープレキシティが下がりきるのは非常に早いのに、その時点ではトピック-単語分布がストップワードだらけ」「イテレーションの最初のうちはパープレキシティがほとんど動かない」という現象にぶちあたってしまった。で、その解決方法を考えているうちに、一つひらめいたことがあったので、また Collapsed Gibbs LDA に戻ってちょいと試してみた。といっても大層なことではなく、推論の初期値に各 term のトピックをランダムに割り振るのだが、それを完全にランダム( K 個のトピックが一様分布)にするのではなく、Gibbs サンプリングに用いる事後分布を逐次更新しつつ、その分布からトピックをサンプリングするようにしてみたのだ。つまり p( z_mn | z_mn より一つ前までの

mwsoft 2011/03/05

後で試す

algorithm

リンク

統計的機械学習入門

統計的機械学習入門(under construction) 機械学習の歴史ppt pdf 歴史以前人工知能の時代実用化の時代導入ppt pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル次元の呪い損失関数, bias, variance, noise データの性質数学のおさらいppt pdf 線形代数学で役立つ公式確率分布情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰正規方程式正規化項の導入線形識別パーセプトロンカーネル法ppt pdf 線形識別の一般化カーネルの構築法最大マージン分類器ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫クラスタリングppt pdf 距離の定義階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

mwsoft 2011/02/22

algorithm

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

algorithmに関するmwsoftのブックマーク (134)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第3週）

はてなブックマークは20周年を迎えました

今週のはてなブックマーク数ランキング（2025年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス