Code Archive Skip to content Google About Google Privacy Terms
Conditional Neural Fields Jian Peng, Liefeng Bo and Jinbo Xu Toyota Technological Institute at Chicago, USA Abstract: Conditional random fields (CRF) [2] are widely used for sequence labeling such as natural language processing and biological sequence analysis. Most CRF models use a linear potential function to represent the relationship between input features and output. However, in many real-w
CNF の著者の Jian Peng 氏に特許について質問をしてみたところ、問題ないということでしたので Google Code にプロジェクトを作成してコードを公開しました。 http://code.google.com/p/cnf/ あまりちゃんとした実装ではないので、使用は自己責任でお願いします。間違ってるかもしれないので、間違いがあれば教えてくれると嬉しいです。 mercurial で管理しているので、以下のコマンドで落としてきて使用できます。 $ hg clone https://cnf.googlecode.com/hg/ cnf $ cd cnf$ make$ ./src/cnflearn src/template data/conll2000/train.txt test.save$ ./src/cnftagger src/template test.save data/c
A collection of machine-learning algorithms for classification Classias is a collection of machine-learning algorithms for classification. Currently, it supports the following formalizations: L1/L2-regularized logistic regression (aka. Maximum Entropy) L1/L2-regularized L1-loss linear-kernel Support Vector Machine (SVM) Averaged perceptron
博論終わったので仕事の合間にfujimapというライブラリを作ってみました。 fujimap project fujimapは作業領域が非常に小さい連想配列で、文字列からなるKeyを利用して、整数値もしくは文字列からなるValueを登録・参照することができるライブラリです。 今巷では大規模なKey Value Stroe (KVS)が流行っていますがFujimapは一台のマシンのメモリ上で動作することを想定して作成されています.Fujimapの特徴は必要な作業領域量が非常に小さいことです.キー自体を明示的に保存しないため、作業領域は値を格納するのに必要なサイズと、許容するfalse positive(後述)にのみ依存します。 例えば、google N-gramのunigramの約1300万キーワードとそれらの頻度の対数を記録する場合、false positiveを気にしないなら、一キーワー
MG勉強会の後にid:sleepy_yoshiさんに教えてもらったWSDM 2009における講演"Challenges in Building Large-Scale Information Retrieval Systems"で述べられている符号化方式のGroup Varint Encodingを実装してみた。 資料 講演スライド スライドの日本語による解説記事 整数の符号化方式 転置インデックスなどで文章番号のリストを前の値との差分で表すなどの方法を用いると出現する、ほとんどの値は小さな値となるためこれを4バイト使って表現するのは記憶容量の無駄である。 このためVarint Encoding、ガンマ符号、デルタ符号、Rice Coding、Simple 9、pForDeltaなど様々な符号化方式が提案されている。このうちVarint Encodingは実装が手軽なことからよく用いられて
This is a project started at Yahoo! Research and continuing at Microsoft Research to design a fast, scalable, useful learning algorithm. VW is the essence of speed in machine learning, able to learn from terafeature datasets with ease. Via parallel learning, it can exceed the throughput of any single machine network interface when doing linear learning, a first amongst learning algorithms. We prim
多次元配列の動的作成方法 long array[x][y]の作成方法 // 宣言部 long **array; // 作成部 array = new long*[x]; for(int i=0;i<x;i++){ array[i] = new long[y]; } 解放方法 for(int i=0;i<x;i++){ delete[] array[i]; } delete[] array; 補足 この例では、new失敗時のエラーチェックを行っていないので、実際に実装するときはエラー処理を忘れずに!! ↑ コメント 助かりました。ただ,配列作成時のforの中は「array[i] = new long[y];」ではないかと。 -- hemul? 2006-09-01 (金) 16:59:11 ソースの修正、どうもです。>hemul -- YImai? 2006-10-04 (水) 03:24:
C++に慣れている人にとっては当たり前のことかもしれないけど、あまりC++に親しんでいない場合、構造体を格納したSTLコンテナに対してアルゴリズム<algorithm>を有効に活用していないかもしれない。そこで、構造体を格納したvectorなどのSTLコンテナでソートや探索、削除などのアルゴリズムの利用方法を書いておく。 struct A { int n; int* p; }; 上記のような構造体はよく見かける形だと思う。構造体Aに整数型変数のnとポインタ型変数のpがあり、例えばnに配列の要素数、pにその配列を確保したりする。こういった構造体を以下のようにvectorなどのSTLコンテナを使って格納することは多々ある。 vector<A> A_list; これで構造体Aをコンテナに格納できるわけだ。ところで、STLコンテナを使用する一つの理由として便利なアルゴリズムが利用できることが挙げら
boostのvariate_generatorを思い出したので、適当に実装してみます。 C++0xでは使えないそうです。 参考サイト Boost Random Number Library Variate Generator - 1.41.0 letsboost::random 本の虫: C++0xの新しい乱数ライブラリ、random Mersenne Twisterを使う Cの標準関数rand()はいろいろ問題があるので、まずはMersenne Twisterを使いましょう。 以下のサイトからダウンロードします。 Mersenne Twister: A random number generator (since 1997/10) init_gen_rand( seed ); //シード値の設定 uint32_t r = gen_rand32(); //32bitの乱数を取得 XorSh
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く