7/19に行った無料F#セミナーの資料です。関数プログラミングにご興味があればこちらのセミナーをどうぞ。http://www.mamezou.com/training/f_pro.html
![関数型言語&形式的手法セミナー(3)](https://cdn-ak-scissors.b.st-hatena.com/image/square/ec9c24535f1c5aecb198a03d34ce39469eea41d6/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2F3-110722020938-phpapp01-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
SimStringは,類似文字列検索のための高速かつシンプルなライブラリです. 類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列との類似度が閾値以上のものを,見つけ出す操作です. クエリ文字列と完全に一致しなくても,データベース中の似ている文字列を検索することができるので,スペル訂正,あいまい計算,柔軟な辞書マッチング,重複レコード検出,データベース統合など,様々なアプリケーションを構築できます. SimStringは,類似度関数として,コサイン係数,ジャッカード係数,ダイス係数,オーバーラップ係数に対応しています. 文字列の類似度を計算するための特徴量としては,文字nグラムをサポートしています. SimStringには,次のような特徴があります. 高速な類似文字列検索アルゴリズム.Google Web1T の英語単語(13,588,391文字列)から,コサイン類似度が
機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。 識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。 実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。 そこで早速パーセプトロンを作ってみよう!というのが本記事の意図するところ。自分で実装できるとモチベーションが維持しやすいので、詳しく理論を学ぶ前にまずは作ってみようという考え。ちなみに実装にはperlを用いた。 参考: これからはじめる人のための機械学
TokyoNLP#5に参加して「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」というタイトルで発表しました.発表資料 (検閲後) をuploadしました. なお,2種類のAveraged Perceptronというものがあるというような発表をしてしまいましたが,実は両方とも実質同じアルゴリズムでした.片方はVoted Perceptronの近似 [Carvalho+ 06] という文脈.もう一方は構造学習を行うStructured Perceptron [Collins 02]の文脈で提案されています.その部分を修正しました.@uchumikさんのコメントで気が付きました.どうもありがとうございます. TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ〜ん View more presentations from sleepy_yoshi 音声付きで用意したネタ.どうやら徹夜明けの妙な
Google release Zippy as an open source (APLv2) project called Snappy (http://code.google.com/p/snappy). This tracks integrating it into Hadoop. Snappy is a compression/decompression library. It does not aim for maximum compression, or compatibility with any other compression library; instead, it aims for very high speeds and reasonable compression. For instance, compared to the fastest mode of zli
How Flipkart scales PHPSiddhartha Reddy Kothakapu144.5K views•124 slides
注意:この記事の内容は古いものです。 最新版のerika-trieは erika-trie(実用版)とキーワード抽出ツールerika_extractを作ったよ - EchizenBlog-Zwei うっかり手が滑って自分で☆つけてしまいましたが自画自賛してるわけではないです・・・。 をご参照ください。 最近TRIE(トライ)に対する興味が高まってきたので勉強のためにライブラリを作っていた。一応完成したので公開しておく。普通のTRIEとLOUDSによるTRIEの二つを実装した。 名前はerika。もしくはerika-trie。以前作ったCompressed Suffix Arrayのライブラリがtsubomiだったので、今回はerikaにした。コードはGoogleCodeのtsubomiと同じところにおいてある。というかtsubomiの付属品状態。開発はlinuxで行ったが特に環境に依存した
// $Id$ #ifndef ERIKA_BASIC_TRIE #define ERIKA_BASIC_TRIE #include #include #include #include #include #include "tsubomi_vertical_code.h" namespace erika { const char utf8_char_size[] = { 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 1,1,1,1,1,1,
// $Id$ #ifndef ERIKA_LOUDS_TRIE #define ERIKA_LOUDS_TRIE #include #include "erika_basic_trie.h" namespace erika { class louds_trie : public trie { tsubomi::vertical_code vc_; std::vector nodes_; louds_trie(const louds_trie &); const louds_trie operator=(const louds_trie &); void retrieve(int pos, const std::string &key, trie_results &values, int depth) { int ea = this->vc_.get(pos) + 1; int ia =
こんにちは、この夏はシルキードライで乗り切りたい岡野原です。 今日は最近公開したC++のオープンソースであるdag vectorについて紹介します。 github: dag_vector ライセンスは修正BSDライセンスです。 dag vector (direct accessible gamma code vector) は値を圧縮して格納したまま任意の場所の値を高速に参照可能な配列ライブラリです。しかもデータ末尾への追記が可能です。 dag vectorはstd::vectorのように利用できます。下にいくつか例を見ていきましょう。 dag_vectorの例 #include "dag_vector.hpp" // dag_vectorは0以上の正整数の配列を扱う配列。 dag_vector dv; // 値はいつでも追加可能。追加された値は圧縮して格納される // 正整数xは2lg(
故あってCompressed Suffix Array(CSA)を実装していたのだがΨ Vectorのデータ構造にunary符号を採用したら圧縮前よりもサイズが大きくなるという惨事が発生。 これに対処するため急遽データ構造をVertical Codeに変更した。デルタ符号(δ符号)並の圧縮率で、しかも高速らしい。 例えば index: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 value: 0 1 0 1 0 1 0 1 0 1 2 3 0 1 2 3というデータを考える。 Vertical Codeはデータを固定サイズM毎にブロックとして扱う。ここではM=8とする。また値はビット列に置き換え縦に並べる。すると最初のブロックは index: 0 1 2 3 4 5 6 7 value: 0 1 0 1 0 1 0 1 bit : 0 1 0 1 0 1 0
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
移転しました http://please-sleep.cou929.nu/20110721.html
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く