[B! algorithm] tenten0213のブックマーク

tenten0213 id:tenten0213

algorithmに関するtenten0213のブックマーク (5)

VisuAlgo moves to https://visualgo.net/en
Redirecting you to https://visualgo.net/en
tenten0213 2014/08/19
algorithm

visualization
リンク
Non-negative Matrix Factorization（非負値行列因子分解） - あらびき日記
この記事は abicky.net の NMF: Non-negative Matrix Factorization（非負値行列因子分解）に移行しました
tenten0213 2014/04/18
アルゴリズム

algorithm

機械学習

nmf

非負値行列因子分解
リンク
転置インデックス - Wikipedia
転置インデックス（てんちインデックス、Inverted index）とは、全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造をいう。転置索引、転置ファイル、逆引き索引などとも呼ばれる。情報処理テクノロジにおける転置インデックスとは、単語や数字といった内容から、それが含まれているデータベースやドキュメント群へのマッピングを保持するという、インデックス型データ構造である。ドキュメント群へのマッピングの場合、検索エンジンが実現される。転置インデックスファイルは、インデックスというよりはデータベースと呼んだほうがふさわしい場合もある。また、検索キーが単語（文字列）であり、連想配列の値が位置情報である場合、ハッシュテーブルの形態を取ることもある。転置インデックスには大きく分けて2通りの手法がある。レコード単位転置インデックス（record level inverted in
tenten0213 2014/04/01
algorithm
リンク
MinHashによる高速な類似検索 - Preferred Networks Research & Development
年が明けてもう一ヶ月経ちましたね．岡野原です．今日はMinHashと呼ばれる手法を紹介します．これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている）．今や世の中のあらゆる種類のデータが，高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました．例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル（Bag of Words）で表し，画像データも，SIFTをはじめとした局所特徴量を並べた特徴ベクトル（とそれをSkecth化したもの）として表せます．行動情報や時系列データも特徴量をうまく抽出する．グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ，グラフの特徴をよく捉えることができるのが最近わかっ
tenten0213 2014/04/01
algorithm

アルゴリズム
リンク
文法圧縮入門：超高速テキスト処理のためのデータ圧縮（NLP2014チュートリアル）
言語処理学会第２０回年次大会（2014/3）のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは，入力テキストをよりコンパクトな文脈自由文法（CFG）に変換する圧縮法の総称である．文法圧縮の強みは圧縮テキストを展開すること無く，検索等のテキスト処理を効率よく行える点にある．驚くべきことにその処理速度は，元テキスト上での同じ処理を理論的に，時には実際にも凌駕する．また近年，ウェブアーカイブやログ，ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている．しかしながら，文法圧縮についての初学者向けの解説資料はまだまだ少ない．そこで本チュートリアルでは，文法圧縮の歴史的背景から最新動向までを幅広く紹介する．具体的には文法変換アルゴリズム，圧縮テキスト上での文字列パターン検索，文法圧縮に基づく省メモリデータ構造等の解説を行う．
tenten0213 2014/03/19
nlp

algorithm

compression

圧縮

自然言語処理

アルゴリズム
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx