[B! algorithm][nlp] cronecoのブックマーク

統計的機械学習入門

統計的機械学習入門(under construction) 機械学習の歴史ppt pdf 歴史以前人工知能の時代実用化の時代導入ppt pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル次元の呪い損失関数, bias, variance, noise データの性質数学のおさらいppt pdf 線形代数学で役立つ公式確率分布情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰正規方程式正規化項の導入線形識別パーセプトロンカーネル法ppt pdf 線形識別の一般化カーネルの構築法最大マージン分類器ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫クラスタリングppt pdf 距離の定義階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

croneco 2011/04/24

リンク

KyTea (京都テキスト解析ツールキット)

English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい

croneco 2010/03/30

リンク

NLP2010 言語処理学会チュートリアル - DO++

今日から開催されている言語処理学会のチュートリアルで ”超高速テキスト処理のためのアルゴリズムとデータ構造” というタイトルで発表させていただきました。チュートリアル資料はこちら(pdf)です。（出典などは適宜追加します）今までいろいろなところで話してきた、オンライン学習、文字列、疎ベクトルデータ構造を最新の話を追加して、さらに乱択化（Hash Kernel, 乱択化SVD)を解説しています。発表自体は途中でブルースクリーンが出るということもありましたが、なんとか終えられてよかったです。これに付随していろいろツールを公開する予定だったがまにあわなかった。そのうち公開します

croneco 2010/03/30

リンク

Compressed Suffix Arrayの解説(1) -Suffix Array- - EchizenBlog-Zwei

< ---- < | > Compressed Suffix Arrayの解説(2) -SAの計算量- > ================================================ 最近(でもないか)話題のCompressed Suffix Array(CSA)について解説してみる。 CSAとはSuffix Array(SA)のインデックスを圧縮して小さくしたもの。大規模テキストデータに対する検索インデックスを作る場合など少しでもインデックスを小さくしたい場合に使われる。 CSAを知るにはSAから！ということで今回はSAの解説を。 Suffix Array(SA)とはデータ構造の一種で事前に(サイズがNの)テキストに対してインデックスを作っておくことでキーとなる文字列を入力として与えるとテキストに含まれるキーの位置をO(logN)で探索できる、というもの。たとえば

croneco 2010/03/30

リンク

Bayesian Setsによる関連文書検索システムStupa - mixi engineer blog

都会よりも田舎が好きなfujisawaです。Bayesian Setsというアルゴリズムを使って、関連する文書を高速・高精度に検索できるシステムを作成しましたので、そのご紹介をさせていただきます。 Bayesian Setsとは Bayesian Setsはいくつかアイテムを入力すると、それを補完するようなアイテムを返してくれるアルゴリズムです。原著論文の先頭に"Inspired by Google Sets"と書かれているように、Google Setsを参考にして作成されています。実際にどのような出力が得られるか、Google Setsに以下の表のクエリを検索して試してみますと、クエリ出力 apple, banana chocolate, strawberry, vanilla, cherry, ... apple, macintosh software, windows, mac,

croneco 2010/03/30

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

algorithmとnlpに関するcronecoのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2025年12月第1週）

月間はてなブックマーク数ランキング（2025年11月）

今週のはてなブックマーク数ランキング（2025年11月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス