エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
大規模文字列解析の理論と実践
岡野原 大輔 Preferred Infrastructure (PFI) 2010 6/14 情報論的学習理論と機械学習研究会 (IBISML) @... 岡野原 大輔 Preferred Infrastructure (PFI) 2010 6/14 情報論的学習理論と機械学習研究会 (IBISML) @東京大学 背景 文字列を扱うためのデータ構造 ◦ Wavelet Tree ◦ 接尾辞配列 / FM-index / 接尾辞木 文書集合に対する高速な統計量の計算 ◦ 全部分文字列の頻度 / 重み付き全部分文字列の頻度 機械学習への応用 ◦ 全部分文字列を用いた文書分類 ◦ Sequence Memoizer 無限長履歴 + 階層型Pitman-Yor過程 あらゆる分野にみられる基本的なデータ形式 ◦ 自然言語、ゲノム、ログ ◦ 対象量は急拡大: ‘00年 106 単語 ⇒ ‘10年 1010~ 1012単語 文字列の性質は様々 ◦ 文字列長: 101(ログ)~ 109(ゲノム) ◦ 文字種類数 : 4 (ゲノム
2012/06/22 リンク