タグ

2014年3月20日のブックマーク (2件)

  • 文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)

    言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこでチュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less

    文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
  • 研究用にニコニコ大百科の記事とコメント約24GBを公開‐ニコニコインフォ

    いつもniconicoをご利用いただきありがとうございます。 このたび、国立情報学研究所情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ大百科の記事データを「ニコニコデータセット」に公開しました。 提供するデータ内容は記事ヘッダデータ、記事文データ(履歴含む)、掲示板データとなっています。形式はCSVで約24GBあります。非公開の記事や、ユーザーを特定できるIDは含まれていません。 データは研究目的であればどなたでもご利用いただけます。 希望される方は国立情報学研究所サイトより利用申請をして下さい。 ニコニコ大百科は未来検索ブラジルが運営する『あらゆる言葉について定義や意味、元ネタを解説する辞書・辞典』です。wikipediaと異なり、客観的で真面目な記事だけでなく、主観的で面白い記事も歓迎しています。HTMLCSSも用いることができるため、見た目に意味を持たせた記事もあるこ

    showyou
    showyou 2014/03/20
    吹いたw> tasukuchan