タグ

NLPに関するoh_cannot_angelのブックマーク (4)

  • 『衣類用語辞書の構築』

    皆さん、初めまして。2009年新卒入社の遠山と申します。 広告効果検証システムCAMPのシステムを担当しております。 今回のエントリーでは、「衣類用語辞書の構築」についてお話したいと思います。 弊社では、アメーバブログのNGワードの検知にアダルトキーワードを登録した辞書を用いたり、流行語や著名人ブログ情報の検索サイトのアメーバ辞書(携帯のみ対応)では、人名を登録した辞書を用いたりしています。 独自の辞書を用いてブログ記事を解析することで、何の話題についてその記事が書かれているかを知る指標を得ることができます。 今回は、個人的にファッションが好きなので、2MBのコーパス(流行のファッションについて書かれたレポートのテキスト)から「ライダースジャケット」や「Tシャツワンピース」(※Tシャツとワンピースではないです。)といった衣類名を抽出し、ファッションの分野に特化した衣類用語辞書を作成した話を

    『衣類用語辞書の構築』
  • 京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改

    KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。 私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。 かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。 そこに新しくKyTeaが現れた。

    京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改
  • https://alaginrc.nict.go.jp/rasc/

  • 文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)

    言語処理学会第20回年次大会(2014/3)のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは,入力テキストをよりコンパクトな文脈自由文法(CFG)に変換する圧縮法の総称である. 文法圧縮の強みは圧縮テキストを展開すること無く,検索等のテキスト処理を効率よく行える点にある. 驚くべきことにその処理速度は,元テキスト上での同じ処理を理論的に,時には実際にも凌駕する. また近年,ウェブアーカイブやログ,ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている. しかしながら,文法圧縮についての初学者向けの解説資料はまだまだ少ない. そこでチュートリアルでは,文法圧縮の歴史的背景から最新動向までを幅広く紹介する. 具体的には文法変換アルゴリズム,圧縮テキスト上での文字列パターン検索,文法圧縮に基づく省メモリデータ構造等の解説を行う.Read less

    文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
  • 1