タグ

自然言語処理に関するlll_nat_lllのブックマーク (2)

  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • 「Google日本語入力」開発者が語る、その狙い

    Google法人が公開した新日本語入力システム(IME)「Google日本語入力」について、開発した同社の技術者が12月7日、開発の経緯や狙いなどを話した。予想を超える反響があったといい、「早い時期にβが取れる形で提供したい」と意気込む。Googleが来年リリースを予定している「Chrome OS」にも組み込まれる予定だ。 同IMEは12月3日にβ版として公開。Webから集めた情報を基に自動的に生成した辞書を搭載し、新語や専門用語、芸能人の名前などに強いのが特徴だ。冒頭の数文字を入力すると候補語を変換するサジェスト機能や、数字を16進数に変換する機能など、Googleらしい機能も備えている。Windows XP/Vista/7(それぞれ32ビット版)とMac OS X(Leopard以降)に対応し、無料で利用できる。 エンジニアの情熱の成果 開発は、ソフトウェアエンジニアの工藤拓さんと

    「Google日本語入力」開発者が語る、その狙い
  • 1