タグ

機械学習とmecabに関するmohrisのブックマーク (2)

  • 機械学習のための日本語前処理 - Qiita

    はじめに 機械学習を使ったチャットボットの仕組みを理解するために、テキストを訓練データとする簡単なニューラルネットワークを作成した際の備忘録。 目的 英文テキストで作成したルールベース型チャットボットを、日語テキストにも適用して動作させること。日語テキストを前処理し、それをニューラルネットワークへ通せることを確認する。訓練データとして、Niantic社の"Pokemon GO"に関連したサポートページをWebスクレイピングしたものを使用した。 Nianticサポートページ 使用しているCSVファイル(GitHub) マルチクラス分類 予め用意された応答文を入力にあわせて返す「ルールベース型」を参考に、"Intents"(意図)を識別して予測するマルチクラス分類の部分までを形にした。 「生成型」ではなく、入力情報から関連した「よくある質問(FAQ)」を予測するものであるため、”RNN”で

    機械学習のための日本語前処理 - Qiita
  • pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社

    はじめにこんにちは。DATUM STUDIOの安達です。 最近社内で日語のテキストを用いた自然言語処理でよく質問を受けるのですが、前処理についてはそこそこ同じような内容になるため、記事では社内共有の意味も込めて前処理に関して用いてきた&用いれそうな手法を列挙します。 比較的同じ内容を扱った既存の記事としては以下のようなものもあり、読者の方はこれらも参考にされて要件に合わせて取捨選択してください。 自然言語処理における前処理の種類とその威力 – Hironsan自然言語処理の前処理・素性いろいろ 記事における使用言語、環境は以下の通りです。 ・osx 10.13.6・anaconda 5.2.0・python 3.5.2Table of contents ・形態素解析段階での前処理 ・文字表現の正規化 ・URLテキストの除外 ・Mecab + neologd 辞書による形態素解析 ・形

    pythonによる日本語前処理備忘録 | ブログ一覧 | DATUM STUDIO株式会社
  • 1