タグ

ブックマーク / qiita.com/Hironsan (6)

  • 絵で理解するWord2vecの仕組み - Qiita

    皆さん、Word2vec の仕組みはご存知ですか? Word2vec は gensim や TensorFlow で簡単に試せるので使ったことのある方は多いと思います。しかし、仕組みまで理解している方はそう多くないのではないでしょうか。そもそも家の論文でも内部の詳細については詳しく解説しておらず、解説論文が書かれているくらいです。 記事では Word2vec のモデルの一つである Skip-Gram について絵を用いて説明し、概要を理解することを目指します。まずは Skip-Gram がどのようなモデルなのかについて説明します。 ※ 対象読者はニューラルネットワークの基礎を理解しているものとします。 どのようなモデルなのか? Skip-Gram はニューラルネットワークのモデルの一つです。Skip-Gram は2層のニューラルネットワークであり隠れ層は一つだけです。隣接する層のユニット

    絵で理解するWord2vecの仕組み - Qiita
  • 機械学習の情報収集に役立つ14のメルマガ - Qiita

    機械学習は日進月歩の世界であり、情報収集が欠かせません。みなさんもブログやニュース記事を読む、Twitter機械学習に関するつぶやきをしている人をフォローする、毎日 arXiv の論文をチェックする、といった方法で情報収集しているのではないかと思います。 情報収集の際に課題となるのが、情報が多すぎて重要な情報が埋もれてしまう点があげられます。通常、この問題の解決策として、いいね数やブックマーク数の多い記事を読む、フォローする人を絞り込む、何らかのキュレーションツールを使う、といった手段が取られます。 重要な情報を効率的にチェックしたい方におすすめできる方法の一つとして、メルマガを購読する方法があります。機械学習に関するメルマガを購読する利点として、以下の点をあげられます: 識者が配信する情報を選んでいるので、重要な情報を効率的にチェックできる ほとんどの場合、週一で配信されるので、毎日

    機械学習の情報収集に役立つ14のメルマガ - Qiita
  • 自然言語処理における前処理の種類とその威力 - Qiita

    自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ

    自然言語処理における前処理の種類とその威力 - Qiita
  • なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita

    なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか? この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

    なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita
  • 機械学習を使って作る対話システム - Qiita

    このような対話を通じて、レストランの検索に必要な情報をユーザから取得し、レストラン検索を行います。 今回、レストラン検索にはHotPepperグルメサーチAPIを利用させていただきました。ありがとうございます。 システムアーキテクチャ 対話システムは複数のモジュールから構成されています。今回は、各モジュールは独立に動作させず、前段階のモジュールの処理が終わった段階で駆動されるようにしています。 最終的なシステムアーキテクチャは以下の図のようになりました。 今回のアーキテクチャに沿って処理の流れを説明すると以下のようになります。 ユーザがテキストを入力すると、入力したテキストは言語理解部に入力されます。 言語理解部では入力されたテキストを解析して、対話行為と呼ばれる抽象的な意味表現に変換します。 言語理解部から出力された対話行為は、対話管理部に入力されます。対話管理部では入力された対話行為を

    機械学習を使って作る対話システム - Qiita
  • 【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita

    はじめに 固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。固有表現抽出は、質問応答システム、対話システム、情報抽出といった自然言語処理を用いた応用アプリケーションの要素技術としても使われています。 今回は機械学習技術を使って固有表現抽出器を作ってみます。 ※注意事項 理論的な話は一切出てきません。理論を知りたい方は他を当たってください。 対象読者 固有表現抽出を少しは知っている方 固有表現抽出器を作ってみたい方 Pythonコードを読める方 固有表現抽出とは? ここでは、固有表現抽出の概要と方法について説明します。 概要 固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。具体例を見てみましょう。以下の文から固有表現を抽出してみます。 上記の文に含まれる固有表現を抽出すると人名と

    【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita
  • 1