タグ

ブックマーク / qiita.com/wf-yamaday (2)

  • spaCyとGiNZAを使った日本語自然言語処理 - Qiita

    はじめに 記事では、spaCyとGiNZAを使った日語の自然言語処理の手順を紹介します。 コードの部分ではspaCyのクラスがわかるように示していますので、ぜひ公式ドキュメントも参照ください。 想定する読者 以下の人を想定して書いてます。 日語の自然言語処理に興味がある人(※自然言語処理に関する知識は必要ないです。) Pythonのソースコードが読める人 使用するライブラリ 今回はspaCyとGiNZAという2つのライブラリを使用します。 spaCyとは spaCyは高度な自然言語処理を行うためのライブラリです。 自然言語処理では対象とする言語(日語や英語)によって必要な処理や複雑度が変わるのですが、spaCyは多言語対応を意識して設計・開発されており、そのアーキテクチャから学べることも多く非常に良くできたライブラリです。 spaCyでは訓練済みのモデルを読み込むことで多言語の自然

    spaCyとGiNZAを使った日本語自然言語処理 - Qiita
    misshiki
    misshiki 2021/11/08
    “spaCyとGiNZAを使った日本語の自然言語処理の手順を紹介”
  • 機械学習を使って歌詞から歌手を予測する - Qiita

    記事は東京学芸大学 櫨山研究室 Advent Calendar 2020の25日目の記事になります. はじめに 記事ではB'z,Mr.Children,椎名林檎,BUMP OF CHICKEN,RADWIMPS,YUIの歌詞情報を機械学習で分類します. 単純に言うと6値のテキスト分類です. 歌詞データのスクレイピング方法,機械学習モデルの構築・評価,モデルの予測結果にLIMEによる説明について記述しています. 使用するデータの収集 スクレイピングを使って利用する歌詞データを集めます. 手順を図に示すと以下のようになります. 対象とするアーティストと曲の選択 今回は独断と偏見でB'z,Mr.Children,椎名林檎,BUMP OF CHICKEN,RADWIMPS,YUIを対象とします. それぞれから20曲ずつ合計120曲分の歌詞データを収集します. 対象とする曲をリストアップすると以

    機械学習を使って歌詞から歌手を予測する - Qiita
  • 1