サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大阪万博
www.pytry3g.com
以前書いた記事でTwitterの対話データを集める方法を紹介しました。 www.pytry3g.com 紹介した方法を使えば膨大な数の対話データが簡単に手に入るというメリットがありますが、一方でTwitter特有の単語が多く含まれていてデータとして使えないなどのデメリットもあります。 今回はその収集したデータに前処理をかけて、データとして使えるものとそうでないものに分けたいと思います。 関連リンク 正規表現を使う URL URLを含まないテキスト URL(https)を含むテキスト URL(http)を含むテキスト 使用例 おまけ ハッシュタグ サンプル1 サンプル2 サンプル3 - 顔文字 ユーザ名 サンプル1 サンプル2 サンプル3 - 顔文字 サンプル4 - 顔文字 サンプル5 - 顔文字 replaceを使う。 ソースコード おわりに 関連リンク 6.2. re — 正規表現操作
Word2Vecの単語ベクトルから、いい感じな文書ベクトルが作れるSCDVというのを使ってテキスト分類をしてみました。 SCDVって? 今回やること 今回使うもの 1. データの用意 Wikipediaの記事をダウンロード ツイートの用意 形態素解析 訓練データとテストデータに分ける SCDVを作る 1. Word2Vecを作る 2. 確率重み付き単語ベクトルを求める 3. SCDVを求める。 テキスト分類 結果 ソースコード scdv.py dataset.py main.py SCDVって? SCDVについて分かりやすく説明されている記事がQiitaにあるので詳細は下の記事を参照してください。 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017) こちらは本家のGithubです。 GitHub - dheeraj7596/SCD
この記事ではRNNによる言語モデルを使った文章生成の方法(主にプログラム)について書いてみます。 はじめに 環境 実行環境 必要なライブラリなど 1. Wikipediaからデータを取ってくる ライブラリのインポート Wikipediaの記事をダウンロード 関連記事 2. 単語辞書を作り、学習データをインデックスに変換する 3. モデルの構成 ネットワーク パラメータとか 4. 学習する 関連記事 5. 学習モデルから文章の生成 バリエーションのある文章を生成する。 言語モデルのことをもっと知りたい方は ソースコード データの用意 学習コード 文章生成コード (おまけ)Google Colaboratoryを使った学習 はじめに 今回はRNNを使った文章の自動生成をやってみます。 今回やりたいことは単語を学習したモデル(言語モデル)に渡して、その出力結果から次の単語を予測。そしてその予測し
この記事では自然言語処理について自分が勉強したことを書いた記事についてまとめていきます。 単語の切り出し作業 形態素解析 MeCab N-gram 自然言語をベクトルにする Bag of Words TF-IDF Word2Vec GloVe テキスト分類 Cosine Similarity Sparse Composite Document Vectors Deep Learning 言語モデル seq2seq 単語の切り出し作業 自然言語を用いて機械学習をするにはテキストから単語を切り出す作業が必要になります。その作業は形態素解析もしくはN-Gramが用いられます。 形態素解析 MeCab 形態素解析のツールであるMeCabの紹介。 www.pytry3g.com N-gram www.pytry3g.com 自然言語をベクトルにする 自然言語をベクトルに変換する方法について書いた記事
Bag of Wordsについて書いてみます。 ほとんどの機械学習は入力として数値データを与えなければなりません。そのため、自然言語処理において自然言語で書かれたデータを何らかの形で数値に変換する必要があります。Bag of Wordsはそのための一つの方法になります。 Bag of Wordsって何? 1. 数値変換 2. one hot vector 3. 足し合わせる pythonでの実装 gensimで実装 scikit-learnを使った実装 あわせて読みたい ゼロから作るDeepLearning おわり Bag of Wordsって何? Bag of Wordsというのは自然言語処理において自然言語(人間が日常で使用している言語)で記述されたデータ、つまり文をベクトルで表現する方法のことです。 Bag of Wordsは次の3ステップで作ることができます。 数値変換 one h
PyTorchを使ってSeq2seqの実装をしてみたので、その実装方法について書いてみます。学習に用いるデータセットには実装したSeq2seqが正しく学習できているか簡単に評価できる、トイ・プロブレム(足し算)を使っています。 Google Colaboratoryで動作確認をしたので、誰でも簡単にプログラムを実行できるようにしています。 環境 Seq2seq 学習データの用意 EncoderとDecoderの実装 学習 テスト ソースコード データの用意 EncoderとDecoder 学習する テストする Deep Learningによる自然言語処理に興味がある方は Google Colaboratoryでプログラムを動かす 環境 今回書いたプログラムはGoogle Colaboratoryで実装から実行まですることができるので環境構築に手間取ることはないと思います。さらにGoogle
MeCabにあるキーワードをどうしても正確に形態素解析してほしかったので、自分でカスタマイズした辞書を追加してみました。 環境はWindowsです。MacやLinuxユーザのかたは関連リンクの公式の説明を見れば辞書のカスタマイズはできるんじゃないかと思います。Windowsでのやり方と流れは同じだと思うのでこの記事が参考になれば幸いです。 関連リンク 辞書のカスタマイズ ユーザ辞書の追加 1. 作業ディレクトリに移動 2. csvファイルの作成 3. csvファイルに単語を追加 4. 辞書のコンパイル user_custom.bat mecabrcの編集 テスト 結果 関連リンク MeCab: 単語の追加方法 辞書のカスタマイズ MeCabで使われる辞書への単語追加には2通りの方法があるようです。 システム辞書に追加 ユーザ辞書に追加 辞書更新が頻繁でないときや、解析速度を落としたくない場
近年、テスラの自動運転やAmazonのAlexaといったAI関連のニュースをよく目にするようになりましたが、これらのニュースを見てAIに興味をもち自分でも何か作ってみたいと考えるようになった方がいるでしょう。 そんな方にお勧めなのがGoogle Colaboratoryです。 今のAIにはDeep Learningという技術が使われていて、Deep Learningを行うためにはそれなりのマシンスペックが必要になってきますが、Google Colaboratoryを使えばスペックの心配をする必要はありませんし、必要な環境は全て揃っていて初心者の方でもすぐにAIプログラミングを始めることができます。 本記事ではGoogle Colaboratoryの導入方法から使用方法について紹介します。 Google Colaboratoryとは 使ってみる 環境設定 基本的な使い方 コードの実行 シェル
このページを最初にブックマークしてみませんか?
『どん底から這い上がるまでの記録』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く