タグ

自然言語処理に関するshigo405のブックマーク (7)

  • Python自然言語処理テクニック集【基礎編】

    自分がよく使用する日語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

  • 「自然言語処理の勉強をしたい人」を対象に登壇した話 - かばやん's だいありー

    はじめに この記事は、自然言語処理 Advent Calendar 2019 - Qiita の3日目の記事 兼 サポーターズCoLab Advent Calendar 2019 - Adventar 3日目の記事です。 qiita.com 自然言語処理 Advent Calendarは、自然言語処理に関するテーマであれば何でもOKとあったので、このタイトルで記事を書くことにしたのですが、クオリティの高い技術系の記事ばかり出て来そうな雰囲気を感じているので、ちょっとドキドキしながら書きました。 記事では、自然言語処理を勉強したい人向けに、サポーターズCoLabで講師をした際に得た気づきを共有したいと思います。 アドベントカレンダー2つ兼用と欲張りな感じにしてしまいましたが(実は会社の同期アドベントカレンダーとも兼用)、以下のように考えています。 サポーターズCoLab講師の方やサポーター

    「自然言語処理の勉強をしたい人」を対象に登壇した話 - かばやん's だいありー
  • 自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録

    はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。 自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。 また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransformersによりわずか10行程度でBERTモデルを記述できます。 一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり

    自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録
  • 自然言語処理における前処理の種類とその威力 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? **自然言語処理に前処理は不可欠です。**テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: [Deep learning for computational biology](http://msb.embopress.org/content/12/7/878) 記事では自然言語処理における前処理の種類とその

    自然言語処理における前処理の種類とその威力 - Qiita
  • 講義まとめ:自然言語処理のための深層学習(CS224d) - Qiita

    CS224d(自然言語処理のための深層学習)はスタンフォード大のRichard Socherが2015年から教えている講義で、動画やスライドなどの講義資料と演習問題がウェブ上で無料で公開されています。 CS224d: Deep Learning for Natural Language Processing 会社の勉強会で週1回半年程度かけて講義動画と演習を終えたため、勉強したことを簡単にまとめてみたいと思います。 なぜ今なのか? 深層学習(Deep Learning)は2000年代後半のRBMやauto-encoderなどの教師なし学習から流行が始まりましたが、それらを教師あり学習の事前学習に使うアプローチは徐々に衰退し、2010年代前半には画像認識のための畳み込みネットワークがImageNetコンテストのおかげで爆発的に有名になりました。詳しくありませんが音声認識の分野でも既存の複雑な

    講義まとめ:自然言語処理のための深層学習(CS224d) - Qiita
  • 自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々

    雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています. 最終更新 2018年02月03日 チュートリアル 言語処理100ノック 言語処理100ノック 2015 東工大の岡崎先生が作られたチュートリアルです. 他大学の研究室でも利用されています. 簡単な内容からはじまるので,プログラミングの導入としてもいいと思います. NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです. Githubにサンプルコードが公開されています. 各チュートリアルにはテストがついているので,実装が正しいかを確かめることができます. 扱っているトピックが広いので,かなり勉強になると思います. ソフト 形態素解析器 日

    自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々
  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • 1