manboubirdのブックマーク - はてなブックマーク

【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita
はじめに固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。固有表現抽出は、質問応答システム、対話システム、情報抽出といった自然言語処理を用いた応用アプリケーションの要素技術としても使われています。今回は機械学習技術を使って固有表現抽出器を作ってみます。 ※注意事項理論的な話は一切出てきません。理論を知りたい方は他を当たってください。対象読者固有表現抽出を少しは知っている方固有表現抽出器を作ってみたい方 Pythonコードを読める方固有表現抽出とは？ここでは、固有表現抽出の概要と方法について説明します。概要固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。具体例を見てみましょう。以下の文から固有表現を抽出してみます。上記の文に含まれる固有表現を抽出すると人名と
manboubird 2021/11/01
namedEntityRecognition
リンク
自然言語処理における前処理の種類とその威力 - Qiita
自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ
manboubird 2021/10/06
nlp

textSummarization

preProcessing

dataCleaning
リンク
【AWS】Lambdaでpipしたいと思ったときにすべきこと - Qiita
はじめに Lambda関数を Python で書いていると、Lambda関数内でサードパーティのライブラリを使いたくなるときがあります。しかし、Lambda では pip を使ってライブラリをインストールすることはできません。今回はそんな状況で役に立つ方法を紹介します。具体的には Lambda に用意されているファイルアップロード機能を使います。つまりファイルをアップロードするときにサードパーティのライブラリをアップロードすることで、Lambda関数内からライブラリを使えるようにします。今回は Python の HTTPライブラリである requestsを使ってみようと思います。関連記事 Lambda関数の基本的な作成方法は以下の記事を参考にしてください。 AWSのAPI GatewayとLambdaを使ってRest APIを書いてみた手順ローカルで作業用ディレクトリを作成する
manboubird 2017/06/19
python

lambda
リンク
画像の水増し方法をTensorFlowのコードから学ぶ - Qiita
はじめに Deep Learningで画像を精度よく分類するにはとにかく枚数が必要です。しかし、大量の画像をすべて手作業で用意・タグ付けするのは困難です。そこで、タグ付けされた画像を加工することで画像の枚数を増やす(水増しする)ことが行われます。今回は、水増しするためにどのようなことをするのかをTensorFlowのコードから学びたいと思います。具体的にはCIFAR-10のコードから学んでいきます。 cifar10/cifar10_input.py 実際のコードでは以下のように複数の処理を組み合わせて画像の水増しを行っていました。 # Image processing for training the network. Note the many random # distortions applied to the image. # Randomly crop a [height,
manboubird 2017/02/05
tensorFlow

computerVision

deepLearning

training

dataArgumentation
リンク
1