manabouのブックマーク - はてなブックマーク

固有表現認識を使って文書を黒塗りする - Qiita

固有表現認識で認識した固有表現を黒塗りすることで、匿名化っぽいことができると考えられます。というのも、機密文書で黒塗りされている部分は機密に関係している人名や組織名などが多いと考えられるからです。上文の固有表現部分を黒塗りすると以下のようになります。今回は固有表現を認識するためにディープラーニングを用いたモデルを構築します。具体的にはLampleらが提案したモデルを構築します。このモデルでは、単語とその単語を構成する文字を入力することで、固有表現の認識を行います。言語固有の特徴を定義する必要性もなく、ディープな固有表現認識のベースラインとしてよく使われているモデルです。 Lampleらのモデルは主に文字用BiLSTM、単語用BiLSTM、およびCRFを用いて構築されています。まず単語を構成する文字をBiLSTMに入力して、文字から単語表現を獲得します。それを単語分散表現と連結して、単語用

manabou 2018/04/20

nlp
text

リンク

機械学習の情報収集に役立つ14のメルマガ - Qiita

機械学習は日進月歩の世界であり、情報収集が欠かせません。みなさんもブログやニュース記事を読む、Twitter で機械学習に関するつぶやきをしている人をフォローする、毎日 arXiv の論文をチェックする、といった方法で情報収集しているのではないかと思います。情報収集の際に課題となるのが、情報が多すぎて重要な情報が埋もれてしまう点があげられます。通常、この問題の解決策として、いいね数やブックマーク数の多い記事を読む、フォローする人を絞り込む、何らかのキュレーションツールを使う、といった手段が取られます。重要な情報を効率的にチェックしたい方におすすめできる方法の一つとして、メルマガを購読する方法があります。機械学習に関するメルマガを購読する利点として、以下の点をあげられます: 識者が配信する情報を選んでいるので、重要な情報を効率的にチェックできるほとんどの場合、週一で配信されるので、毎日

manabou 2017/08/10

machinelearning

リンク

単語分散表現のためのダウンローダを作りました - Qiita

単語の分散表現は現在の自然言語処理で当たり前のように使われています。最近は学習済みのモデルが数多く公開されており、自分で時間とお金をかけて学習させる必要性が少なくなってきました。しかし、公開されているとはいえ自分で探してきてダウンロードするのはなかなか手間がかかります。この手間をなくすために単語分散表現のダウンローダを作ってみました。名前は chakin です。 chakki-works/chakin (スターつけていただけるとやる気がでますm(＿＿)m) chakinの特徴としては、Pythonで書かれておりpipでインストールできる、検索からダウンロードまでワンストップでできる、23のベクトルをサポートしている(2017/5/29時点)と言ったことが挙げられます。サポートするベクトルについては今後増やしていく予定です。では使い方をご紹介します。 chakinの使い方インストールは

manabou 2017/05/30

リンク

自然言語処理における前処理の種類とその威力 - Qiita

自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ

manabou 2017/04/18

リンク

テンプレートを使って爆速で機械学習プロジェクトを作成する - Qiita

あなたは機械学習のプロジェクトを毎回違う構成で作っていませんか？何をどこに配置するかで悩んで時間がかかっていませんか？そんな方に朗報です。機械学習のプロジェクトはコマンド一発で作れます。以下のようなプロジェクトを数秒で作れます。ディレクトリ構造 ├── LICENSE ├── Makefile <- Makefile with commands like `make data` or `make train` ├── README.md <- The top-level README for developers using this project. ├── data │ ├── external <- Data from third party sources. │ ├── interim <- Intermediate data that has been transfor

manabou 2017/03/23

リンク

自然言語処理における畳み込みニューラルネットワークを用いたモデル - Qiita

はじめに最近、畳み込みニューラルネットワーク(CNN)を用いた自然言語処理が注目を集めています。CNNはRNNと比べて並列化しやすく、またGPUを使うことで畳み込み演算を高速に行えるので、処理速度が圧倒的に速いという利点があります。この記事は、自然言語処理における畳み込みニューラルネットワークを用いたモデルをまとめたものです。CNNを用いた自然言語処理の研究の進歩を俯瞰するのに役立てば幸いです。文の分類(評判分析・トピック分類・質問タイプ分類) Convolutional Neural Networks for Sentence Classification(2014/08) 評判分析や質問タイプの分類などの文分類を行うCNNを提案している論文。具体的には文を単語ベクトルの列として表し、それに対してCNNを用いて特徴抽出・分類を行っている。論文では事前学習済みの単語ベクトル(Goo

manabou 2017/02/13

nlp
cnn

リンク

Vision APIとNatural Language APIを組み合わせて名刺から情報抽出する - Qiita

はじめに Cloud Vision APIとNatural Language APIを組み合わせて、名刺から情報抽出してみましょう。APIを使うためにPythonを用いて作ることにします。前回記事はこちら: kintoneで名刺管理アプリを作ってみようこれから作るアプリ名刺画像を与えると名前、会社名、住所を抽出するアプリを作成します。イメージとしては以下のようになります: アプリ作成の流れ Step 0：アプリ作成の準備をする ↓ Step 1：Vision APIを使ってテキスト検知をする ↓ Step 2：Natural Language APIを使って名前や会社名を抽出する ↓ Step 3：2つのAPIを統合して名刺から情報抽出する Step0(3min) アプリ作成の準備をするアプリを作るために、必要なライブラリのインストール、リポジトリのダウンロード、APIキーの設定を

manabou 2016/11/16

リンク

【チュートリアル】機械学習を使って30分で固有表現抽出器を作る - Qiita

はじめに固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。固有表現抽出は、質問応答システム、対話システム、情報抽出といった自然言語処理を用いた応用アプリケーションの要素技術としても使われています。今回は機械学習技術を使って固有表現抽出器を作ってみます。 ※注意事項理論的な話は一切出てきません。理論を知りたい方は他を当たってください。対象読者固有表現抽出を少しは知っている方固有表現抽出器を作ってみたい方 Pythonコードを読める方固有表現抽出とは？ここでは、固有表現抽出の概要と方法について説明します。概要固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。具体例を見てみましょう。以下の文から固有表現を抽出してみます。上記の文に含まれる固有表現を抽出すると人名と