MIERUNE Meetup mini #4( https://mierune.connpass.com/event/257222/ )で使用した発表スライド(一部修正版)
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un
富士通は7月8日、AI(人工知能)を使って新聞などの記事本文を要約するシステムを開発し、企業向けにWebサイト上で試験公開したと発表した。要約したい文章を入力すると、180文字以内と54文字以内の2通りで要約文を作れる。 AIを使った自動記事要約システム。開発したのは、入力した記事全文から重要度の高い文章を抽出して文体を変えずに180字以内の要約を作る「重要文抽出システム」と、重要な文章を抽出した上で、言葉の表現を変えて54文字以内の要約を作る「生成型要約機能」の2つ。 重要文抽出システムは、従来のシステムに比べて人手と同等の精度で要約文章を作れるようになったという。生成型要約機能は、約8万件の記事と要約のデータから単語の削除、語順の変更、言い換えを学習したAIが、文中の単語や接続詞などをつなぎ合わせて要約文を作る。 同社は、新聞記事を人力で要約して他のメディアに配信する新聞社やオウンドメ
自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。 前処理の種類と実装 この節では以下に示す5つ
米Googleは5月12日(現地時間)、機械学習システム「TensorFlow」に統合されたニューラルネットワークフレームワーク「SyntaxNet」をオープンソースで公開したと発表した。GitHubで公開されている。 自然言語理解(NLU)システムの基礎を提供するものという。SyntaxNetには、新たなモデルに学習させるのに必要なすべてのコードと、英語の文章の構文解析のためにGoogleが開発した英文解析ツールの「Parsey McParseface」が含まれる。 Parsey McParsefaceは、言語構造解析方法を学習する強力な機械学習アルゴリズム上に構築されており、文章内の各ワードの機能的役割(動詞、形容詞など)を解析できるという。Parsey McParsefaceは世界で最も正確な構文解析ツールだとGoogleは説明する。 コンピュータにとって、人間の話す自然言語はあまり
雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています. 最終更新 2018年02月03日 チュートリアル 言語処理100本ノック 言語処理100本ノック 2015 東工大の岡崎先生が作られたチュートリアルです. 他大学の研究室でも利用されています. 簡単な内容からはじまるので,プログラミングの導入としてもいいと思います. NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです. Githubにサンプルコードが公開されています. 各チュートリアルにはテストがついているので,実装が正しいかを確かめることができます. 扱っているトピックが広いので,かなり勉強になると思います. ソフト 形態素解析器 日本
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く