最新版のJSAI2018でのチュートリアル資料です。 --- 6月7日(木) 13:50-15:30 I会場(2F ロイヤルガーデンA) ---
![[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」](https://cdn-ak-scissors.b.st-hatena.com/image/square/09624b333d227f967b341b68a48730949d056933/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fjsai2018tutorialslideshare-180607030706-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
最新版のJSAI2018でのチュートリアル資料です。 --- 6月7日(木) 13:50-15:30 I会場(2F ロイヤルガーデンA) ---
1. 自然言語とは何か? 言語は、私たちの生活の中に常にあり、また、なくてはならないものです。 そんな日々当たり前に使われる言語を見つめ直し、解析すると、どんな興味深いものが見えてくるのでしょうか。 1-1. 言語の世界とは? 「自然言語処理」の「自然言語」とは何か? 言語には、大きく分けて2種類あり、「コンピュータ言語」と「自然言語」に分けられます。 つまり、「自然言語」とは普段、私たちが日常で会話する言語のことで、「コンピュータ」のための言語と対比した言い方だと言えます。 1-2. コンピュータ言語と自然言語処理の違い 一言でいえば、「解釈が一意であるかどうか」です。 自然言語では、聞き手によって受け取る意味が変わり、日常生活で誤解を生むことは、よく見受けられるかと思います。 これは日本語であろうと、外国語であろうと同じです。 対して、コンピュータ言語は、解釈がたった1通りしか存在しな
こんにちは。ウェブアプリケーションエンジニアのid:syou6162です。 はてな社内で機械学習や自然言語処理に興味のあるエンジニアが集まる機械学習サブ会という技術グループがあるのですが、その機械学習サブ会が主催で言語処理学会第23回年次大会(NLP2017)と第9回データ工学と情報マネジメントに関するフォーラム(DEIM2017)の論文読み会を行ないました。このエントリでは、その中でも特に面白かった論文を簡単にレポートしていきたいと思います。なお、論文PDFは各学会ページで公開されているものを参照しています。 ニュース制作に役立つtweetの自動抽出手法 疑似データの事前学習に基づくEncoder-decoder型日本語崩れ表記正規化 データ拡張による感情分析のアスペクト推定 文体の類似度を考慮したオンライン小説推薦手法の提案 機械学習を用いた航空会社の業務支援システムの開発 このユーザ
自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。 研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。 文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-より また、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。 今回は自然言語処理における基本的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ
はじめに 最近、畳み込みニューラルネットワーク(CNN)を用いた自然言語処理が注目を集めています。CNNはRNNと比べて並列化しやすく、またGPUを使うことで畳み込み演算を高速に行えるので、処理速度が圧倒的に速いという利点があります。 この記事は、自然言語処理における畳み込みニューラルネットワークを用いたモデルをまとめたものです。CNNを用いた自然言語処理の研究の進歩を俯瞰するのに役立てば幸いです。 文の分類(評判分析・トピック分類・質問タイプ分類) Convolutional Neural Networks for Sentence Classification(2014/08) 評判分析や質問タイプの分類などの文分類を行うCNNを提案している論文。 具体的には文を単語ベクトルの列として表し、それに対してCNNを用いて特徴抽出・分類を行っている。論文では事前学習済みの単語ベクトル(Goo
最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。 以下
PyData Tokyo 05 でのLTのプレゼン資料です。 絵文字に対応した mecab-ipadic-NEologd は以下からダウンロードできます。 https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md 以下は資料のまとめです。 - mecab-ipadic-NEologdで絵文字に読みを付与するためのエントリを”試験的”に追加したという話 -mecab-ipadicと併用すれることで、絵文字の読み・原型の文字列で検索が可能になりました - 応用 => 言語処理・音声処理・コンテンツ監視等が考えられます - 今後アノテーションは徐々に改善していきます
※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
自然言語処理を学ぶ推薦書籍を紹介します。2021年03月現在、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。 (概要)自然言語処理(放送大学出版) (理論)言語処理のための機械学習入門+深層学習による自然言語処理 (実装)Python 機械学習プログラミング 第3版 自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。 (数式なし)自然言語処理の基本と技術 (数式あり)自然言語処理(放送大学出版) オライリーから出ている「入門 自然言語処理」は特殊な本(詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いていない)で、Python 2 で書かれているだけでなく、すでに動かなくなったコードも多々あり、2019年時点では読まない方がいい本です。(それでもどうしても、意地でも読みたい人は、本家にある Python 3 対応
はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く