[B! NLP] komlowのブックマーク

CS224n: Natural Language Processing with Deep Learning

There were two options for the course project. Students either chose their own topic ("Custom Project"), or took part in a competition to build Question Answering models for the SQuAD challenge ("Default Project"). You can see the in-class SQuAD challenge leaderboard here. The previous year's reports from CS224n 2017 are available here. Prize Winners Congratulations to our prize winners for having

komlow 2018/04/04

nlp

リンク

『自然言語処理の基本と技術』が面白い！ - toricago

スマートスピーカーが日本で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この

komlow 2018/03/04

NLP

リンク

日本語の表記ゆれ解決方法の検討と実装

日本語の表記ゆれを解決する方法について検討し実装方法を紹介する。

komlow 2017/11/20

nlp

リンク

Analyze and Understand Text: Guide to Natural Language Processing - Strumenta

komlow 2017/11/15

nlp

リンク

朝日新聞単語ベクトル

朝日新聞メディアラボ・朝日新聞単語ベクトル本サイトは移転しました。5秒後にジャンプします。ジャンプしない場合は、以下のURLをクリックしてください。移転先のページ

komlow 2017/11/07

nlp
word2vec

リンク

Encoder-decoder 翻訳 (TISハンズオン資料)

cvpaper.challenge のメタサーベイ発表スライドです。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。 http://xpaperchallenge.org/cv/

komlow 2017/10/30

nlp

リンク

Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ

研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上クックパッドで以前から解決したかった課題の一つに材料の名前（以下、材料名）の正規化があります。クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。これは異表記同義（いわゆる表記揺れ）の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。

komlow 2017/10/30

nlp

リンク

テキストマイニングのための機械学習超入門　一夜目 - あんちべ！

テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい（けれど高度な数学は厳しい…）」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの？じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう

komlow 2017/10/23

nlp

リンク

Word2Vec：発明した本人も驚く単語ベクトルの驚異的な力

Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野レコメンド機械翻訳 Q&A・チャットボット感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ参考世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。もしそん

komlow 2017/10/20

word2vec
NLP

リンク

大自然言語時代のための、文章要約 - Qiita

さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 from THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS テキスト、音声、画像、動画といった非構造データの増加を示したグラフそこで注目される技術が、「要約」です。膨大な情報を要点をまとめた短い文章にすることができれば、単純に時間の節約になるだけでなく、多様な視点から書かれた情報を並べて吟味することもできます。本文書は、この文書要約(Text Summarization)についてその概観を示すことを目的として書かれていま

komlow 2017/10/19

nlp

リンク

Aho Corasick 法 - naoyaのはてなダイアリー

適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

komlow 2017/10/10

nlp

リンク

日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

今回はこの言葉の解析をMeCab＋NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。とりあえず実行してみるさっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,, テレビ東京名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京名詞,

komlow 2017/10/10

リンク

日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推

komlow 2017/10/10

リンク

mecab-ipadic-NEologd の効果的な使い方

mecab-ipadic-NEologd は IPA 辞書を拡張した mecab のシステム辞書新語・固有表現などを160万語以上再録 - 読み仮名・原型付きで(異表記の重複込み) 最低月2回アップデート(初旬・中旬) - Apache License 2.0 なOSSなので安心辞書はタスクに応じて使い分けると効果UP !! - 5種類のタスク向けの選択例 + 2つの前処理をご紹介 - NEologd は特徴量作成とテキストマイニングに最適Read less

komlow 2017/10/05

リンク

Conditional Random Fields（CRF）入門その1 -主な参考資料と目的関数- - Topics Related to Computers and NLP

Conditional Random Fields（CRF）がわかりません。何それおいしいの？状態ですが、ここから学習をはじめています。前向きアルゴリズム？後ろ向きアルゴリズム？Viterbiアルゴリズム？どこで使うのそれ？状態ですね。その状態を脱出するため日々奮闘中です。なお、この記事では自分の思考に則って書いていますので、綺麗な教科書的ではないこと（構造学習がなんたら等はあまり触れない）を始めに断っておきます。脱出するために利用している資料は以下の通りです： 1.「日本語入力を支える技術」（以下IME本）：実装する上では一番初心者にやさしい本です。日本語入力を支える技術　?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus) 作者: 徳永拓之出版社/メーカー: 技術評論社発売日: 2012/02/08メディア: 単行本（ソフトカバー）購入: 14人クリック

komlow 2017/10/04

NLP

リンク

CYK法 - Wikipedia

CYK法（英: CYK algorithm）は、ある文字列が与えられた文脈自由文法で生成できるかを決め、生成できる場合の生成方法を求めるアルゴリズムである。CYK は Cocke-Younger-Kasami の略（それぞれ、RISCの先駆と言われる801などでも知られるジョン・コック、Daniel Younger、嵩忠雄である）。文脈自由文法の構文解析手法と捉えることもできる。このアルゴリズムは一種の動的計画法である。標準的なCYK法は、チョムスキー標準形で書かれた文脈自由文法で定義される言語を認識する。任意の文脈自由文法をチョムスキー標準形に書き換えるのはそれほど困難ではないので、CYK法は任意の文脈自由文法の認識に使うことができる。CYK法を拡張してチョムスキー標準形で書かれていない文脈自由文法を扱うようにすることも可能である。これにより性能は向上するが、アルゴリズムを理解すること

komlow 2017/03/24

リンク

自然言語処理における畳み込みニューラルネットワークを用いたモデル - Qiita

はじめに最近、畳み込みニューラルネットワーク(CNN)を用いた自然言語処理が注目を集めています。CNNはRNNと比べて並列化しやすく、またGPUを使うことで畳み込み演算を高速に行えるので、処理速度が圧倒的に速いという利点があります。この記事は、自然言語処理における畳み込みニューラルネットワークを用いたモデルをまとめたものです。CNNを用いた自然言語処理の研究の進歩を俯瞰するのに役立てば幸いです。文の分類(評判分析・トピック分類・質問タイプ分類) Convolutional Neural Networks for Sentence Classification(2014/08) 評判分析や質問タイプの分類などの文分類を行うCNNを提案している論文。具体的には文を単語ベクトルの列として表し、それに対してCNNを用いて特徴抽出・分類を行っている。論文では事前学習済みの単語ベクトル(Goo

komlow 2017/02/06

nlp

リンク

Google、自然言語理解（NLU）の基礎となる「SyntaxNet」をオープンソース化

米Googleは5月12日（現地時間）、機械学習システム「TensorFlow」に統合されたニューラルネットワークフレームワーク「SyntaxNet」をオープンソースで公開したと発表した。GitHubで公開されている。自然言語理解（NLU）システムの基礎を提供するものという。SyntaxNetには、新たなモデルに学習させるのに必要なすべてのコードと、英語の文章の構文解析のためにGoogleが開発した英文解析ツールの「Parsey McParseface」が含まれる。 Parsey McParsefaceは、言語構造解析方法を学習する強力な機械学習アルゴリズム上に構築されており、文章内の各ワードの機能的役割（動詞、形容詞など）を解析できるという。Parsey McParsefaceは世界で最も正確な構文解析ツールだとGoogleは説明する。コンピュータにとって、人間の話す自然言語はあまり

komlow 2016/05/14

google
NLP

リンク

Parsing English with 500 lines of Python

A syntactic parser describes a sentence’s grammatical structure, to help another application reason about it. Natural languages introduce many unexpected ambiguities, which our world-knowledge immediately filters out. A favourite example: They ate the pizza with anchovies A correct parse links “with” to “pizza”, while an incorrect parse links “with” to “eat”: The Natural Language Processing (NLP)

komlow 2014/04/29

Python
NLP

リンク

言語判定へのいざない

5. 53種類の言語 English Deutsch Français Nederlands Italiano Español Polski Русский 日本語 Português Svenska 中文 Українська ‪ orsk (bokmål) Suomi Tiếng Việt Česky N Magyar 한국어 Bahasa Indonesia Türkçe Română ‪‫العربية‬‪‫فارسی‬Dansk Lietuvių Slovenčina ‫עברית‬ Български Slovenščina Hrvatski हिन्दी‪Eesti ไทย‪नेपाल‪ भाषा‪Ελληνικά Tagalog Македонски తెలుగు‪தமிழ்‪ Latviešu Shqip मराठी‪বাাংলা‪Kiswahili ગુજરાતી‪ മ