[B! NLP] TYKのブックマーク

自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷

最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。以下

TYK 2016/03/11

リンク

言語処理100本ノック with Python（第1章） - Qiita

はじめに自然言語処理と Python のトレーニングのため，東北大学の乾・岡崎研究室 Web ページにて公開されている言語処理100本ノックに挑戦していきます．その中で実装したコードや，抑えておくべきテクニック等々をメモしていく予定です．コードについてはGitHubでも公開しています．教科書は『Python入門 2&3対応（細田謙二ら著，秀和システム）』を使用しています．スタートアップに際して参考にさせていただいた記事をご紹介いたします．参考にしすぎてる感も否めないので，不快に感じられたらご連絡ください． http://qiita.com/tanaka0325/it ems/08831b96b684d7ecb2f7 ズブの素人なので記法が統一されてなかったり，Python 2/3 関係が混在していたりと大変お見苦しいのですが，ご指摘いただければ幸いです．実行環境自体は Python 2

TYK 2015/10/11

python
nlp

リンク

自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々

雑にですが，知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました．夏ですし．適宜更新しています．最終更新 2018年02月03日チュートリアル言語処理100本ノック言語処理100本ノック 2015 東工大の岡崎先生が作られたチュートリアルです．他大学の研究室でも利用されています．簡単な内容からはじまるので，プログラミングの導入としてもいいと思います． NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです． Githubにサンプルコードが公開されています．各チュートリアルにはテストがついているので，実装が正しいかを確かめることができます．扱っているトピックが広いので，かなり勉強になると思います．ソフト形態素解析器日本

TYK 2015/08/07

nlp

リンク

スタバのTwitterデータをpythonで大量に取得し、データ分析を試みるその１ - Qiita

from requests_oauthlib import OAuth1Session from requests.exceptions import ConnectionError, ReadTimeout, SSLError import json, datetime, time, pytz, re, sys,traceback, pymongo # from pymongo import Connection # Connection classは廃止されたのでMongoClientに変更 from pymongo import MongoClient from collections import defaultdict import numpy as np KEYS = { # 自分のアカウントで入手したキーを下記に記載 'consumer_key':'**********',

TYK 2015/03/28

リンク

kuromoji.js - Webブラウザ上で分かち書き！ MOONGIFT

テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。 kuromoji.jsの使い方こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。適当な文章をリアルタイムに分かち書きできます。 kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意する

TYK 2014/12/24

JavaScriptで形態素解析

リンク

自然言語処理をなにも知らない私がword2vecを走らせるまで - 最尤日記

googleの中の人たちが作ったword2vecというモノがあります。deep learningを自然言語(N-gram?)に適用することにより単語を100次元くらいのベクトル空間にマップする物だと思います。面白さは以下のベージの通りですが、たったこれだけの事で、ほとんど意味理解の一歩手前まで到達していると思います。 Taku Kudo : word2vec で少し遊んでみた。いわゆる deep… 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。（中略） A B C → X (A → Bの関係に対し、 C → X に当てはまるXを探す) グーグルヤフートヨタ → 日産渋谷新宿札幌 → 旭川警察泥棒正義 → くそ平和戦争左 → 右社員会社生徒 → 小学校空海天井 → 床板生きる死ぬ動く → 止まる・・・ Deep-le

TYK 2014/12/22

MLPR
nlp

リンク

Python による日本語自然言語処理

はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも

TYK 2014/11/04

python
nlp

リンク

– このドメインはお名前.comで取得されています。

このドメインはお名前.com から取得されました。お名前.com は GMOインターネット(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2024年5月時点の調査。

TYK 2014/10/25

リンク

自分の英語文書をマイニングして次に学ぶべき単語リストを自動生成する方法(暦本式語彙増強法) - NextReality

英単語の語彙をどうやって増やしたらいいだろうか。やみくもに単語集みたいなものを順に覚えていくのも道程が長そうだ。また、一般論ではなく自分がよく書く分野に特化して語彙を増やしたい。ということで、テキストマイニングを使ってやる方法を考えてみた。方針は以下の通りである：自分が今までに書いたすべての（英語）の文書を解析して、品詞ごとに出現回数でソートする。つぎに、自分の所属するコミュニティの文書（たとえば自分がよく参加する学会に掲載される論文など）をなるべく大量にあつめて、同じように品詞ごとに出現回数でソートしておく。両者を比較して、そのコミュニティでは使用頻度が高いにも関わらず、まだ使ったことのない単語を抽出して自分専用の「単語集」をつくる。こうやって抽出された単語集を勉強すれば、一般的な単語集を使うよりも効率がいいのではないだろうかという目論みだ。対象となる分野を選んでいるのは、たとえ

TYK 2014/06/24

リンク

Rで自然言語処理。Pixiv小説で単語別の出現数を調べる。 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

TYK 2014/04/18

pixiv
nlp

リンク

ニューラルネットによる単語のベクトル表現の学習〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ

最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール／ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ

TYK 2014/03/12

nlp

リンク

自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！

概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ

TYK 2014/03/10

nlp
python

リンク

手元に置いておくと安心できる、情報系の人向けな日本語の本のリスト - EchizenBlog-Zwei

最近、人に本を薦める事が多くなった。とりあえずこの辺を読むといいですよ的なリストを作っておくと便利だと思ったので作ることにした。以下、「事前知識のいらない入門本」「事前知識はいらないけど本格的な本」「事前知識がないと何言ってるかわからないけど有益な情報が満載な本」の3つにわけて列挙する。事前知識のいらない入門本数式少なめ、脳負荷の小さめな本をいくつか。何をやるにしてもデータ構造、アルゴリズム、数学はやっておくと幸せになれるよ。情報検索と言語処理データマイニングとか自然言語処理とかやりたい人にはとりあえずこれ。さすがに古い話が多くなってきたのでそろそろ新しい入門用情報検索本がでないかなあと思っている。図解・ベイズ統計「超」入門伝説のベイジアン先生がベイズの基礎を教えてくれる本。ベイズやりたい人はこれ。珠玉のプログラミングデータ構造とかアルゴリズムとかの考え方の基礎を教えてく

TYK 2014/02/24

リンク

都立大自然言語処理研究室 - 自然言語処理を学ぶ推薦書籍

自然言語処理を学ぶ推薦書籍を紹介します。2025年3月現在、自然言語処理を取り巻く状況が大きく変わっているため、ここに書かれている情報は極めて古く、記録のために残しておきますが、新しく自然言語処理の勉強をしようという人のための参考にはなりません。 2021年03月時点では、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。（概要）自然言語処理（放送大学出版）（理論）言語処理のための機械学習入門＋深層学習による自然言語処理（実装）Python 機械学習プログラミング第3版自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。（数式なし）自然言語処理の基本と技術（数式あり）自然言語処理（放送大学出版）オライリーから出ている「入門自然言語処理」は特殊な本（詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いてい

TYK 2014/02/23

なんで洋書が無いんだ

python
nlp

リンク

高速文字列解析の"別"世界 - 気ままなブログ

1月に「高速文字列解析の世界」を購入してから半年が経ちました。以下、文字列本と呼びます。高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学) 作者: 岡野原大輔出版社/メーカー: 岩波書店発売日: 2012/12/27メディア: 単行本購入: 15人クリック: 324回この商品を含むブログ (4件) を見る全文検索として、「CSA」や「FM-Index」が紹介されていますが、「全文検索システム」を作るには、これらだけでは不十分です。なぜなら、以下のような特徴があるからです。文書IDの識別が遅い。各文書IDに出現する頻度を求めるのが遅い。ちなみに、転置インデックス(or N-gramインデックス)を使った場合、これらの処理は高速ですね。インデックスを圧縮しているのだからしょうがないとも考えられますが、作りたいですよねぇ、「全文検索システム」。こ

TYK 2013/07/08

nlp

リンク

ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ情報学研究データリポジトリニコニコ動画コメント等データ国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみましたダウンロードの手順以下のページで、名前、メールアドレス、所属を入力すればよいみたいです。情報学研究データリポジトリニコニコ動画コメント等データ申請データの形式行ごとにそれぞれの動画のjsonが書かれたファイルがたくさんあります。コメントのデータもありますが、ユーザーに関する情報はないみたいです動画の説明などにはや、 などのHTMLタグが含まれていましたので、それらの除去が必要になりそうですタグの頻度なんか面白いことできないかなーと考えたんですが、何も思い浮かばなかったので、とりあえ

TYK 2013/06/16

nlp

リンク

Graham Neubig's Teaching

Classes Fall 2025: Inference Algorithms for Language Modeling (CS11-663/763 @ CMU) Spring 2025: Large Language Models and Applications (CS11-967 @ CMU) Fall 2024: Advanced NLP (CS11-711 @ CMU) Spring 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NL

TYK 2013/06/06

python
nlp

リンク

R による文書分類入門 & KNB コーパスの文書分類 - あらびき日記

この記事は abicky.net の R による文書分類入門 & KNB コーパスの文書分類に移行しました

TYK 2013/06/03

R
nlp

リンク

CRAN Task View: Natural Language Processing

Suggestions and improvements for this task view are very welcome and can be made through issues or pull requests on GitHub or via e-mail to the maintainer address. For further details see the Contributing guide. Fridolin Wild (2023). CRAN Task View: Natural Language Processing. Version 2023-09-12. URL https://CRAN.R-project.org/view=NaturalLanguageProcessing. The packages from this task view can b

TYK 2013/01/05

R で使える言語処理パッケージ一覧

nlp
R

リンク

自然言語処理は Python がいちばん - 武蔵野日記

現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

TYK 2012/07/22

python
nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

NLPに関するTYKのブックマーク (29)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス