[B! Programming][nlp] beth321のブックマーク

beth321 id:beth321

Programmingとnlpに関するbeth321のブックマーク (20)

言語処理100本ノック 2015
言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています
beth321 2015/03/13
プログラミング

NLP

データ分析

あとで読む

学習

データ

Programming

python

自然言語処理

機械学習
リンク
自然言語処理をなにも知らない私がword2vecを走らせるまで - 最尤日記
googleの中の人たちが作ったword2vecというモノがあります。deep learningを自然言語(N-gram?)に適用することにより単語を100次元くらいのベクトル空間にマップする物だと思います。面白さは以下のベージの通りですが、たったこれだけの事で、ほとんど意味理解の一歩手前まで到達していると思います。 Taku Kudo : word2vec で少し遊んでみた。いわゆる deep… 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。（中略） A B C → X (A → Bの関係に対し、 C → X に当てはまるXを探す) グーグルヤフートヨタ → 日産渋谷新宿札幌 → 旭川警察泥棒正義 → くそ平和戦争左 → 右社員会社生徒 → 小学校空海天井 → 床板生きる死ぬ動く → 止まる・・・ Deep-le
beth321 2015/01/08
c

テキストマイニング

word2vec

自然言語処理

TextMining

nlp

google

機械学習

deep learning

programming
リンク
漢数字が数字順にソートされない理由を調べてみた - give IT a try
はじめに：「なぜ漢数字は数字順に並ばない！？」先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。（執筆時点で50件以上）「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。いや、もちろんそれはわかってるんです。問題は「そもそもなんで数字順に文字コードを振らなかったの！？」ということです。感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」
beth321 2014/12/04
プログラミング

文字コード

あとで読む

NLP

IT

ソート

programming

日本語

web

トリビア
リンク
Amazon.co.jp: 集合知イン・アクション: Satnam Alag (著), 堀内孝彦 (翻訳), 真鍋加奈子 (翻訳), 真鍋和久 (翻訳): 本
beth321 2014/11/17
ブログ

nlp

本

book

集合知

本

programming

java

recommendation

欲しい
リンク
レーベンシュタイン距離 - Wikipedia
レーベンシュタイン距離（レーベンシュタインきょり、英: Levenshtein distance）は、二つの文字列がどの程度異なっているかを示す距離の一種である。編集距離（へんしゅうきょり、英: edit distance）とも呼ばれる。具体的には、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数として定義される[1]。名称は、1965年にこれを考案したロシアの学者ウラジーミル・レーベンシュタイン (露: Влади́мир Левенште́йн) にちなむ。レーベンシュタイン距離は、同じ文字数の単語に対する置換編集に使われているハミング距離の一般化であると見なすことが可能である。レーベンシュタイン距離の更なる一般化として、例えば一回の操作で二文字を変換する等の方法が考えられる。実際的な距離の求め方を例示すれば、「kitten」を「s
beth321 2014/11/08
algorithm

編集距離

アルゴリズム

math

レーベンシュタイン距

wikipedia

プログラミング

search

Programming

nlp
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
beth321 2014/11/05
Python

japan

programming

自然言語処理

ホットエントリ

あとで

NLP

日本語

あとで読む

TextMining
リンク
第5回 N-gramのしくみ | gihyo.jp
前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字：ユニグラム 2文字：バイグラム 3文字：トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS
beth321 2014/10/27
ngram

nlp

DB

n-gram

algorithm

search

形態素解析

検索

programming

検索エンジン
リンク
Amazon CAPTCHA
beth321 2014/09/30
amazon

本

book

nlp

books

algorithm

programming

書籍

本

テキストマイニング
リンク
第3回　ベイジアンフィルタを実装してみよう | gihyo.jp
さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。ベイジアンフィルタの実装ここから本格的にベイジアンフィルタの実装に入っていきます。その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。リスト2　文章の分割をする関数（naivebayes.py） # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)
beth321 2014/09/26
プログラミング

機械学習

python

bayes

アルゴリズム

あとで読む

nlp

ペイジアンフィルタ

programming

algorithm
リンク
Amazon.co.jp: 入門自然言語処理: Steven Bird (著), Ewan Klein (著), Edward Loper (著), 萩原正人 (翻訳), 中山敬広 (翻訳), 水野貴明 (翻訳): 本
beth321 2014/09/24
本

Python

book

自然言語処理

nlp

本

programming

amazon

プログラミング

*買うかも
リンク
都立大自然言語処理研究室 - 自然言語処理を学ぶ推薦書籍
自然言語処理を学ぶ推薦書籍を紹介します。2021年03月現在、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。（概要）自然言語処理（放送大学出版）（理論）言語処理のための機械学習入門＋深層学習による自然言語処理（実装）Python 機械学習プログラミング第3版自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。（数式なし）自然言語処理の基本と技術（数式あり）自然言語処理（放送大学出版）オライリーから出ている「入門自然言語処理」は特殊な本（詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いていない）で、Python 2 で書かれているだけでなく、すでに動かなくなったコードも多々あり、2019年時点では読まない方がいい本です。（それでもどうしても、意地でも読みたい人は、本家にある Python 3 対応
beth321 2014/02/23
Python

*アカデミック・スキル

アルゴリズム

自然言語処理

機械学習

nlp

programming

book

本

テキストマイニング
リンク
「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei
「高速文字列解析の世界」という大変すばらしい本が発売された。わりと敷居が高い本ではあるので読む前に知っておくとよさそうなことを書いておく。「高速文字列解析」とは本書でいう高速文字列解析というのは主に2つのことを指している。ひとつはデータを圧縮して小さくしてディスクよりメモリ、メモリよりキャッシュというようにより高速な記憶装置で扱いましょう、という話。もうひとつはデータ構造を工夫することで複雑な操作もそこそこ高速に扱えますよ、という話。つまり「圧縮」の話と「効率的なデータ構造」の話があると考えておくと良い。キーワードは3つオビにも書いてあるけれど、本書が主に扱うのは「BWT」「簡潔データ構造」「ウェーブレット木」の3つ。具体的には「BWT」が「圧縮」に関わっていて「ウェーブレット木」が「効率的なデータ構造」に関わっている。「簡潔データ構造」は基本的な道具として本書の色々なところで出て
beth321 2013/01/09
algorithm

programming

book

NLP

本

compression

アルゴリズム

メモリ

データ構造

あとで読む
リンク
ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー
あまり細かいことは気にせずテキスト分類器のRubyライブラリを1コマンドで自動生成する便利ツールを作りました。いろいろ迷走している間に。 gem install nekoneko_genでインストールできます。なにをするものなのか、ちょっと分かりにくいので、例で説明します。２ちゃんねるの投稿からどのスレッドの投稿か判定するライブラリを生成する例として、２ちゃんねるに投稿されたデータから、投稿（レス）がどのスレッドのレスか判定するライブラリを生成してみます。準備まず gem install nekoneko_genでインストールします。 Ruby 1.8.7でも1.9.2でも動きますが1.9.2のほうが5倍くらい速いので1.9.2以降がおすすめです。環境は、ここではUbuntuを想定しますが、Windowsでも使えます。（WindowsXP, ruby 1.9.3p0で確認）
beth321 2012/05/29
ruby

テキスト分類器

ruby

nlp

テキスト・マイニング

gem

programming

機械学習

nekoneko_gen

textmining
リンク
入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD
みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と
beth321 2012/04/24
python

自然言語処理

プログラミング

book

programming

本

nlp

書籍

書評

入門
リンク
言語処理100本ノック - 東北大学乾研究室 / Inui Lab, Tohoku University
FrontPage / 言語処理100本ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige
beth321 2012/04/14
プログラミング

自然言語処理

NLP

Python

Programming

あとで読む

linux

言語処理

研究

コマンド
リンク
スペル修正プログラムはどう書くか
Peter Norvig / 青木靖訳先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、別に彼らが知っているべき理由はないのだった。間違っていたのは彼らの知識ではなく、私の仮定の方だ。このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの
beth321 2012/04/13
algorithm

programming

Python

プログラミング

アルゴリズム

google

自然言語処理

統計

あとで読む

nlp
リンク
ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に「日本語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに？」という方もいると思うので、以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日本語をコンピューターで処理するには、まず形態素解析というのをやって、文を形態素（≒単語）単位に分割します。 YDN の「日本語形態素解析 Webサービス」[2007-06-18-1] で試すことができ
beth321 2012/04/12
api

形態素解析

Yahoo

自然言語処理

Perl

programming

nlp

webサービス

Yahoo!

language
リンク
マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。（素晴らしい情報に感謝です！） MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ
beth321 2012/03/20
algorithm

ruby

mecab

Programming

自然言語処理

マルコフ連鎖

形態素解析

プログラミング

アルゴリズム

nlp
リンク
情報系修士にもわかるダブル配列 - アスペ日記
最近話題の「日本語入力を支える技術」を途中まで読んだ。 3章がものすごく気合いが入っている。 trie（トライ）というデータ構造の2つの実装、「ダブル配列」と「LOUDS」について詳しく説明がされている。ダブル配列については、ぼくは以前論文を読んで勉強しようとしたのだが、その時は難しくてあきらめた覚えがある。しかし、この本の説明を読むことで理解ができた。ありがたい。感銘を受けたので、この本を教材に友達と2人勉強会をした。この2人勉強会というのは、ぼくが復習を兼ねて友達に教えるというのがだいたいのスタイル。しかし、いざやってみるといろいろと難しい。次のようなところでひっかかるようだ。例のサイズが小さく、イメージを喚起するのが難しい。最初の図のノード番号と、最終的なダブル配列上の位置が異なるため、混乱する。単語終端について言及がないので、どのノードが単語を表しているかがわから
beth321 2012/02/20
*あとで読む

algorithm

アルゴリズム

programming

あとで読む

NLP
リンク
電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術 : 404 Blog Not Found
2012年02月09日02:15 カテゴリ書評/画評/品評SciTech 電脳的ラスボス言語の攻略 - 書評 - 日本語入力を支える技術出版社より献本御礼。日本語入力を支える技術徳永拓之いい時代になったものだ。コンピューターで扱うのに最も難解な言語の一つである日本語の取り扱い方を、書籍で学べるなんて。しかしこうして本で読んでみると、改めてすごいことだと思う。この難問から、我々が逃げずに取り組んで来たことに。本書「日本語入力を支える技術」は、今や「出来て当たり前」となった電脳に対する日本語入力を中心に、電脳で日本語をどう扱うのか、どこまで扱えるのかを簡潔(succinct)にまとめた一冊。さすがPFIの中の人が著者だけあって、本書自体が簡潔データ構造で記述されているのではないかというぐらい中身の濃い一冊で、本 blogで取り上げる本の中では最もページ密度の高い本の一つである。
beth321 2012/02/09
ASCII

Blog

book

books

algorithm

書評

本

書籍

nlp

Programming
リンク
1