[B! nlp] yuku_tのブックマーク

言語処理100本ノック - 東北大学乾研究室 / Inui Lab, Tohoku University

FrontPage / 言語処理100本ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

yuku_t 2012/04/13

リンク

Coursera

This page was hosted on our old techno logy platform. We've moved to our new platform at www.coursera.org. Explore our catalog to see if this course is available on our new platform, or learn more about the platform transition here.

yuku_t 2012/03/19

nlp
labo

リンク

Twitter sentiment analysis using Python and NLTK – Laurent Luce's Blog

This post describes the implementation of sentiment analysis of tweets using Python and the natural language toolkit NLTK. The post also describes the internals of NLTK related to this implementation. Background The purpose of the implementation is to be able to automatically classify a tweet as a positive or negative tweet sentiment wise. The classifier needs to be trained and to do that, we need

yuku_t 2012/03/16

リンク

Tree Edit Distanceと自然言語処理への応用 - Preferred Networks Research & Development

海野です。ちょっと時間があいてしまいましたが、昨年の12月に開催されたNTCIR-9という会議のRecognizing Inference in TExt (RITE)というタスクに、前職の方々と共著で出場しました。 Syntactic Difference Based Approach for NTCIR-9 RITE Task. Yuta Tsuboi, Hiroshi Kanayama, Masaki Ohno and Yuya Unno. NTCIR-9, 2011. [pdf] 含意関係認識といわれるこのタスクは、大雑把に言うと与えられた2つの文が同じ意味のことを言っているかどうか判定しなさいというタスクです（厳密には一方からもう一方が帰結できるかの判定です）。今日は、その中で使ったTree Edit Distance (TED) について解説します。 TEDは2つの順序付き木が

yuku_t 2012/02/13

リンク

自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei

自然言語処理を活用したwebサービス開発に関わって5年以上経った。いい機会なのでこれまでを振り返って役に立ったと思う5冊をメモしておく。 1.珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造まずはこれ。有名な本なので知っている人も多いと思う。簡単に説明するとちょっと前に「フェルミ推定」という名前で流行ったような、データから必要な数値を概算する方法や、問題が起きたときに問題点がどこにあるのか？最小の労力で解決するにはどこをいじればよいのか？などが書いてある。「webサービスで自然言語処理だ！」というと無限に夢が広がりがちなので、どういうデータが使えるのか、それをどういう形にもっていけばイケてるサービスになるのか、それはどのくらいの期間で実現できるか、ということを考える必要がある。そういうわけで本書は真っ先に読むべき一冊なのでは(余談だけれど、以前M << Nなデータに対してO(

yuku_t 2011/10/11

リンク

自然言語処理の定番の教科書まとめ - 武蔵野日記

自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべき本というのと、そこから超えていく本というのは違うものであって、どれだけ研究が進んでも、分

yuku_t 2011/09/03

labo
nlp

リンク

日本語 WordNet (wn-ja)

日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

yuku_t 2011/09/03

labo
nlp

リンク

統計的自然言語処理エンジンStaKK - nokunoの日記

統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。現在の機能かな漢字変換予測変換またはサジェストスペル訂正形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc （Google日本語入力のOSS版）のデータを使っています。リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。ノーマルモードでは、かなを入力し、単語（主に漢字）を出力します。リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。機能ノーマルモードリバースモード Convert かな漢字変換形態素解析 Predict 予測変換検索ワードのサ

yuku_t 2011/09/03

labo
nlp

リンク

Loading...

yuku_t 2011/09/03

labo
nlp

リンク

自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

yuku_t 2011/09/03

リンク

DO++: 機械学習による自然言語処理チュートリアル

自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

yuku_t 2011/09/03

リンク

Pythonによる日本語自然言語処理 #pyconjp

Pythonによる日本語自然言語処理 #pyconjp - Presentation Transcript Python @nokuno #pyconjp •  Python 2.X •  •  •  •  •  @nokuno / id:nokuno •  #TokyoNLP •  Social IME / StaKK •  Web •  Python 2.X Python 2.X / read write UTF-‐8 “ ” decode encode Unicode u” ” # encoding: utf-‐8 u” “ decode encode MeCab•  MeCab•  Python MeCab –  mecab ipadic, mecab-

yuku_t 2011/08/28

リンク

NLTKで日本語コーパスを扱う方法 - nokunoの日記

オライリーの「入門自然言語処理」の12章はHTML版がWebで公開されています．Python による日本語自然言語処理というわけで，NLTKで日本語でコーパスを扱う環境を整えました． NLTKのインストール公式サイトを見ながらインストールする．最新版はNLTK2.0で，オライリーの書籍のときと比べてChasen形式のパーザなどが追加されています．Download - Natural Language Toolkit Mac OSXの場合はPortでもインストールできるらしいのですが，うまくいかなかったのでパッケージをダウンロードしました．コーパスのダウンロードnltk.download()を実行して必要なコーパスをダウンロードします．$ python>>> import nltk>>> nltk.download()jeitaとknbcをダウンロード NLTKを日本語コーパスで使う場合の注

yuku_t 2011/08/22

リンク

pythonによる文字列の正規化 - TorasenLab@はてな

テキストマイニングなどを行うためには文書、文、単語などの文字列の正規化が重要です。単語の大文字小文字の統一、半角全角の統一などをする必要があります。文字列の正規化のために利用しているpythonコードを以下に書いておきます。今後増える可能性もあります。実行環境 Ubuntu 10.04 64ビット python 2.6.5 unicode型に変換する def unicode_ignore_invalid_char(text): if isinstance(text, str): return text.decode('utf-8', 'ignore') return text 変換不能な文字列を無視してstr型からunicode型に変換する。 str型に変換する def str_ignore_invalid_char(text): if isinstance(text, unico

yuku_t 2011/08/06

リンク

映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ？

※この記事には映画「The Social Network」のネタバレがそれなりに含まれています．これから映画を観る予定の方は逃げた方が賢明です．最近ブログで宣言した通り，入門自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中．入門自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい．ところで，少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て，登場人物の台詞や行動がなかなか面白くて気に入ったのだけど，この脚本が映画の公式サイトで公開されていることを最近知った．映画の脚本となると，特徴的な表現が多く文章数もそれなりにあるので，興味深いコーパスになり得るのではないかと思う．というわけで，NLTK習い立ての

yuku_t 2011/05/03

リンク

統計的機械学習入門

統計的機械学習入門(under construction) 機械学習の歴史ppt pdf 歴史以前人工知能の時代実用化の時代導入ppt pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル次元の呪い損失関数, bias, variance, noise データの性質数学のおさらいppt pdf 線形代数学で役立つ公式確率分布情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰正規方程式正規化項の導入線形識別パーセプトロンカーネル法ppt pdf 線形識別の一般化カーネルの構築法最大マージン分類器ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫クラスタリングppt pdf 距離の定義階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

yuku_t 2011/04/25

リンク

LDA入門

2. 内容 • NLPで用いられるトピックモデルの代表である LDA(Latent Dirichlet Allocation)について紹介する • 機械学習ライブラリmalletを使って、LDAを使う方法について紹介する

yuku_t 2011/04/06

リンク

Latent Dirichlet Allocations の Python 実装 - 木曜不足

LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

yuku_t 2011/02/15

リンク

スペル修正プログラムはどう書くか

Peter Norvig / 青木靖訳先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、別に彼らが知っているべき理由はないのだった。間違っていたのは彼らの知識ではなく、私の仮定の方だ。このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの

yuku_t 2010/12/31

nlp
python

リンク

How to Write a Spelling Corrector

One week in 2007, two friends (Dean and Bill) independently told me they were amazed at Google's spelling correction. Type in a search like [speling] and Google instantly comes back with Showing results for: spelling. I thought Dean and Bill, being highly accomplished engineers and mathematicians, would have good intuitions about how this process works. But they didn't, and come to think of it, wh

yuku_t 2010/12/31

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

nlpに関するyuku_tのブックマーク (29)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス