[B! nlp] tenten0213のブックマーク

tenten0213 id:tenten0213

nlpに関するtenten0213のブックマーク (19)

大規模データ時代に求められる自然言語処理
1. 講演 2012/2/2 @ 東北北⼤大学産学連携講義：先端技術の基礎と実践⼤大規模データ時代に求められる⾃自然⾔言語処理理株式会社Preferred Infrastructure 岡野原⼤大輔 hillbig@preferred.jp 今回の発表内容は個⼈人の意⾒見見であり、会社の意⾒見見ではありません 2. ⾃自⼰己紹介 l  名前：岡野原　⼤大輔 l  経歴： l  福島県いわき市⽣生まれ、磐城⾼高校（ラグビー部） l  東京⼤大学理理科⼀一類→同情報理理⼯工学研究科コンピュータ科学博⼠士課程 2010年年3⽉月終了了、情報理理⼯工学博⼠士（その間未踏2本、ユース1本） l  株式会社プリファードインフラストラクチャー 2006年年創業 l  研究開発チームのリーダー&戦略略&企画&開発&雑⽤用などいろいろ l  専⾨門分野は統計的⾃自然⾔言語処理
tenten0213 2014/06/25
jubatus

nlp

自然言語処理
リンク
形態素解析の過去・現在・未来
2. ⾃自⼰己紹介 l  海野　裕也 (@unnonouno) l  unno/no/uno l  研究開発部⾨門　リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日本アイ・ビー・エム（株）東京基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3
tenten0213 2014/05/16
NLP

自然言語処理

形態素解析
リンク
オントロジーの自動概念追加手法
人工知能学会研究会資料 SIG-SWO-A1303-05 05-01 オントロジーの概念自動追加 An Automatic Ontology Concepts Extension Method 川嵜美波 1 江口由記 1 岩片悠里 1 高田雅美 2 城和貴 2 Minami Kawasaki1 , Yuki Eguchi1 ,Yuri Iwakata1 Masami Takata2 , Kazuki Joe2 1 奈良女子大学大学院人間文化研究科 1 Graduate School of Humanities and Sciences, Nara Women’s University 2 奈良女子大学研究院自然科学系情報科学領域 2 Academic Group of Information and Computer Sciences, Nara Women’s Universi
tenten0213 2014/05/12
オントロジー

rdf

owl

semantic web

nlp

solr

jena
リンク
日本語 WordNet (wn-ja)
日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、
tenten0213 2014/05/12
nlp

自然言語処理

wordnet

辞書

dictionary
リンク
集合とかベクトルの類似度の計算のメモ - 唯物是真 @Scaled_Wurm
Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。類似度の計算のコードを書いたのでそれを載せるだけにしようかと思ったのですが、知っている人にしか伝わりそうにないので自然言語処理でよく使う話の概要だけでも書いときます。導入自然言語処理の分野では単語の意味を比較するときに、ある単語の周り(文脈)に出てきた単語のベクトル(文脈ベクトル)の類似度を計算することがある。これは「ある単語の意味はその周囲に出現する単語によって特徴づけられている」という仮説に基づいていて、文脈ベクトルが似ていれば似たような意味、似たような状況で使われる単語が多いということが言えるからである。 Distributional semantics - Wi
tenten0213 2014/05/01
自然言語処理

nlp

機械学習

類似度
リンク
Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note
入門自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人クリック: 639回この商品を含むブログ (44件) を見る TF・IDF計算自然言語処理の勉強としてTF・IDFによる重要単語の抽出をwikipediaのデータに対して試してみます。TF・IDFを一言でまとめると、とある単語の重要度を出現頻度から計算する手法です。計算結果は重みを表します。TFは単語の出現数(Term Frequency)、IDFは総文書数 / 単語が出現する文書の総数の対数(Inverted Document Frequency)、TFIDFはその積になります。数式にすると以下のようになりますが、Webを検索してみると人によって計算の仕方が異
tenten0213 2014/04/22
Python

NLP

自然言語処理

mecab

tfidf
リンク
Go machine learning & NLP libraries | Biosphe|re
The Go programming language is getting increasingly popular for the purpose of natural language processing. At the moment there seems to be no central directory of useful libraries. Therefore, I decided to publish a list of corresponding packages that I am using or have been stumbled upon. Natural Language Processing go-stem: Go implementation of the Porter stemming algorithm snowball: Cgo wrapper
tenten0213 2014/04/17
machine learning

Go

nlp
リンク
モテる自然言語処理系女子力を磨くための4つの心得 - あんちべ！
1. あえて2〜3世代前の分類器を使うあえて2〜3世代前の分類器を使うようにしましょう。そして飲み会の場で好みの男がいたら話しかけ、わざとらしくWekaを出していじってみましょう。そして「あ〜ん！　この決定木本当にマジでチョームカつくんですけどぉぉお〜！」と言って、男に「どうしたの？」と言わせましょう。言わせたらもう大成功。「C4.5アルゴリズムとか詳しくなくてぇ〜！ずっとコレ使ってるんですけどぉ〜！すぐ過学習するんですぅ〜！ぷんぷくり〜ん（怒）」と言いましょう。だいたいの男は新しい分類器を持ちたがる習性があるので、古かったとしても1世代前の分類器を使っているはずです。そこで男が「新しい分類器にしないの？」と言ってくるはず（言ってこない空気が読めない男はその時点でガン無視OK）。そう言われたらあなたは「なんかなんかぁ〜！　最近C6.0アルゴリズムが人気なんでしょー!?　あれってど
tenten0213 2014/04/11
nlp

自然言語処理
リンク
テキストマイニングのための機械学習超入門　一夜目 - あんちべ！
テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい（けれど高度な数学は厳しい…）」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの？じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう
tenten0213 2014/04/11
自然言語処理

nlp

テキストマイニング
リンク
日本語係り受け解析器 CaboCha Ruby 拡張の基本的な使い方とちょっとした応用 - デー
ari3_botの会話エンジンで使っている自然言語の処理の中から他の方にも有益そうなところだけ書いておこうと思います。このエンジン自体はアドホックにヒーリスティクスな処理を追加しまくっていて、とても説明しにくいのですが、基本的な部分だけ抜き出して……まとめて……解説します。全部実装できるほど詳細な解説はできないので、取っ掛かりになる程度です。ちなみにCaboChaのAPIはきちんとしたドキュメントがない？ようで、僕はソースコードを自分で読んで得た知識から解説を行っています。また日本語文法関する知識もari3_botを作るためだけに得たものであり、あやしいので、あまり信じすぎないようにしてください。もくじです。 ari3_botの会話エンジンとは CaboChaの基本的な使い方 CaboChaで主語と述語っぽいところを抜き出す述語を活用してみるその他のいろいろなヒントまとめ ar
tenten0213 2014/03/31
ruby

nlp

自然言語処理

係り受け解析

CaboCha
リンク
統計的係り受け解析入門
Gradient Boostingは近年Kaggleなどのコンペティションで注目を集めている分類や回帰問題に対するアルゴリズムの一つである。XGBoost, LightGBM, CatBoostなどが有名ではあるが、それらを土台にして近年はDeepGBMやNGBoostといった新規アルゴリズムの登場、汎化理論解析の進展、モデル解釈性の付与方法の多様化など、理論から応用まで多岐にわたる研究が行われている。本チュートリアルでは、Gradient Boostingに関する近年の研究動向やテクニックを、それらの社会実装までを見据えながら紹介していく。
tenten0213 2014/03/20
係り受け

意味解析

nlp

自然言語処理

係り受け解析
リンク
驚異的な解析速度を誇る日本語係り受け解析器J.DepP - 自然言語処理 on Mac
日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって、モデルの学習機能が追加されたことで大変使いやすくなっています。また、J.DepPは線形分類器のpeccoやopalを利用していますが、ベースの分類器が高速化されたことが、そのまま解析器の性能向上につながっているようです：ソフトウェアの更新も一人旅になってきた - ny23の日記このJ.DepPをMacPortsとして登録しました。デフォルトの状態でjdeppをインストールすると、jumandicを参照するMeCabを組み込んだ解析器と、解析済みのブログコーパスであるKNBコーパスを対象とした学習モデルが利用できるようになります：
tenten0213 2014/03/20
自然言語処理

nlp

自然言語

係り受け
リンク
Stanford大学の自然言語処理講座（1-1）NLPの世界へようこそ！ | Synergy Marketing LAB
Stanford大学のNLP（Natural Language Processing＝自然言語処理）の講義をオンラインで見ることができる、ということがわかり、さっそく復習を兼ねて基礎から勉強することにしました。コースの全概要 https://class.coursera.org/nlp/lecture/preview 今回から、私・藤井と、同じく研究開発グループの久保のリレー形式で、このオンライン講義についてのブログを書いてまいります。乞うご期待。 1-1 Course Introduction - Stanford NLP まず初めに。NLPとは何ぞや？というイントロダクションです。ちなみに…私の英語ヒアリング能力は、”Hi! I'm Dan Jurafsky”という最初の挨拶が　“Hi! I'm dangerousなんとか”と聞こえて「センセったら危険な男なのかしら？ムフフ♡」
tenten0213 2014/03/20
NLP
リンク
Coursera
This page was hosted on our old techno logy platform. We've moved to our new platform at www.coursera.org. Explore our catalog to see if this course is available on our new platform, or learn more about the platform transition here.
tenten0213 2014/03/20
NLP

Stanford
リンク
文法圧縮入門：超高速テキスト処理のためのデータ圧縮（NLP2014チュートリアル）
言語処理学会第２０回年次大会（2014/3）のチュートリアル講義資料です。 - 要旨 - 文法圧縮とは，入力テキストをよりコンパクトな文脈自由文法（CFG）に変換する圧縮法の総称である．文法圧縮の強みは圧縮テキストを展開すること無く，検索等のテキスト処理を効率よく行える点にある．驚くべきことにその処理速度は，元テキスト上での同じ処理を理論的に，時には実際にも凌駕する．また近年，ウェブアーカイブやログ，ゲノム配列等の大規模実データを高効率に圧縮できることで注目を集めている．しかしながら，文法圧縮についての初学者向けの解説資料はまだまだ少ない．そこで本チュートリアルでは，文法圧縮の歴史的背景から最新動向までを幅広く紹介する．具体的には文法変換アルゴリズム，圧縮テキスト上での文字列パターン検索，文法圧縮に基づく省メモリデータ構造等の解説を行う．Read less
tenten0213 2014/03/19
nlp

algorithm

compression

圧縮

自然言語処理

アルゴリズム
リンク
NLP4L 0.6.2 API
<noscript> <div>ブラウザのJavaScriptが無効になっています。</div> </noscript> <h2>フレーム関連のアラート</h2> <p>このドキュメントはフレーム機能を使用して表示するように作成されています。フレームを表示できないWebクライアントの場合にこのメッセージが表示されます。<a href="overview-summary.html">フレームに対応していないバージョン</a>にリンクします。</p>
tenten0213 2014/03/19
NLP
リンク
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
1. Jubatusのリアルタイム分散レコメンデーション 2012/02/25@TokyoNLP 株式会社Preferred Infrastructure 海野裕也 (@unnonouno) 2. ⾃自⼰己紹介 l  海野　裕也 (@unnonouno) l  unno/no/uno l  ㈱Preferred Infrastructure 研究開発部 l  検索索・レコメンドエンジンSedueの開発など l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  Jubatus開発者
tenten0213 2014/03/19
機械学習

NLP

recommendation

machine learning

jubatus
リンク
自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！
概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ
tenten0213 2014/03/10
ヤバイ

自然言語処理

Python

nlp

word2vec
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
tenten0213 2014/02/04
Python

自然言語処理

nlp
リンク
1