[B! NLP] htktyoのブックマーク

日本語構文解析システムKNPのMacPorts - 自然言語処理 on Mac

KNPのMacPortsを登録しました。 http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html MacPortsを登録するにあたっては、universal buildへの対応が一つポイントかと思います。KNPの場合、デフォルトでTinyCDBを利用しますが、tinycdbのportがuniversal buildに対応していなかったため、まずこちらの更新を依頼した上で、knpのportを申請しました。 KNPはインストール時のオプション設定が充実していて、TinySVMやCRF++が利用できる他、分類語彙表データを利用して並列構造解析の精度向上に役立てることができます。 http://www.ninjal.ac.jp/products-k/kanko/goihyo/ knpのportで分類語彙表データを指定するときは、/tmp/bunruid

htktyo 2011/05/16

NLP

リンク

スペル訂正エンジンについてのサーベイ #TokyoNLP - nokunoの日記

というわけで第5回自然言語処理勉強会での発表資料「スペル訂正についてのサーベイ」を公開します。第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記スペル訂正エンジンについてのサーベイ #TokyoNLP View more presentations from nokuno 紹介した論文A Spelling Correction Program Based on a Noisy Channel ModelAn Improved Error Model for Noisy Channel Spelling CorrectionLearning a Spelling Error Model from Search Query Log sImproving Query Spelling Correction Using Web Search ResultsA Lar

htktyo 2011/04/24

NLP

リンク

Pythonのプログラマを志したおいらが買ってよかった5冊の本 - あったらしくるえるはてなくしょん

10冊ねぇじゃねぇか!! この犬やろう!! と、まあ、プログラマが読むべき本とかで、なんかいろいろ吹き上がってて大騒ぎみたいなのですが、私は今更と言えば今更ですが、Python がいくつかの特にLL系のプログラミング言語の中で一番好きで、PyのPyのPyって感じで過ごせたらいいなと思って、それじゃ志村けんだけど、まあその本を買ったり、写経したりしてます。ぱいぱい。いずれも今更の本といえばそうだけど、Python の本って、ちょっと殺風景気味で厚くて長い本が多いけど、コード多めだし、良訳や良書が多いので、ありがたいです。もちろん、この本もおすすめだ!! この犬野郎とかあったら教えてください。お願いします。他の言語に触れたことがあるなら、クックブックがまずおすすめ。 Python クックブック第2版作者: Alex Martelli,Anna Martelli Ravenscroft,

htktyo 2011/04/10

NLP

リンク

統計的機械学習入門

統計的機械学習入門(under construction) 機械学習の歴史ppt pdf 歴史以前人工知能の時代実用化の時代導入ppt pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル次元の呪い損失関数, bias, variance, noise データの性質数学のおさらいppt pdf 線形代数学で役立つ公式確率分布情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰正規方程式正規化項の導入線形識別パーセプトロンカーネル法ppt pdf 線形識別の一般化カーネルの構築法最大マージン分類器ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫クラスタリングppt pdf 距離の定義階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

htktyo 2011/02/23

リンク

第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

というわけで参加してきました。第1回にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました（入るまでが大変でしたが‥）。Python Hack-a-thon 201

htktyo 2011/02/19

NLP

リンク

NL研 #signl200 まとめ(その２)

nokuno さんのまとめ( http://togetter.com/li/94088 )があるんですが、twitter API での検索が不調で半分以上の tweet が漏れてる……。自分がまとめて読みたかったので作り直してみました。多分まだ漏れてるので、気がついたものがあれば追加してもらえると嬉しいです。

htktyo 2011/01/30

NLP

リンク

NLP関係のリソースまとめ - nokunoの日記

先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

htktyo 2010/12/17

NLP

リンク

What are the most important research papers which all NLP students should definitely read? Why?

Answer (1 of 20): I honestly think that there is no single research paper that every NLPer should read. NLP is such a broad field that no person can specialize in everything, and research papers are, by nature, rather narrowly focused. However, in certain areas, there are classic papers that sho...

htktyo 2010/12/13

NLP

リンク

nagoyanlpseminar

自然言語処理(Natural Language Processing)に関するインフォーマルなセミナーです。どなたでも参加できます。申し込みは不要です。直接、会場にお越し下さい。発表者も随時、募集しています。第79回 7月17日(木曜日) 17:00-18:30@名古屋大学IB電子情報館中棟015講義室言語モデルの推論時に何が出来るか陣内佑（CyberAgent）大規模言語モデルはより大きなデータセットで学習することによって、より幅広いタスクに利用できることが知られています。近年では、学習時だけでなく、推論時（テキストを生成する時）にもより多くの計算資源を用いることで、新しいタスクが解けるようにする手法が注目されています。このトークでは推論時の工夫の一つである、Minimum Bayes Risk (MBR) Decodingについて紹介をし、どのような問題解決に使えるかを紹介

htktyo 2010/11/23

NLP

リンク

入門自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。免責事項プライバシーポリシー「入門自然言語処理」はヤバい書籍なので禁書にすべきだ。タイトルは釣りじゃない。その理由を10個挙げる。自然言語処理のかなり基本的なことからそこそこ高度なことについて解説されてあり，自然言語処理について理解が深まり過ぎるボリュームがあるのに書き方が平易でついつい読みふけってしまう演習問題があり，自分の理解度を確かめられたりするのもケシカラン原著は欧米語のための言語処理について書かれた書籍なのに，日本語の形態素解析などについても解説してあって我慢できない必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい書籍の応用でBotとか人工無能とか作ったらどうかな−，と

htktyo 2010/11/16

NLP

リンク

入門自然言語処理

自然言語処理（NLP：Natural Language Processing）の実践的な入門書です。「自然言語」とは、英語や日本語など人々が日常のコミュニケーションで使う言語のことで、NLPに基づく技術は、モバイル端末におけるテキストの予測や手書き文字認識、検索エンジンにおける統一されていないテキスト内の情報取得、機械翻訳においてはある言語で書かれたテキストの分析と多言語への変換など、広範囲に活用されるようになってきています。本書では、NLPの理論的な基礎、理論、応用をバランスよく解説。本書の例から学び、実際のプログラムを書き、そして実装することを通して、読者はNLPを始めるための実用的な知識と技術を得られるでしょう。関連ファイルダウンロードの場所と使用法 Python による日本語自然言語処理（12章の公開版）正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情

htktyo 2010/10/27

NLP

リンク

BLOG::broomie.net: 機械学習の勉強を始めるには

thriftとかhadoopなど，何やらいろいろと手を出してしまい，ここのところブログの更新が滞ってしまっていますが，今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います．はじめに最近，といっても結構前からなのですが，海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ，かつ，議論も少し盛り上がっています．僕は機械学習が好きなだけで，専門というにはほど遠いのですが，僕も一利用者としてはこのトピックに関してはとても興味があります．機械学習というと，色々な数学的な知識が必要であったり，統計学や人工知能の知識も必要になったりしまったりと，専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います．今日紹介するエントリーは，そんな方々にヒントになるような内容になっていると

htktyo 2010/09/23

NLP

リンク

N-gram コーパス - 日本語ウェブコーパス 2010

概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ

htktyo 2010/09/18

NLP

リンク

Googleに衝撃か。FacebookがLikeボタンに基づく新検索アルゴリズムをテスト中：In the looop：オルタナティブ・ブログ

一昨日、Facebookが新たな検索アルゴリズムを実験中、とAll Facebook(元記事)が報じた。具体的にはLikeに基づくページランクによる検索方式で、実際にFacebookの検索窓で試せるようだ。例えばappleと入力すると、最上部には当社岡村直人が最近投稿した「FacebookとApplrに不協和音！？」というブログ記事が表示され、その下に6名がこの記事をシェアしたと表示されている。ここからも私の友人関係のLikeないしShareが、検索結果に影響を与えているであろうことが推測できる。記事原文によると、All Facebookはこの検索結果を「友人のLike情報、および全世界のLike情報に基づいたもの」と推測したが、追記内でFacebookから「友人のLike情報を含んだ検索アルゴリズム」であるとの回答を得たようだ。さらに記事原文では、このアルゴリズムはこの8月31日

htktyo 2010/09/06

NLP

リンク

自然言語処理のコードリーディング - 武蔵野日記

今週は ACL という自然言語処理最大の国際会議がスウェーデンで開催されているのだが、自分は行かない(行けない)ので代わりに今日の勉強会では Thomas Lavergne, Oliver Cappé, François Yvon. Practical Very Large Scale CRFs. ACL-2010. (to appear) を読んでみる。 CRF というのは形態素解析(分かち書き、品詞タグづけ)や固有表現抽出でよく使われるアルゴリズムで、タグをつけるために使う情報(素性)を柔軟に設計できたり、それまでの理論の発展系になっていたり、近年これらのタスクではほぼデファクトスタンダードとして使われている技術である。しかしながら、CRF は計算量が重い(出力するタグの数に依存)という欠点があり、これを回避する方法がいくつか知られているのだが、この論文の貢献は(しょぼいと言えばその

htktyo 2010/07/13

NLP

リンク

言語処理のための機械学習入門を読んだ - 射撃しつつ前転改

言語処理のための機械学習入門という本が出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。まだざっと眺めただけだが、ラベルを人手でつけるのに隠れマルコフモデルと言うのは本来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ対数線形モデルと最大エントロピーモデルは同じものだよ出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよといった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

htktyo 2010/07/12

リンク

自然言語処理研究のメッカ京大 - 武蔵野日記

いつも奈良先端大の紹介ばかりしているので、今日は他の大学の紹介もしてみようと思う。 (2013-07-22 追記) 2013年から首都大学東京 (旧都立大学) に自然言語処理の研究室を作ったので、こちらも今後ともどうぞよろしく :-) 高専生の編入、大学院からの入学もウェルカム。自然言語処理といえば京都大学の長尾先生が有名で、京都大学の総長にまでなった人なのだが、現在は国会図書館の館長をしているので、そちらのほうが有名かもしれない。長尾先生は自然言語処理、特に機械翻訳を大きく進歩させたことで知られており、用例翻訳という手法に言及されるときはほぼ必ず長尾先生の論文が引用されるものである。ちなみに @yotarowくんから教えてもらったが、今年の ACL (自然言語処理の最難関国際会議)のベストペーパーが発表されているが、ベストペーパーは事態性名詞の研究かな? (修士のころ日本語の事態性名

htktyo 2010/06/12

NLP

リンク

Google IMEという可能性 - nokunoの日記

先日リリースしたSocial IMEの新しい予測変換エンジンについて書いてみたいと思います。新変換エンジンは、Googleが提供しているデータを使って開発されました。このデータ形式はNグラムと呼ばれていて、例えば3グラムなら、次のように3つの単語と、それがWeb上に連続して現れた回数（頻度）が記録されています。　単語１単語2単語3頻度今日の天気357935ソフトウェア開発を37191GoogleのNグラムは、抽出元のWeb上の文章が200億文で、解凍後のサイズが100GB以上という大規模な統計データです。最大で7グラム、つまり単語7つの組み合わせで、頻度が20以上のものを全て記録しているので、このように大規模になります。かな漢字変換における同音異義語の選択、予測変換における入力予測などは、変換結果を一意に決めることができないという点で本質的に問題を抱えています。このような曖昧性の問題に

htktyo 2009/12/04

NLP
Google

リンク

Stanford School of Engineering

Topics: Logistics, Goals Of The Field Of NLP, Is The Probl em Just Cycles?, Why NLP Is Difficult? The Hidden Structure Of Language, Why NLP Is Difficult: Newspaper Headlines, Machine Translation, Machine Translation History, Centauri/Arcturan Example Transcript: HTML | PDF

htktyo 2009/08/28

NLP

リンク

日本語 WordNet (wn-ja)

日本語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English 本プロジェクトでは、 Princeton WordNet や Global WordNet Gridに着想をえて、日本語のワードネットを構築し、オープンで公開します。独立行政法人情報通信研究機構（NICT）では、自然言語処理研究をサポートする一環として、2006年に日本語ワードネットの開発を開始しました。最初の版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日本語をつけています。もちろん、 Princeton WordNetにはない日本語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

htktyo 2009/08/28

NLP

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

NLPに関するhtktyoのブックマーク (59)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス