タグ

NLPに関するhtktyoのブックマーク (59)

  • 日本語構文解析システムKNPのMacPorts - 自然言語処理 on Mac

    KNPのMacPortsを登録しました。 http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html MacPortsを登録するにあたっては、universal buildへの対応が一つポイントかと思います。KNPの場合、デフォルトでTinyCDBを利用しますが、tinycdbのportがuniversal buildに対応していなかったため、まずこちらの更新を依頼した上で、knpのportを申請しました。 KNPはインストール時のオプション設定が充実していて、TinySVMやCRF++が利用できる他、分類語彙表データを利用して並列構造解析の精度向上に役立てることができます。 http://www.ninjal.ac.jp/products-k/kanko/goihyo/ knpのportで分類語彙表データを指定するときは、/tmp/bunruid

    日本語構文解析システムKNPのMacPorts - 自然言語処理 on Mac
    htktyo
    htktyo 2011/05/16
  • スペル訂正エンジンについてのサーベイ #TokyoNLP - nokunoの日記

    というわけで第5回自然言語処理勉強会での発表資料「スペル訂正についてのサーベイ」を公開します。 第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記スペル訂正エンジンについてのサーベイ #TokyoNLP View more presentations from nokuno 紹介した論文A Spelling Correction Program Based on a Noisy Channel ModelAn Improved Error Model for Noisy Channel Spelling CorrectionLearning a Spelling Error Model from Search Query LogsImproving Query Spelling Correction Using Web Search ResultsA Lar

    htktyo
    htktyo 2011/04/24
  • Pythonのプログラマを志したおいらが買ってよかった5冊の本 - あったらしくるえるはてなくしょん

    10冊ねぇじゃねぇか!! この犬やろう!! と、まあ、プログラマが読むべきとかで、なんかいろいろ吹き上がってて大騒ぎみたいなのですが、私は今更と言えば今更ですが、Python がいくつかの特にLL系のプログラミング言語の中で一番好きで、PyのPyのPyって感じで過ごせたらいいなと思って、それじゃ志村けんだけど、まあそのを買ったり、写経したりしてます。ぱいぱい。 いずれも今更のといえばそうだけど、Pythonって、ちょっと殺風景気味で厚くて長いが多いけど、コード多めだし、良訳や良書が多いので、ありがたいです。もちろん、このもおすすめだ!! この犬野郎とかあったら教えてください。お願いします。 他の言語に触れたことがあるなら、クックブックがまずおすすめ。 Python クックブック 第2版 作者: Alex Martelli,Anna Martelli Ravenscroft,

    Pythonのプログラマを志したおいらが買ってよかった5冊の本 - あったらしくるえるはてなくしょん
    htktyo
    htktyo 2011/04/10
  • 統計的機械学習入門

    統計的機械学習入門(under construction) 機械学習歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

    htktyo
    htktyo 2011/02/19
  • NL研 #signl200 まとめ(その2)

    nokuno さんのまとめ( http://togetter.com/li/94088 )があるんですが、twitter API での検索が不調で半分以上の tweet が漏れてる……。自分がまとめて読みたかったので作り直してみました。 多分まだ漏れてるので、気がついたものがあれば追加してもらえると嬉しいです。

    NL研 #signl200 まとめ(その2)
    htktyo
    htktyo 2011/01/30
  • NLP関係のリソースまとめ - nokunoの日記

    先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。 コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス 辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

    htktyo
    htktyo 2010/12/17
  • What are the most important research papers which all NLP students should definitely read? Why?

    Answer (1 of 22): I honestly think that there is no single research paper that every NLPer should read. NLP is such a broad field that no person can specialize in everything, and research papers are, by nature, rather narrowly focused. However, in certain areas, there are classic papers that sho...

    What are the most important research papers which all NLP students should definitely read? Why?
    htktyo
    htktyo 2010/12/13
  • nagoyanlpseminar

    自然言語処理(Natural Language Processing)に関するインフォーマルなセミナーです。 どなたでも参加できます。申し込みは不要です。直接、会場にお越し下さい。 発表者も随時、募集しています。

    htktyo
    htktyo 2010/11/23
  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

    htktyo
    htktyo 2010/11/16
  • 入門 自然言語処理

    自然言語処理(NLP:Natural Language Processing)の実践的な入門書です。「自然言語」とは、英語や日語など人々が日常のコミュニケーションで使う言語のことで、NLPに基づく技術は、モバイル端末におけるテキストの予測や手書き文字認識、検索エンジンにおける統一されていないテキスト内の情報取得、機械翻訳においてはある言語で書かれたテキストの分析と多言語への変換など、広範囲に活用されるようになってきています。書では、NLPの理論的な基礎、理論、応用をバランスよく解説。書の例から学び、実際のプログラムを書き、そして実装することを通して、読者はNLPを始めるための実用的な知識と技術を得られるでしょう。 関連ファイル ダウンロードの場所と使用法 Python による日語自然言語処理(12章の公開版) 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情

    入門 自然言語処理
    htktyo
    htktyo 2010/10/27
  • BLOG::broomie.net: 機械学習の勉強を始めるには

    thriftとかhadoopなど,何やらいろいろと手を出してしまい,ここのところブログの更新が滞ってしまっていますが,今日は前から書きたかったトピックについて自分へのメモの意味も含めて記しておきたいと思います. はじめに 最近,といっても結構前からなのですが,海外のブログなどで「機械学習の勉強を始めるガイドライン」についてのエントリーがいくつか見られ,かつ,議論も少し盛り上がっています.僕は機械学習が好きなだけで,専門というにはほど遠いのですが,僕も一利用者としてはこのトピックに関してはとても興味があります. 機械学習というと,色々な数学的な知識が必要であったり,統計学や人工知能の知識も必要になったりしまったりと,専門的に学ぶ機会が無かった人にとっては興味が湧いてもなかなか始めるには尻込みしてしまうことかと思います.今日紹介するエントリーは,そんな方々にヒントになるような内容になっていると

    htktyo
    htktyo 2010/09/23
  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

    htktyo
    htktyo 2010/09/18
  • Googleに衝撃か。FacebookがLikeボタンに基づく新検索アルゴリズムをテスト中:In the looop:オルタナティブ・ブログ

    一昨日、Facebookが新たな検索アルゴリズムを実験中、とAll Facebook(元記事)が報じた。 具体的にはLikeに基づくページランクによる検索方式で、実際にFacebookの検索窓で試せるようだ。例えばappleと入力すると、最上部には当社岡村直人が最近投稿した「FacebookとApplrに不協和音!?」というブログ記事が表示され、その下に6名がこの記事をシェアしたと表示されている。 ここからも私の友人関係のLikeないしShareが、検索結果に影響を与えているであろうことが推測できる。 記事原文によると、All Facebookはこの検索結果を「友人のLike情報、および全世界のLike情報に基づいたもの」と推測したが、追記内でFacebookから「友人のLike情報を含んだ検索アルゴリズム」であるとの回答を得たようだ。 さらに記事原文では、このアルゴリズムはこの8月31日

    Googleに衝撃か。FacebookがLikeボタンに基づく新検索アルゴリズムをテスト中:In the looop:オルタナティブ・ブログ
    htktyo
    htktyo 2010/09/06
  • 自然言語処理のコードリーディング - 武蔵野日記

    今週は ACL という自然言語処理最大の国際会議がスウェーデンで開催されているのだが、自分は行かない(行けない)ので代わりに今日の勉強会では Thomas Lavergne, Oliver Cappé, François Yvon. Practical Very Large Scale CRFs. ACL-2010. (to appear) を読んでみる。 CRF というのは形態素解析(分かち書き、品詞タグづけ)や固有表現抽出でよく使われるアルゴリズムで、タグをつけるために使う情報(素性)を柔軟に設計できたり、それまでの理論の発展系になっていたり、近年これらのタスクではほぼデファクトスタンダードとして使われている技術である。 しかしながら、CRF は計算量が重い(出力するタグの数に依存)という欠点があり、これを回避する方法がいくつか知られているのだが、この論文の貢献は(しょぼいと言えばその

    自然言語処理のコードリーディング - 武蔵野日記
    htktyo
    htktyo 2010/07/13
  • 言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改

    言語処理のための機械学習入門というが出版される、という話はtwitterで知っていたのだが、8月ぐらいに出るのだろうとばかり思っていたら、なんかもう発売されているらしい。Amazonでは早速売り切れていたので、某大学生協の書籍部まで行って購入してきた。おかげで、この週末は280円で過ごすハメになってしまった。 まだざっと眺めただけだが、 ラベルを人手でつけるのに隠れマルコフモデルと言うのは来はちょっとおかしいんだけどNLPの分野だとそう表現する事が多いよ 対数線形モデルと最大エントロピーモデルは同じものだよ 出力変数の間に依存関係がなければCRFではなく対数線形モデルとか最大エントロピーモデルと表現するべきだよ といった、これまでの教科書にはあまり載っていなかったような事が載っているのはとても良いと感じた。こういった情報は、これまではどこかの大学の研究室で学ぶか、もしくはウェブ上の資料

    言語処理のための機械学習入門を読んだ - 射撃しつつ前転 改
  • 自然言語処理研究のメッカ京大 - 武蔵野日記

    いつも奈良先端大の紹介ばかりしているので、今日は他の大学の紹介もしてみようと思う。 (2013-07-22 追記) 2013年から首都大学東京 (旧都立大学) に自然言語処理の研究室を作ったので、こちらも今後ともどうぞよろしく :-) 高専生の編入、大学院からの入学もウェルカム。 自然言語処理といえば京都大学の長尾先生が有名で、京都大学の総長にまでなった人なのだが、現在は国会図書館の館長をしているので、そちらのほうが有名かもしれない。長尾先生は自然言語処理、特に機械翻訳を大きく進歩させたことで知られており、用例翻訳という手法に言及されるときはほぼ必ず長尾先生の論文が引用されるものである。 ちなみに @yotarowくんから教えてもらったが、今年の ACL (自然言語処理の最難関国際会議)のベストペーパーが発表されているが、ベストペーパーは事態性名詞の研究かな? (修士のころ日語の事態性名

    自然言語処理研究のメッカ京大 - 武蔵野日記
    htktyo
    htktyo 2010/06/12
  • Google IMEという可能性 - nokunoの日記

    先日リリースしたSocial IMEの新しい予測変換エンジンについて書いてみたいと思います。 新変換エンジンは、Googleが提供しているデータを使って開発されました。このデータ形式はNグラムと呼ばれていて、例えば3グラムなら、次のように3つの単語と、それがWeb上に連続して現れた回数(頻度)が記録されています。 単語1単語2単語3頻度今日の天気357935ソフトウェア開発を37191GoogleのNグラムは、抽出元のWeb上の文章が200億文で、解凍後のサイズが100GB以上という大規模な統計データです。最大で7グラム、つまり単語7つの組み合わせで、頻度が20以上のものを全て記録しているので、このように大規模になります。 かな漢字変換における同音異義語の選択、予測変換における入力予測などは、変換結果を一意に決めることができないという点で質的に問題を抱えています。このような曖昧性の問題に

  • Stanford School of Engineering

    Topics: Logistics, Goals Of The Field Of NLP, Is The Problem Just Cycles?, Why NLP Is Difficult? The Hidden Structure Of Language, Why NLP Is Difficult: Newspaper Headlines, Machine Translation, Machine Translation History, Centauri/Arcturan Example Transcript: HTML | PDF

    htktyo
    htktyo 2009/08/28
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

    htktyo
    htktyo 2009/08/28