タグ

自然言語処理に関するohnishiakiraのブックマーク (20)

  • 自然言語処理勉強会@東京で発表してきました - 不可視点

    勉強会のなかみはid:hamadakoichiさんががっつりまとめてださっていますのでそちらをご参照ください。 第1回 自然言語処理勉強会@東京 に参加してきた この勉強会は@nokunoさんが発起人と思いますが以下のような範囲(形式)を対象としております。 輪読形式(教科書を1章ずつくらい発表) 論文紹介、手法紹介、ライブラリ紹介など 実装してみました系、コードリーディング、ライブコーディング 実験系、手持ちのデータに適用してみました系 ←今回ここを狙いました 研究紹介、システム紹介、実務経験のシェア その他 自然言語処理勉強会@東京 | Google Groups 私はLDAを利用してつぶやきをタギングしてみようという「やってみた」系の発表をやらせてもらいました。 発表資料 Tokyotextmining#1 kaneyama gentaView more presentations

    自然言語処理勉強会@東京で発表してきました - 不可視点
  • 人工言語で自然言語を解析する楽しみ――『入門 自然言語処理』:晴読雨読@エンジニアライフ:エンジニアライフ

    入門 自然言語処理 Steven Bird、Ewan Klein、Edward Loper (著) 萩原正人、中山敬広、水野貴明 (翻訳) オライリージャパン 2010年11月 ISBN-10: 4873114705 ISBN-13: 978-4873114705 3990円(税込) ■自然言語処理とは 「自然言語処理」(NLP:Natural Language Processing)という言葉をご存じだろうか。自然言語処理は、コンピュータの用途の1つとして、古くから研究されてきたジャンルである。 言葉を分割して考えてみよう。「言語」は自明であるとして、「自然言語」とは何か。 「自然言語」とは、人間が日常のコミュニケーションを取るために使う「言葉」である。単に「言語」といえば、一般的には英語や日語など自然言語のことを指すことがほとんどだろう。まあ、エンジニアが「言語」という場合はRuby

    人工言語で自然言語を解析する楽しみ――『入門 自然言語処理』:晴読雨読@エンジニアライフ:エンジニアライフ
  • HMM, MEMM, CRF まとめ - あらびき日記

    この記事は abicky.net の HMM, MEMM, CRF まとめ に移行しました

    HMM, MEMM, CRF まとめ - あらびき日記
  • 映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?

    ※この記事には映画「The Social Network」のネタバレがそれなりに含まれています.これから映画を観る予定の方は逃げた方が賢明です. 最近ブログで宣言した通り,入門 自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中.入門 自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい. ところで,少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て,登場人物の台詞や行動がなかなか面白くて気に入ったのだけど,この脚映画の公式サイトで公開されていることを最近知った.映画の脚となると,特徴的な表現が多く文章数もそれなりにあるので,興味深いコーパスになり得るのではないかと思う. というわけで,NLTK習い立ての

    映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?
  • いまこそ言語処理を始めるチャンス - コーパスいぢり 〜langstatの研究日誌〜

    私、餡子のためなら逆立ちだってしますよ。 こじらせている。 べたいと思ったらべたいのである。 ここが北カリフォルニアの片田舎であろうと、私があんみつがべたいと思えば、あんみつは今すぐ作ってべなくてはいけないものになる。いしん坊の思考は凄まじい。 子供が観ていたアニメで、赤ちゃんが空の…

    いまこそ言語処理を始めるチャンス - コーパスいぢり 〜langstatの研究日誌〜
  • 最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足

    読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。 さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。 というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。 再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。 半教師CRF "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006) http://www.metabolomics.ca/News/publications/Jiao_et_al

    最近読んだ論文(半教師CRF、教師有りLDA、TextRank) - 木曜不足
  • 日本語係り受けコーパス(JDC)

    概要 日語ウェブコーパス2010(NWC2010)(約1億ウェブページ)より CaboChaを用いて, 助詞を介した語と語の係り受けを抽出したものです. 類似のコーパスとしてALAGINの日語係り受けデータベースがあります. コーパスでは次のような形で収録されています. NCV (名詞) (助詞) (動詞) 338,092,129種類(約3.3億ユニークペア) レビュー を お送りする 496 テレクラ で いる 6 大気 が 存続する 1 化量 を 言う 1 Private と 定義する 1 けんぎゅうか が 伝来される 2 プロテスタンティズム を 生み出す 1 脳内 で アップされる 6 NCN (名詞) (助詞) (名詞) 166,724,808種類(約1.6億ユニークペア) 司会 が 仕事 25 こころ という ちよ 1 場所 から 大筒 1 見直し へ 訴訟 3 ここ

  • Loading...

  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

  • Perl で自然言語処理

    2. 私(佐藤敏紀)の自己紹介名前:佐藤敏紀(さとうとしのり)ID : overlast(Twitter : @overlast)key : 自然言語処理/機械学習/検索/圧縮/順序学習blog : Overlasting::Life(http://diary.overlasting.net/) 略歴2005年4月〜2008年3月:東工大の奥村研究室自然言語処理(比較関係抽出)の研究2008年5月〜:某大手ポータルサイト自然言語処理・機械学習技術をWeb文書に応用類似文字列検索ライブラリの研究・開発スペル訂正システムの研究・開発2

    Perl で自然言語処理
  • スタンフォード大学の自然言語処理(NLP)の授業公開っぷりがとてつもない件 - Unchained Life

    以前からMITのOCWを中心にアメリカの大学の授業のビデオや資料などが公開されているのは知っていたが、今日知ったスタンフォード大学の授業公開っぷりがものすごい。 http://see.stanford.edu/SEE/lecturelist.aspx?coll=63480b48-8819-4efd-8412-263f1a472f5a 授業のビデオだけではなく、なんと授業のtranscript、つまり授業中に先生がしゃべったことがテキストに書き起こされているのだ。 MITなどでも授業のビデオは公開されていたが、当然授業の内容を理解するには授業資料がある場合にせよ、何をしゃべっているかを自分で聞き取るほか無く、リスニング力が低い僕には結構ネックだった。 それが今回しゃべる内容がテキストになっているということで聞き取れなくてもテキストを見ればよいし、リスニングの勉強にもなる。 しかも公開されてい

    スタンフォード大学の自然言語処理(NLP)の授業公開っぷりがとてつもない件 - Unchained Life
  • NLP2010 言語処理学会チュートリアル - DO++

    今日から開催されている言語処理学会のチュートリアルで ”超高速テキスト処理のためのアルゴリズムとデータ構造” というタイトルで発表させていただきました。 チュートリアル資料はこちら(pdf)です。(出典などは適宜追加します) 今までいろいろなところで話してきた、オンライン学習、文字列、疎ベクトルデータ構造を最新の話を追加して、さらに乱択化(Hash Kernel, 乱択化SVD)を解説しています。 発表自体は途中でブルースクリーンが出るということもありましたが、なんとか終えられてよかったです。 これに付随していろいろツールを公開する予定だったがまにあわなかった。そのうち公開します

    NLP2010 言語処理学会チュートリアル - DO++
  • Não Aqui! » SimString (類似文字列検索ライブラリ) 1.0 released

    SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基中の基で,自然言語処理では当たり前のように使われていてもおかしくな

    ohnishiakira
    ohnishiakira 2010/03/09
    SimString(類似文字列検索ライブラリ)
  • 単語感情極性対応表

    単語感情極性対応表 日語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品

  • 転置インデックスを実装しよう - mixi engineer blog

    相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。 デモ モチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。 インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら(テンプレートはこちら)です。 でも、今回はUIの話ではないのです。ものすごく地味に、全文検索

    転置インデックスを実装しよう - mixi engineer blog
  • 教師なし形態素解析 - mots quotidiens.

    LaTeXのメモ。 LaTeXのtabularを見やすくするために, セルに色をつけたい時は colortblパッケージ を使えばよいらしい。 \usepackage{colortbl}してから, \cellcolor[gray]{0.7} 内容 & .. とか \cellcolor[rgb]{0.2,0.7,0.9} 内容 & .. のようにすればOK。 ただし, こうすると\clineを使って罫線を部分的に引いている時に, 罫線が色で上書きされてしまう(!)。 これは難しいですね的議論があったが, さらに調べるとCTANの colortblのページ の文書に対処法が書いてあって, そもそも \cline を使わずに, hhlineパッケージ を使えとのこと。 \usepackage{hhline}しておいてから, \cline{2-4}(たとえば) の代わりに, \hhline{~--

  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 大規模データからの機械学習と自然言語処理への応用 - 人工知能学会基本問題研究会 - 武蔵野日記

    人工知能学会基問題研究会というのに参加してきた(リンク先、next.html なんて名前なので、将来的に切れると思うが……)。この研究会、毎年1月は情報処理学会の自然言語処理研究会(通称 NL 研)と共催される研究会で、自然言語処理の中でも機械学習っぽいのはここでも発表されるようなのだが、参加したのは初めて。このあたりの国内の自然言語処理関係の学会については shimpei-m くんがまとめているので、そちらを参照されたい。 さて研究会のほうなのだが、特集が「大規模データからの機械学習と自然言語処理への応用」ということで、招待講演が 鍜治伸裕氏(東京大学生産技術研究所)「テキストからの評判分析と機械学習」 近年のCGMの爆発的な普及に伴って,テキストデータから特定の製品に関する評判を自動的に抽出して集約するための技術が注目を集めている.こうした技術は評判分析と呼ばれ,特に自然言語処理など

    大規模データからの機械学習と自然言語処理への応用 - 人工知能学会基本問題研究会 - 武蔵野日記
  • 自然言語処理関連の学会・研究会 (国内編) - まきもと@ねっとわーく

    ものすごくご無沙汰のエントリになります*1。春ということで、これから自然言語処理を始めようという方もたくさんいると思います。そういった方々がどのような学会や研究会を調べれば良いのか紹介したいと思います。 自然言語処理は機械学習人工知能、データベース、言語学、認知心理学、音声言語処理などの境界分野としての側面もあるので、一概にどこからどこまでが自然言語処理の範疇であると明言はできませんが、取り敢えず、メイントピックとして自然言語処理を掲げていて、NLPの研究者が関わるであろう団体を並べています。 言語処理学会 (NLP)その名の通り、自然言語処理をメイントピックとして扱う学会です。ジャーナル『自然言語処理』の刊行と年に一度の言語処理学会年次大会の開催を行なっています。年次大会には国内 (と一部国外) の自然言語処理研究者が集まる国内最大規模の自然言語処理を中心とした会議です。発表は査読なし

  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
  • 1