タグ

自然言語処理に関するgamiのブックマーク (5)

  • perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary

    すみません。タイトルはやや釣り気味です。 類似検索エンジンというか、そのアイデア程度の話なんですが、以前から考えていた類似検索エンジン風のネタがあったので、ちょっとperlで書いてみたので、そいつを晒してみます。 Luigi   https://github.com/miki/Luigi 類似検索なのでLuigi。ルイージとか読みたい人はそう読んじゃっても良いです。(冷) 考え方と仕組み 類似文書の検索、となりますと一般的には超高次元での空間インデックスとかが必要になります。 昔からR-TreeやSR-Treeなど、いろいろと提案されていますが、より高次元になると「次元の呪い」によりパフォーマンスが出なくなる、なんて言われていますね。 そこで最近ではLSHに代表されるような、より高度な「近似」型のインデキシング手法が人気を集めているようです。 で、今回考えたLuigiも実は近似型のインデッ

    perlで高速な類似検索エンジンを構築できるようにしてみた - download_takeshi’s diary
  • 自然言語処理

  • SVMによる予測変換 - nokunoの日記

    Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし

  • Google App Engine Java で形態素解析器の比較 | Altus-Five Labs

    以前、Google App Engine Java形態素解析器を作成しました。以前の記事はこちら。 今回は、これに改良を加えました。 改良前に使用していた辞書は、IPAdic でしたが、これを NAIST-jdic に入れ替えてみました。 そして、せっかくなので、IPAdic と NAIST-jdic の違いを見てみようと、両方の辞書で解析して、結果を並べて表示するようにして、それをやるなら、ついでに、Yahoo!JAPAN WEB API の日形態素解析の解析結果も並べて表示できるようにしました。 ご興味のある方、試してみてください。 http://agolabs.appspot.com/ * IPAdic と NAIST-jdic の違いで、一番わかりやすいのはアルファベットです。 ◇ 辞書について 形態素解析器といえば、ChaSen や Mecab ですが、これらのエンジ

  • 辻井研演習3

    辻井研究室 情報科学演習3 2008年度 東京大学理学部情報科学科 4年生前期の情報科学演習3の 辻井研究室 の演習内容の紹介ページです。 目次 はじめに 課題一覧 はじめに 辻井研究室では、自然言語処理(あるいは計算言語学)に関する研究を行なっています。我々の最終的な目的は、以下の2つがあると考えています。 人間がふだん使っていることば(自然言語)という現象の性質や構造さらには人間の知能・知識の構造を、情報科学の観点から把握、記述すること。 自然言語が扱える「賢い」アプリケーション、例えば、機械翻訳や、対話システム、あるいは文章からの情報検索/抽出、などを可能にするプログラムの開発・基礎技術を構築すること。 前者は、計算機を利用して、自然言語の「文法」や「意味」をモデル化しようというものです。自然言語を扱うアプリケーションを実現するためには、「文法的に正しい」「意味の通った」文を生成した

  • 1