タグ

nlpに関するxiaodongのブックマーク (8)

  • 検索クエリログからのスペル訂正辞書の自動生成 - mixi engineer blog

    先月ハワイに行ってきてオルオルな (ハワイ語で '楽しい' という意味) 気分の takahi-i です。最近ログデータの有効活用が話題になっていますが、検索エンジンが出力する検索クエリログを使用してどんなことができるのかについて紹介させていただきます。 検索クエリログ 検索クエリログ (以下検索ログ) は検索エンジンを使用するユーザから発行された検索の履歴を保存したファイルです。検索ログのフォーマットは使用する検索エンジンや Web サーバによって異なります。さらにまた検索ログが含む情報にも差異があることが考えられますが、稿では検索ログは解析を行う上で重要な三つの要素を含むと仮定します。三つの要素とはユーザ ID (もしくは IP アドレス)、クエリ文、そしてクエリが検索エンジンに処理された時間です。以下検索ログの一例を載せます。 ユーザID クエリ文 クエリ発行時 438904 Su

    検索クエリログからのスペル訂正辞書の自動生成 - mixi engineer blog
    xiaodong
    xiaodong 2009/12/10
    もしかして機能のつくりかた
  • Google日本語入力が描くIMEの未来像とは? (1/2)

    対応OSは現在のところ、Mac OS X以降ならびにWindows XP以降(64bit版には未対応)で、同社サイトからダウンロードし、無料で利用できる。Google Japan Blogによれば、Google日本語入力は、有名な20%プロジェクトから生まれたという。筆者は長くATOKを愛用している一人だが、早速、Google日本語入力で執筆しながら考えていこう。 従来の変換エンジンとは異なる発想から生まれたIME Google Japan Blogによると、この日本語入力システムが、従来の発想とは異なるものであると表明されている。 Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています。現在の

    Google日本語入力が描くIMEの未来像とは? (1/2)
  • Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記

    Google IME がリリースされたそうで、Twitter でも #googleime というハッシュタグで祭りになっているようである。リリース文を見ると @taku910 さんと @komatsuh さんが主に関わっているようである。 以前Google サジェストのローマ字検索機能 = Google IME でも書いたことがあるのだが、これが出る予兆はいろいろあって、 2007年秋に Google語 N グラムが出る(もっと言えば2007年3月に言語処理学会で「N グラムデータを出すならどういう形がいいか、どういう用途で使うか」という特別セッションがあった)ときから想像できたことであり、taku さんや komatsuh さんくらいのエンジニアであればエンジンを作るのには数日もかからないであろう。 Social IME 開発者の nokuno さんもGoogle IMEという可能

    Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記
    xiaodong
    xiaodong 2009/12/07
    スペル訂正が可能になったら,OPACノーヒット時のキーワード訂正をGoogleにやらせるとかできるのだろうか。
  • Information Compilation

    <BODY> このページを表示するには,フレームを表示できるブラウザが必要です. </BODY>

    xiaodong
    xiaodong 2009/08/23
    松下光範さん
  • 動向情報の要約と可視化

    動向情報の要約と可視化に関するワークショップ 趣旨 研究課題「動向情報の要約と可視化」について, 共通の素材を用いて協調的かつ競争的に研究を進めていくワークショップを提案いたします. 動向情報とは,幾つかの統計量の時系列データを基として,その変化を通時的にとらえつつ, それらを単に羅列するのではなく,総合的にまとめ上げることで得られるもので, ある商品の価格や売上の状況,ある会社の業績状況, 内閣や政党の支持状況等がその典型です. 動向情報への関心に,簡潔で平易な文章や視覚的なグラフで, もしくはそれらを協調させたマルチメディアプレゼンテーションで答えるための技術の確立が研究の目的です. その研究は情報可視化を含めた広い意味での情報アクセス技術に関する研究開発を様々な点で牽引すると考えます. ワークショップの目的は,共通のデータを用いて, 緩い意味で共通の課題に取り組むことによる議論と研究

    xiaodong
    xiaodong 2009/08/23
    松下光範さん
  • みんなの経験:検索

    みんなの経験は、奈良先端科学技術大学院大学自然言語処理学講座とニフティ株式会社の共同研究により開発を行いました。 公開にあたりアクセラテクノロジ株式会社およびニフティ株式会社よりブログ記事の収集・解析について協力を受けました。 FAMFAMFAMのアイコンを一部改変して利用しています。 Copyright © 2008 Nara Institute of Science and Technology ご不明な点等ありましたら minna AT is.naist.jp までご連絡ください。

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 情報の信頼性評価に関する基盤技術の研究開発(<特集>情報の信頼性評価) | CiNii Research

  • 1