タグ

nlpに関するs-woolのブックマーク (11)

  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

  • NIPS2010における発表論文に見る、機械学習最前線 | gihyo.jp

    なお、劣モジュラー性についてさらに知りたい方は、チュートリアル[3]が参考になります。 昨年のNIPSでの動向 それでは、昨年のNIPSでの動向を見てみましょう。 Bach[4]は、L∞ノルムが劣モジュラー関数のロヴァース拡張から導出できることを示すことにより, 劣モジュラー性とスパース性との関係を示しました。さらに, この洞察から教師あり学習で用いることができる新しい3つのノルムを提案しました。また、勾配法や近接法が劣モジュラー関数最適化に使えることを示し, 実験によりL1,とL2ノルムを用いるより精度が良いことを示しました。 Stobbe and Krause[5]は、劣モジュラー関数を凹関数の和として分解できる新しいクラス(decomposable submodular function)を定義し, カット問題, マルコフ確率場の最適化, 集合被覆問題などがその新しいクラスの最小化問

    NIPS2010における発表論文に見る、機械学習最前線 | gihyo.jp
  • 自然言語処理勉強会@東京に参加しました

    @nokunoさん主催の自然言語処理勉強会@東京で「統計的係り受け解析入門」というタイトルで話をしてきました.資料はこちらにおいておきます.CKYアルゴリズムに関して質問が多かったので,説明を加筆しました. 内容は「入門」と銘打っておきながら,3rd order Eisnerまで紹介するアレな内容.どういう方が出席されるかわからなかったので,ちょっと最新の話題も入れてみたかったのでした.もともと社内セミナーで使った資料を半分流用しています. Eisner法の理解の肝は,三角と台形がCFGにおける非終端記号に相当している,三角が三角と台形に分割されるというルールが,CFGにおける書き換え規則に相当している,という点が理解できれば後はCFGの知識で理解できます.この記法に慣れてくると,例えば3rd orderの論文はほとんど図を見るだけで理解できます :) 割愛しましたが,当はこのあとスコア

  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • 情報信頼性NP 課題イ 奈良先端科学技術大学院大学担当分

    NICT委託研究「電気通信サービスにおける情報信憑性検証技術に関する研究開発」 課題イ 意味内容の時系列分析技術の研究奈良先端科学技術大学院大学(NAIST)担当分 NAISTの研究技術項目: 着目言論を論理空間に位置づける NAISTはユーザの着目言論に関するトピックのWeb文書群から、そのトピックに関する様々な言明を抽出し、それらの間の 論理的関係を解析して、ユーザに提供する俯瞰図である言論マップ生成に取り組む。そのために次の2点に関する 技術開発を行う。 言論マップ生成: 言論間の論理的関係(類似,対立,根拠等)の解析技術の開発 大規模知識ベース: 論理的関係解析に必要な語彙的意味関係の知識ベースの開発 言論マップ生成 ウェブ上には大量のテキスト情報が存在し、そこでは様々なトピックに関して多角的な意見が述べられている。 情報検索技術の発展により、あるトピックに関連する文書集合を容易に

  • Polynomial Semantic Indexing - tsubosakaの日記

    NIPS 2009で発表された論文"Polynomial Semantic Indexing" [1]を読んだ。これは低ランク近似を用いた教師ありの情報検索に関する手法である。 情報検索について 与えられたクエリに関して適当な重みづけをおこなって順位づけして、適切な文章を返却するという問題は古くから研究されている。 オーソドックスな方法としては文章をbag-of-wordsで表して各単語の重みをtf-idfで正規化し、クエリに関しても同様な処理を行いコサイン類似度などの距離尺度を使って最も近い何件かを返すというものがある。この方法の欠点としてはクエリの単語を含まない文章はヒットしないという問題がある。これは各単語が独立であるという仮定を行っているためであり、明らかに誤っている仮定である。 もう一つの方法としては文章-単語行列が低次元の特徴量によって近似する方法である。代表的な方法としてLS

    Polynomial Semantic Indexing - tsubosakaの日記
    s-wool
    s-wool 2009/12/15
    低ランク近似を用いた教師ありの情報検索に関する手法
  • 出現頻度と連接頻度に基づく専門用語抽出 - yasuhisa's blog

    この前の続き。先週の週末にやるつもりだったけど、暇がなかった。 MeCabで区切った単語を再びつなげる - yasuhisa's blog 前回の流れとしては 専門用語を一つの単語として取ってくるのは難しい MeCabを使うと細かくなりすぎる 専門用語には名詞のsequenceが多そう じゃあ、名詞つなげてみればいいんじゃね? ということで名詞を繋げてみるだけというところをやりました(それだけ。。。)。id:niamさんがコメントしてくださったように"出現頻度と連接頻度に基づく専門用語抽出",自然言語処理, 2003を使うと専門用語らしさ(?)のようなスコア付けができるようなので、それをやってみることにしました。とりあえずp6のLR(CN)のところまでを実装。あとはスコア付けの関数を2つくらい用意して、評価指標の関数を用意すれば、という感じです。 # -*- coding: utf-8 -

    出現頻度と連接頻度に基づく専門用語抽出 - yasuhisa's blog
    s-wool
    s-wool 2009/12/04
  • MeCabで区切った単語を再びつなげる - yasuhisa's blog

    先週は形態素解析なアプローチじゃなくて、特長語抽出のような感じで専門用語が取り出せないかなーとやっていた。 www.yasuhisay.info が、YamChaの使い方がよく分からない&使うツールの中身が今の自分にとってはブラックボックスすぎる、ということで形態素解析ベースでどうにかしようということにしました。 今だと「蛋白質」が「蛋白」と「質」に分解されてしまうような感じで、(MeCab|Chasen)によく形態素解析だと細かく区切られすぎています(一般語に対してはいいのかもだけど、専門的なのだと組み合わせたやつで単語になっていて欲しかったりする)。が、細かい分にはつなげなおしてあげればいいじゃん、ということで繋げることにしました。専門用語だと名詞+名詞な繋がりが多いかなーということで、名詞のsequenceを抽出するようにしました。「私」とかMeCabにそのままあるようなやつはfil

    MeCabで区切った単語を再びつなげる - yasuhisa's blog
  • YamChaを使ってみる - yasuhisa's blog

    TinySVMが必要らしいので、それからインストールする作業。 wget http://chasen.org/~taku/software/TinySVM/src/TinySVM-0.09.tar.gz ./configure で、makeしようとしたらこけた><。 /tmp/TinySVM-0.09% make make all-recursive Making all in src /bin/ksh ../libtool --mode=compile gcc -DHAVE_CONFIG_H -I. -I. -I.. -Wall -O9 -funroll-all-loops -finline -ffast-math -mieee-fp -c getopt.c mkdir .libs gcc -DHAVE_CONFIG_H -I. -I. -I.. -Wall -O9 -funroll-a

    YamChaを使ってみる - yasuhisa's blog
    s-wool
    s-wool 2009/12/04
  • My Portfolio

    Web site created using create-react-app

  • Microsoft Academic

    Sign in or Sign up Research more, search less Publications 175,741,483 Coming soon Authors 211,787,426 Learn more Fields of Study 229,078 Learn more Conferences 4,028 Learn more Journals 47,979 Learn more Institutions 25,318 Learn more Unleash the Power of Semantic Search Microsoft Academic understands the meaning of words, it doesn’t just match keywords to content. For example, when you type “Mic

  • 1