タグ

NLPに関するstarposのブックマーク (14)

  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • デマをデマと見抜けない人はTwitterを使うのは難しい - kisa12012の日記

    Twitterにおけるデマ検出手法を論じた研究が,ついにEMNLP2011に出てきたので紹介します. 論文:Rumor has it: Identifying Misinformation in Microblogs[Qazvinian et al., 2011] Twitter上のデマに関する興味深い統計情報も幾つか含まれているので,興味のある方は一読されると良いかと思います. 概要 噂と噂に関連するツイートを検出すると同時に,その噂の信頼度を推定 様々な特徴量を用いて実験 ツイートの文面を使って分類器を作るだけで,高い精度が実現可能! ただし,アノテートされたツイートを教師データとして使用 背景 マイクロブログ上で噂は急速に広まる デマや誤情報は,企業にとって大きな障害となりうるので自動で特定したい この研究では,以下の手順でデマや誤情報を検出する 特定の噂に関して言及しているツイート

    デマをデマと見抜けない人はTwitterを使うのは難しい - kisa12012の日記
  • Cumulative cultural evolution in the laboratory: An experimental approach to the origins of structure in human language

    Cumulative cultural evolution in the laboratory: An experimental approach to the origins of structure in human language *School of Philosophy, Psychology, and Language Sciences, University of Edinburgh, Edinburgh EH8 9LL, United Kingdom; and ‡Division of Psychology, Northumbria University, Newcastle-upon-Tyne NE1 8ST, United Kingdom

    Cumulative cultural evolution in the laboratory: An experimental approach to the origins of structure in human language
    starpos
    starpos 2008/08/08
    くっそ,full paperを読むのに金がかかる...
  • 言語の「起源と進化」を探る研究:「人間は言語の宿主にすぎない」 | WIRED VISION

    言語の「起源と進化」を探る研究:「人間は言語の宿主にすぎない」 2008年8月 7日 サイエンス・テクノロジー コメント: トラックバック (0) Brandon Keim Photo: Alpha 遺伝子のようなふるまいを見せるミームや、有機体のように進化する文化に関する議論はにぎやかだ。[ミームは動物行動学者リチャード・ドーキンス氏が唱えた概念で、「文化の複製遺伝子」。文化内の「情報」が非遺伝的に承継され「自然選択」される様子を、ダーウィン進化論を基盤とした遺伝子の進化の過程になぞらえたとき、遺伝子に相当する仮想の主体] しかし今のところ、生物学的なものではない進化に関する学問的な理論は存在していない。だが、こうした状況も、変化する可能性が出てきた。 7月28日(米国時間)付の『米国科学アカデミー紀要』(PNAS)に掲載された研究論文の中で、言語学者たちは、実験環境で人工的に作成された

    starpos
    starpos 2008/08/08
    言葉遊び.言語が進化するように見えるのは,人間が意思疎通を効率化する過程の別の視点からの見え方に過ぎない.鍵は「認識」と「伝達」にある.
  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
    starpos
    starpos 2008/08/05
    数式が多くてしんどい.数学の素養がないとつらいなぁ.パーセプトロンがなにかは理解した.構造学習に関しては,系列のラベリングだけで任意の構造を表現できたっけ?
  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

    starpos
    starpos 2008/08/04
    キーワードって何なのか?っていうと,世の中の文書全体における単語の分布に比べて,当該文書にそのキーワードの出てくる確率が高いもの,だと思うわけです.だから,skew(偏り)が,大事なんじゃないかと思っているの
  • Videolectures

    starpos
    starpos 2008/08/04
    「structured prediction problem」構造を学習するってのがトレンドだとは聞いていたが,こういう応用が出始めているのか.
  • 日本語形態素解析エンジン・言語郎 | 言語郎のプレスリリース

    株式会社ズー (社:長野県上田市 代表取締役社長:宮島 仁一 www.zoo.co.jp)は、日語処理技術形態素解析、係り受け解析)を応用することにより、日語情報収集能力を飛躍的に高めたWEBブラウザ「スマートブラウザ」を開発いたしました。 「スマートブラウザ」は、独自の高精度日形態素解析(※自然言語で書かれた文章を、言語で意味を持つ最小単位に分割する技術)エンジン「言語郎」による日語の「分かち書き」をすることで、「ホットクリック」、「関連文書検索」、「要約」、「ルビ振り」、「単語出現頻度解析」そして「言語解析」といった、従来のブラウザにはない様々な便利な機能を実装した新型WEBブラウザです。 ホームページ上の文章を自動的に「分かち書き」にし、それぞれの単語や文節をキーワードとする「検索サイト」、「ショッピングサイト」、「辞書サイト」などへの検索が、キーボード入力なしに、ワン

    starpos
    starpos 2008/08/04
    売り物?
  • 言語グリッド - 松本研研究日誌

    今日は京都大学の石田先生が言語グリッドについて講演してくれる。 石田先生がいらっしゃる社会情報学研究科というのは、まず実装して動かしてみて、そこで出てきた問題点を解決していく、という方法で研究を進めているそうで、言語グリッドもそういう流れで生まれてきたものだそうだ。 言語グリッドとは一カ所からグリッドに情報を入力するとそれが全体で共有されるような仕組みになっているそうで、いくつかのNPO(医療・災害・教育)と一緒に自然言語処理の技術を活用した活動を展開しているようだ。特に用いられているのは他言語翻訳技術で、用例ベースの多言語診療ツールや多言語チャットで成果を挙げているそうだ。 おもしろかったのはNPOでは自然言語処理の技術をなんとか使おうと熱心にフィードバックしてくれて割とうまくいくのだが、学校でやろうとすると先生は忙しいので専ら消費者の立場でしか参加してくれず、失敗することが多いそうだ。

    starpos
    starpos 2008/08/04
    この方々みたいにITインフラのことを考えてくれる人がもっと増えるといいな.
  • 「集合知プログラミング」は絶対読まねば

    「集合知プログラミング」は絶対読まねば 2008-07-08-2 [Book][NLP] ■Toby Segaran (著), 當山仁健, 鴨澤眞夫 (訳) / 集合知プログラミング oreilly.co.jp -- Online Catalog: 集合知プログラミング http://www.oreilly.co.jp/books/9784873113647/ 機械学習のアルゴリズムと統計を使ってウェブのユーザが生み出した 膨大なデータを分析、解釈する方法を、基礎から分かりやすく解説します。 基礎から、ということで良さげ。 書で紹介するのは「購入・レンタルした商品の情報を利用した推薦システム」、 「膨大なデータから類似したアイテムを発見し、クラスタリングする方法」、 「数多くの解決策の中から最適なものを探し出す方法」、 「オークションの最終価格を予想する方法」、 「カップルになりそうなペ

    「集合知プログラミング」は絶対読まねば
  • Googleがちょい自然語検索スタート:しあわせのくつ - CNET Japan

    starpos
    starpos 2008/07/03
    現状は、「意味の理解」とは程遠い。
  • 自然言語処理、情報検索、テキストマイニング系の研究をする上で調べておく情報源 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 Text REtrieval Conference (TREC) 2008年現在、以下のトラックが開催されてます。 ・ブログ (Blog Track) - ブロゴスフィアにおける情報検索 ・エンタープライズ (Enterprise Track) - 組織(企業)内の情報に関する検索 ・生医学情報 (TREC Genomics Track) - 生物医学情報の検索。遺伝子配列の検索に加え、研究論文、報告などの文献情報検索 ・法情報 (Legal Track) - 弁護士等の法分野の専門家の情報要求に応える検索 ・大量検

    自然言語処理、情報検索、テキストマイニング系の研究をする上で調べておく情報源 : 研究開発
  • 日本語形態素解析 - Japanese Morphological Analyzer

    Visited: 5294 アルゴリズムによる日形態素解析(Japanese Morphological Analyzer by Algorithm) このプログラムは、テスト・研究用の短いプログラムで、辞書を使わずにアルゴリズムのみで解析しているので、正確な解析はできません。語頭・語末を漢字・カタカナ・平仮名の区別を頼りに解析しているので、平仮名ばかりの文に対応できません。言語解析の困難さがこのプログラムからもお分かりになるでしょう。 正しく解析するには、人間が持っている知識、すなわち日語の規則、辞書、実世界における知識、推論などが必要です。その知識とは膨大な量のものですが、まずは部分的にも妥当な規則、辞書を作ってみることが大切でしょう。アルゴリズムだけからなるこのプログラムとは異なり、今研究中の規則や辞書の構成は言語学的にも妥当と思えるかどうか、という観点から研究しています

    starpos
    starpos 2008/05/17
  • 1