タグ

NLに関するp_chopinのブックマーク (12)

  • plda - Google Code

    Code Archive Skip to content Google About Google Privacy Terms

    p_chopin
    p_chopin 2009/05/19
    『A parallel C++ implementation of fast Gibbs sampling of Latent Dirichlet Allocation』
  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

  • 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然

    第四十七回 写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 たつをさんのブログで知ったGoogleの特別セッション. グーグル株式会社では、日語の言語処理研究推進のため大規模日語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。 はてなブックマークでも話題になっているGoogleの大規模日語データ公開に関する特別セッション@NLP2007に,家が近いこともあり参加してきましたので,その詳細を書きます. セッション概要と要旨 Googleは日語の言語処理研究のためにW

    聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
    p_chopin
    p_chopin 2007/03/21
    とりあえず見てみたい。元の文そのものはムリでも、アンカー情報くらいならどうでしょう。
  • GREE Labs -オープンソーステクノロジー勉強会 第2回 ―開催のご報告―

    404 お探しのページは見つかりません GREE Engineering トップへ戻る

    GREE Labs -オープンソーステクノロジー勉強会 第2回 ―開催のご報告―
    p_chopin
    p_chopin 2006/04/13
    MeCab解説と,サーバ監視
  • 「ググる」の精度を高めるために必要なもの − @IT自分戦略研究所

    いま、現場で求められているキャリアやスキルは、どんなものだろうか。連載では、さまざまなITエンジニアに自身の体験談を聞いていく。その体験談の中から、読者のヒントになるようなキャリアやスキルが見つかることを願っている。 グーグルでソフトウェアエンジニアとして働く工藤拓氏。現在の業務は日語の検索結果の質を向上させることだ。奥が深く難しい仕事だが、工藤氏はマイペースで取り組んでいるように見える。悠然と構えるのは天性なのかもしれないが、長年培った高い専門能力からくる余裕もあるのだろう。おっとりしているようでも、機会を見つけて俊敏に行動する勘はとても鋭い。 ■検索結果の精度を高める 分からないことがあれば「ググる」。あえて説明するのもやぼだが「Googleで検索する」ことをいう。ネットを使う人間なら、「ググる」のは日常茶飯事だろう。検索エンジンGoogleは、名前が動詞になって定着するほどの地位

    p_chopin
    p_chopin 2006/03/16
    工藤さんの論文とか読むと,いかに凄い人かが分かる.一つ一つのアイデアが半端無い.同じくらいの歳なのに…
  • Taku Kudo

    Profile 名前 工藤 拓 (くどう たく) 職業 研究者 写真 お台場にて  ルスツにて 暇つぶし ウクレレ, スノーボード, ジャグリング, ダーツ Research Topics 統計的自然言語処理 形態素解析 テキストチャンキング 統計的統語解析 統計的係り受け解析 機械学習 Support Vector Machines Boosting Maximal Margine Classifiers データマイニング 半構造化データの高速マイニング テキストマイニング 評判分析 Software MeCab (次世代 形態素解析 エンジン) CaboCha (係り受け解析器) CRF++ (汎用 Tagger,Chunker based on CRF) YamCha (汎用 Tagger,Chunker based on SVM) TinySVM (SVM 学習パッケージ) Tin

    p_chopin
    p_chopin 2006/02/24
    今はGoogleの工藤さんの研究ページ.とてもためになる
  • Google 技術講演会: MapReduce 〜大規模クラスタでの簡単なデータ処理 〜

    MapReduce は単純なプログラミングモデルに基づく大規模分散処理システムである。 ユーザは任意のデータからキー・値のペアを生成する map 関数と、 同じキーを持つ値を統合する reduce 関数を用意するだけでよく、 プログラムは自動的に並列化され、数百台から数千台のPCクラスタ上で実行される。 入力データの分割、スケジューリング、マシンの不具合処理などが 自動的に行われるため、並列分散システムの経験のないプログラマでも簡単に システムを使うことができる。MapReduce 上に実装されたデータ収集用スクリプト言語 Sawzall は、これらの実装をさらに簡単にする。MapReduce のプログラミングモデルの 応用範囲は広く、自然言語処理もその一つである。発表では、Google で 毎日数多く実行されている MapReduce とデータ収集用言語 Sawz

    p_chopin
    p_chopin 2006/02/14
    3月14日(火曜日) 18:40 〜 19:40@ 慶應義塾大学日吉キャンパス第4 校舎B 棟 28教室.楽しみ.
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    p_chopin
    p_chopin 2006/02/09
    ゲーム性のある投票でデータを集めよう,という話.まさに学習データのfolksonomy.ただ同一データに多数の人が群がるのは勿体ないから,分散させて,入力者の保持得点でbiasをかける等してより効率的に集めるとGood
  • [Anthy-dev 2794] 変換エンジンのアルゴリズム

    p_chopin
    p_chopin 2006/02/06
    ヒューリスティクス,確率モデル,機械学習のモデル,認知論のモデル.確かにSVM, CRF調べてると松本研や奥村研にたどり着くことが多い.あとIBMの基礎研の人とか.
  • Sekine's Extended Named Entity Hierarchy

    Satoshi Sekine (New York University) Initial: February 27, 2003 Latest: July 2, 2016 Call for annotators for Japanese ENE categorization! The latest definition (version 7.1.2) in Japanese is released on August 24, 2016 Definition version 7.1.2 Japanese. Simple text definition (utf8 encoding) version 7.1.2 Japanese. The definition (version 7.0.0) in Japanese is released on March 23, 2007. Now 105 c

    p_chopin
    p_chopin 2006/02/01
    固有表現の階層構造.多い…
  • 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説

    はじめに  テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。

    p_chopin
    p_chopin 2006/01/03
    各語の全体から見た連結数の相乗平均.よく使われる単語の組合せほど専門用語としての重要度が高いということか
  • 1