サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
www.ism.ac.jp/~daichi
NTT コミュニケーション科学基礎研究所 石黒 勝彦 1 2013/01/15-16 統計数理研究所 会議室1 • 購買データや科学論文など、時間変化をそも そも内包するデータは多数存在します • 従って、時系列(時間変化)データ内のトピッ クの解析も多数試みがなされています 2 3 2012 2013 01/15 01/16 • マルコフ性:前の時刻に依存して現在の時刻 の状態が変化する • 多くの時系列データでは、モデルのどの部分 にマルコフ性のアイデアを導入するか、がポ イントとなります • これはトピックモデルの時系列データモデル でも同様です 4 Dynamic Topic Model [Blei & Lafferty, 2006] 5 Blei and Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006. : exch
オーガナイザー:前川喜久雄・浅原正幸・横山詔一 (国立国語研究所), 菊澤律子・山本泰則 (国立民族学博物館), 持橋大地 (統計数理研究所), 村脇有吾 (京都大学) 言語に関する研究は古くから言語学として行われてきており、 大学共同利用機関においても、国立国語研究所や国立民族学博物館などにおいて 日本語をはじめとする多様な言語の研究が進められております。 一方、近年では、統計モデルや機械学習に基礎を置いた自然言語処理の研究が 統計数理研究所や国立情報学研究所において活発に進められています。 しかし、これら二つの研究領域の知的交流は非常に限定されているのが現状です。 本プロジェクトでは、これら二つの領域の知見を積極的に融合させることによって、 言語を対象とした新しい科学研究の領域を開拓する可能性を検討・評価します。 特に本シンポジウムでは, 今後特に重要, かつ統計的手法が有効と考えられ
NTT コミュニケーション科学基礎研究所 石黒 勝彦 1 2013/01/15-16 統計数理研究所 会議室1 • 機械学習の研究分野では、日々新しい、より 柔軟で表現力の高い(≒複雑な)トピックモ デルが提案されています • このスライドでは、それらのうち、特に構造化 に関する仕事を厳選してご紹介します 2 • 誤解を恐れずにいえば、単純な混合ガウシア ンモデル(GMM)が理解できれば、LDAは理 解できます • GMMがその単純さゆえに非常に幅広いドメ インの連続データで有効なように、LDAも幅 広いドメインの離散データで有効です 3 • モデルが単純ということは、大胆な仮定を置 いてデータを表現していることになります • 実際のデータと明らかに合わない仮定の場 合、これを正す必要があります • 沢山の複雑化したトピックモデルが提案され ています 4 Correlated Topic
NTT コミュニケーション科学基礎研究所 石黒 勝彦 1 2013/01/15-16 統計数理研究所 会議室1 • いわゆる文書データ以外の補助情報・クラス 情報が得られる場合のトピックモデル活用法 の例です 2 (unsupervised learning) • 「正解」信号となる情報がない設定でモデル を学習したりすることです • LDA(トピックモデル)は一般に教師なし学習 のフレームワークで使われます – 文書データだけが与えらえた状態で、まったく未 知のトピックを学習しています • 教師なし学習は基本的に難しいので、高い精 度を出すLDAは重宝されます 3 • 全てをLDAで、つまり教師なし学習でまとめ る必要はありません • 教師信号・補助情報があるならば、モデル全 体の「部品」としてトピックモデルを利用すれ ば十分です 4 Supervised LDA [Blei & McA
統計数理研究所 H26年度公開講座「ガウス過程の基礎と応用」 講師: 松井知子 (統数研), 持橋大地 (統数研), 大羽成征 (京都大), 斎藤正也 (統数研) 日時: 2015年3月3日(火) 10:00-16:00 講義スライド 講義1 (松井): 「ガウス過程の基礎」 講義2 (持橋): 「ガウス過程の基礎と教師なし学習」 講義3 (大羽): 「ガウス過程法 変分圧縮, GP-LVM, Deep GP」 講義4 (斎藤): 「ガウス過程のシミュレーションへの応用」 関連資料 Interactive demonstrations for linear and Gaussian process regressions (Andrew Gelman) http://andrewgelman.com/2015/03/07/interactive-demonstrations-linear-
統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ 講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド 一日目: 持橋分 (2013/1/15) [講義資料] (14.1MB) updated! 二日目: 石黒分 (2013/1/16) [講義資料] (12.4MB) [以下の資料を全部結合したもの] イントロダクション 相関・構造をもつトピックモデル トピックモデルの応用: 時系列データ トピックモデルの応用: 教師情報・補助情報つきモデル トピックモデルの応用: 関係データ・ネットワークデータ トピックモデルの応用: 画像・動画像データ トピックモデルの応用: 音声・音響データ ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm
デザインの「悪い方がよい」原則 The Rise of "Worse is Better" rpg@lucid.com 日本語訳: daiti-m@is.aist-nara.ac.jp 私や Common Lisp と CLOS のデザイナーのほとんどは、MIT/Stanford 方式の設計に親しんでいる。 この方式の核心は、「正しい」やり方をせよ、という ことにつきる。デザイナーにとっては、以下の点をすべて正しく満たすことが 重要である。 簡潔性 デザインは実装と使用法の両面において単純でなければならない。 このとき、使用法が単純な方が、実装が単純なことより重要である。 正当性 デザインはすべての点において正しいものでなければならない。 誤りは許されない。 一貫性 デザインは一貫性を欠いたものであってはならない。一貫性を保つ ためには完全性は少しだけ犠牲にしてもよい。一貫性は 正当性と同
MCMC NTT daichi@cslab.kecl.ntt.co.jp “The Gods may throw a dice..” --- ABBA `The winner takes it all’ 2010-2-21(), • NTT (PD, RS= ) – 35 15 – NTT – NTT • 2 • • – • (, ) • • • etc, etc … 0.92 0.37 1.0 0.85 0.61 2 1 • 1990 – • – – Web – x : • – • – () • • () • ( ) • 100 • MCMC MCMC 0 5 10 15 20 2002 2003 2004 2005 2006 2007 2008 2009 Gibbs MCMC All • ACL: Association of Computational Linguistics / W
自然言語処理における 構文解析と言語理論の関係 宮尾祐介 国立情報学研究所 研究紹介 • 言語理論に基づく構文解析 • 英語HPSGパーザ Enju – HPSG理論に基づき統語構造(構文木)と意味構造 (述語項構造)を計算 • 中国語、日本語も Enju の出力 • 述語項構造 • 述語論理式 – Stately, plump Buck Mulligan came from the stairhead, bearing a bowl of lather on which a mirror and a razor lay across. A yellow dressinggown ungirdled was sustained gently behind him on the mild morning air. – ∃v x1 x2 x3 (plump_buck_mulligan(z) ∧
NTT コミュニケーション科学基礎研究所 石黒 勝彦 1 2013/01/15-16 統計数理研究所 会議室1 • 機械学習の研究分野では、日々新しい、より 柔軟で表現力の高い(≒複雑な)トピックモ デルが提案されています • このスライドでは、それらのうち、特に構造化 に関する仕事を厳選してご紹介します 2 • 誤解を恐れずにいえば、単純な混合ガウシア ンモデル(GMM)が理解できれば、LDAは理 解できます • GMMがその単純さゆえに非常に幅広いドメ インの連続データで有効なように、LDAも幅 広いドメインの離散データで有効です 3 • モデルが単純ということは、大胆な仮定を置 いてデータを表現していることになります • 実際のデータと明らかに合わない仮定の場 合、これを正す必要があります • 沢山の複雑化したトピックモデルが提案され ています 4 Correlated Topi
統計数理研究所 H24年度公開講座 「確率的トピックモデル」 持橋大地 (統計数理研究所) 石黒勝彦 (NTTコミュニケーション科学基礎 研究所) 2013/1/15-16 統計数理研究所 会議室1 本講座の構成 1日目: トピックモデルの基礎 – トピックモデルとは, Naïve Bayes, PLSI, LDA – EMアルゴリズム, VB-EMアルゴリズム, Gibbsサンプラー, 他のモデルとの関係 2日目: トピックモデルの応用 – 複雑なトピックモデル、時系列モデル – 画像、音声、ネットワークデータ – 半教師あり学習、補助情報あり学習 無限モデル(ノンパラメトリックベイズ)は本講座では扱わない 2 講義予定 3 1日目 – AM/ 導入, LSI, ナイーブベイズ, PLSI, EMアルゴリ
Papers 「隠れセミマルコフモデルに基づく品詞と単語の同時ベイズ学習」. 内海慶, 塚原裕史, 持橋大地. 情報処理学会研究報告 2015-NL-220(3), pp.1-8, 2015. 「ガウス過程に基づく連続空間トピックモデル」. 持橋大地, 吉井和佳, 後藤真孝. 情報処理学会研究報告 2013-NL-213(11),1-8, 2013. [slides] "Improvements to the Bayesian Topic N-gram Models". Hiroshi Noji, Daichi Mochihashi, Yusuke Miyao. EMNLP 2013, pp.1180-1190, 2013. "Beyond NMF: Time-Domain Audio Source Separation without Phase Reconstruction". Kaz
統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ 講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド 持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献 「私のブックマーク: Latent Topic Model (潜在的トピックモデ
統計的自然言語処理, および画像処理などの関連領域において, 構文解析は最も基礎的で重要な技術です。構文解析は古くから研究されており, 研究は煮詰まったかと思われてきましたが, 最近, 統計的機械翻訳はもとより, 意味処理などの情報抽出タスクにおいても構文情報の利用が進み, その重要性はますます高まっています。 特に, 今年2012年のACLでは, NTTの進藤さんによるTSG(木置換文法)のベイズ学習による 構文解析が教師あり学習による識別モデルを超えて最高性能を出し, ベストペーパー として注目を集めました。 [PDF] 今後の構文解析, および統計的自然言語処理の進展のためには, こうした手法やこれまで の構文解析について平易に紹介し, また形式言語理論の側からも望ましいモデルについて 議論する必要があると感じ, 今回のワークショップを企画しました。 招待講演者には, 以下の4氏にご
このページを最初にブックマークしてみませんか?
『www.ism.ac.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く