タグ

自然言語処理に関するhayato34のブックマーク (32)

  • Yotaro Watanabe - ChaPAS: Yet Another Japanese Predicate Argument Structure Analyzer

    chapas-0.742.tar.gz (全ファイル, size: 1.13GB)ChaPASはフリーソフトウェアです。修正BSDライセンスに従って利用または再配布することができます。ただし、付属のモデルファイル(models以下)、解析に利用している京都大学格フレームver1.0 (resources/kucf以下)、ALAGIN文脈類似語データベース付属の確率的クラスタリングの結果データ(resources/sw以下)、大規模コーパスから得られた確率的クラスタリングの結果データ(resources/ncv以下)はこのライセンスには含まれません。 モデルファイルは、ipa品詞体系のデータで学習したものです。 確率的クラスタリングの結果データは、オリジナルから30%以上改変したものです。 chapas-models.tar.bz2 (学習済みモデルファイルのみ, size: 125MB)c

  • ノンパラベイズ勉強会2012

    統計数理研究所 東京都立川市(最寄り駅・多摩モノレール高松) 2012年 3月15日午後~3月16日午前  (セミナー室2 D304:人数によって変更の可能性あり) 地図はここ 自然言語処理および音楽情報処理におけるノンパラメトリックベイズ法(すなわち,ディリクレ過程やその一般化・階層化を含む生成モデルを使った情報処理)について,初歩から最先端まで解説していただく集中講演を企画しました.もともとは,非線形科学,統計物理など他分野の共同研究者のために企画したものですが,統計科学や機械学習の方でこれから参入したい方,教師なし形態素解析に興味のある方などの参加も歓迎します. 3月15日 13:00-17:30頃 (適宜休憩をとります) 持橋 大地(統計数理研究所) ノンパラメトリックベイズ法による言語モデル 3月16日 10:00-12:30頃 (適宜休憩をとります) 吉井 和佳(産業技術総合研

  • 形態素解析の過去・現在・未来

    NLP コロキウム https://nlp-colloquium-jp.github.io/ で発表した際のスライドです。 論文: https://arxiv.org/abs/2205.01954 GitHub: https://github.com/joisino/wordtour 概要 単語埋め込みは現代の自然言語処理の中核技術のひとつで、文書分類や類似度測定をはじめとして、さまざまな場面で使用されていることは知っての通りです。しかし、ふつう埋め込み先は何百という高次元であり、使用する時には多くの時間やメモリを消費するうえに、高次元埋め込みを視覚的に表現できないため解釈が難しいことが問題です。そこで研究では、【一次元】の単語埋め込みを教師なしで得る方法を提案します。とはいえ、単語のあらゆる側面を一次元で捉えるのは不可能であるので、研究ではまず単語埋め込みが満たすべき性質を健全性と完

    形態素解析の過去・現在・未来
  • FrontPage - 東北大学 乾研究室 / Inui Lab, Tohoku University

    hayato34
    hayato34 2010/04/22
    東北大乾研究室
  • Engineering the LOUDS Succinct Tree Representation - 射撃しつつ前転 改

    Engineering the LOUDS Succinct Tree Representation(O. Delpratt et al., 2006)を読んだ。モチベーションとしてはTxの実装ってどういう風になってるのかが知りたかったというのがある。 LOUDSというのは順序木を効率的に実装するためのアルゴリズムで、この論文ではさらにそれを改良したLOUDS++というのを実装・提案している。 基的なアイデアは、木の上の方から、ノードに存在する子ノードの数だけ1を並べる。デリミタは0。(まぁ、1と0が逆でもいいんだけど。)そうすると、それぞれの1とノードの対応が取れるようになる。このビット列をLBSと呼ぶ。LBSに対してis_leaf, parent, next_siblingなどの関数が実装できれば順序木が実現できる訳だけど、これらの関数はそれぞれ数個のrank, select操作で実

    Engineering the LOUDS Succinct Tree Representation - 射撃しつつ前転 改
    hayato34
    hayato34 2009/12/24
    Google IMEで用いられてるデータ構造
  • 形態素解析辞書 UniDic

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

    hayato34
    hayato34 2009/12/17
    形態素解析辞書UniDic
  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
    hayato34
    hayato34 2009/12/16
    教師なし単語分割
  • Publications

    Papers 「潜在的正規分布によるイベントの時間関係の推定」. 船曳日佳里 (お茶の水女子大学), 持橋大地, 浅原正幸, 小林一郎. 言語処理学会第30回年次大会A5-5, 2024. (NLP2024 委員特別賞) 「語形の分布状況のベクトル化による言語地図の分類方法」. 近藤泰弘(青山学院大), 持橋大地, 言語処理学会第30回年次大会D5-1, 2024. 「木構造自己注意機構による教師なし統語構造解析」. 成田百花(お茶大), 持橋大地, 小林一郎(お茶大), 言語処理学会第30回年次大会D3-3, 2024. 「意味変化分析に向けた単語埋め込みの時系列パターン分析」. 木山朔, 相田太一(都立大), 小町守, 小木曽智信, 高村大也, 松井英俊, 持橋大地, 言語処理学会第30回年次大会E9-2, 2024. 「Hol-CCG構文解析と拡散モデルの統合による構文構造を陽に考慮

  • 言語情報処理 用語集

    [索引] [あ行] [か行] [さ行] [た行] [な行] [は行] [ま行] [や行] [ら行] [わ行] あ行 アーリーアルゴリズム (Earley algorithm) 文脈自由文法に基づく構文解析アルゴリズム.ある非終端記号の直後に現われ得る終端記号を事前に予測することによって解析効率を改善している点が特徴. IIS (Improved Iterative Scaling algorithm) 最大エントロピー法のパラメタを学習するアルゴリズム. 曖昧性 (ambiguity) 自然言語処理では,複数の解析結果が得られることを曖昧性があるという.例えば複数の語義がある場合は語義(選択)に曖昧性があるといい,かかり受け解析において複数の可能性がある場合は,かかり受けに曖昧性があるという.曖昧性は様々な処理レベルで存在し,曖昧性解消(ambiguity resolution, disa

    hayato34
    hayato34 2009/12/13
    言語情報処理 用語集
  • manual - 機械学習勉強会Wiki

    はじめに † 機械学習テンプレートライブラリは,自然言語処理へ機械学習を応用する研究や,より自然言語処理に適した機械学習手法の開発を容易にするための C++ テンプレートライブラリです.特に,系列構造や木構造など,自然言語の構造を表現するのに適した構造に対して,様々な機械学習アルゴリズムを利用できるように設計されています. 設計の特徴として,データ構造を表すクラスと学習アルゴリズムを表すテンプレートクラスを分離し,これらの間をつなぐインタフェースを設定することで,汎用性を高めています.これにより,新たにデータ構造クラスを作成した場合に様々な学習アルゴリズムとの組み合わせを容易に試すことができ,逆に,新たな学習アルゴリズムを実装した場合には様々なデータ構造との組み合わせを試すことができます. 現在のところ,以下のデータ構造が実装されています. 多クラス分類 ― 文書分類,関係抽出など 可変候

    hayato34
    hayato34 2009/12/08
    機械学習テンプレートライブラリ
  • Tsujii Lab. Enshu3 -- Statistical Machine Translation

    統計的機械翻訳〜翻訳システムの作成とその改善〜 目次 背景 演習の流れ 参考文献 背景 この課題では、近年研究が進む統計的機械翻訳と呼ばれる手法を用いて、実際にコンピュータに翻訳をさせるプログラムを組み立ててもらいます。 従来の機械翻訳手法では、入力文の構造や意味を解析して、それらを人手で記述したルールを用いて出力言語のものに変換して出力文を生成する方式がとられています。この場合、人手で記述するルールは多様な言語現象を広汎にカバーしなければならず、またルールの組み合わせが複雑で人手で記述するのが困難な場合もあり、なかなか思うように性能が上がっていません。 一方、近年において大量のテキストデータが利用可能になるのに伴い、自然言語処理の様々な分野で大量のデータを用いた手法が用いられるようになりました。機械翻訳においても例外ではなく、統計的機械翻訳 [1] や用例ベース翻訳 [2] といった新し

    hayato34
    hayato34 2009/11/16
    統計的機械翻訳についての東大の講義ページ
  • 統計的機械翻訳の基本文献リスト - 武蔵野日記

    今日は機械翻訳勉強会だったのだが、修士の人も入ってきてくれたので、一度基的な論文からしっかり勉強しましょうか、という感じで原典を読むことに。(上記リンク先に eric-n さんが統計的機械翻訳の基礎的な論文のリストを作ってくれている) 今日は IBM Model 1 で終わり。そういえば M1 で入学したとき、一番初めに論文紹介したのはこの論文だった(入学した当初は機械翻訳の研究をするつもりだったので)。 Statistical Machine Translation 作者: Philipp Koehn出版社/メーカー: Cambridge University Press発売日: 2009/12/17メディア: ハードカバー購入: 1人 クリック: 12回この商品を含むブログ (16件) を見る 2年くらい前から出る出る言っていた統計的機械翻訳のテキストだが、とうとう今年の8月に出る

    統計的機械翻訳の基本文献リスト - 武蔵野日記
  • 吉田光男 (Mitsuo Yoshida) - 筑波大学(ビジネスサイエンス系)

    名前 : 吉田光男(よしだみつお) 学位 : 博士(工学)(筑波大学・2014年3月) 所属 : 筑波大学 ビジネスサイエンス系 職位 : 准教授 生年 : 1984 出身 : 和歌山 趣味 : 積読(ほしい物リスト), クローラ作成 English version: researchmap 研究内容 データから知識を抽出するデータマイニングの分野で軽視されがちな,データそのものの特性分析に携わり,サイバー空間(仮想空間:ウェブ)とフィジカル空間(現実空間:実社会)との関係性を明らかにする問題に取り組んでいます。この研究領域は,計算機科学と社会科学との狭間に位置し,近年では計算社会科学(Computational Social Science)と呼ばれるようになりました。 具体的に取り組んでいる研究課題には様々なものがありますが,代表的なものとして,ソーシャルメディアでの言及をもとにした,

  • Taku Kudo

    Profile 名前 工藤 拓 (くどう たく) 職業 研究者 写真 お台場にて  ルスツにて 暇つぶし ウクレレ, スノーボード, ジャグリング, ダーツ Research Topics 統計的自然言語処理 形態素解析 テキストチャンキング 統計的統語解析 統計的係り受け解析 機械学習 Support Vector Machines Boosting Maximal Margine Classifiers データマイニング 半構造化データの高速マイニング テキストマイニング 評判分析 Software MeCab (次世代 形態素解析 エンジン) CaboCha (係り受け解析器) CRF++ (汎用 Tagger,Chunker based on CRF) YamCha (汎用 Tagger,Chunker based on SVM) TinySVM (SVM 学習パッケージ) Tin

  • syncha: Japanese predicate argument structure analyzer

    $Id: index.html,v 1.3 2007/04/19 17:48:59 ryu-i Exp $

  • Extended Named Entity Definition (Version 6.1.4)

    前書き 文書は、拡張固有表現階層の定義を記している。 拡張固有表現階層は、名前を中心とした単語の意味の人工的な分類であり、 個人的な主観に寄っている部分が非常に大きい。 その責任の所在を表わすために、拡張固有表現階層の定義の名前に個人名を付けた。ただ、より広範囲の人に使ってもらうこと、より良い物にすることを目標にしており、コメント、指摘などを広く受け入れたい。 構成 定義書は以下のような構成になっている。 まず、定義書はハイパーリンクを利用したhtml形式になっている。これはマニュアル利用者が関連事項を容易に探せることを目標としている。 l 「階層の全体図」は視覚的に階層構造全体が見える図になっている。 l 「階層の全リスト」では固有表現のリストがあり、そこからはそれぞれの固有表現の定義へリンクが張られている。 l 次に「固有表現の大枠」として「背景」「設計」「どのような表現を固有

    hayato34
    hayato34 2009/11/02
    固有表現
  • 統語論入門�@

    #1 「統語論」とはなにか?�@ 〜"syntax"と"semantics"の関係〜 <はじめに> 統語論(syntax)という言葉はあまり聞きなれない言葉かもしれません。しかし、"syntax"という言葉は言語学だけでなく、様々な分野で使われる言葉でもあります。極端な言い方をすれば、すべての物事は"syntax"を備えているといっていいでしょう。なぜすべての物事が"syntax"を備えているといえるのか?この言葉を理解する事が、この統語論入門第一話の主要な問題になります。 今回は具体的に言語学における統語論の問題を扱ず、まず記号論としての統語論を簡単に鳥瞰したいと思います。言語学における統語論とその問題点は次の章からゆっくりと考えていきたいです。 <"syntax"と"semantics"> ”syntax"(統語論)は基的に"semantics"(意味論)と対応しています

  • 言い換えのあれこれ / A classification of paraphrases

    言い換えのあれこれ A classification of paraphrases Announcement The classification and examples in this page are not continuously maintained (Last update was February 2007). If you need to get access to a newer version of classification, please refer to the one presented at the CBA workshop in December, 2010: Typology of Paraphrases and Approaches to Compute Them. はじめに ひとくちに言い換えといっても,人間が実際に生成・認識している言い換えには様

  • 言語処理学会第16回年次大会(NLP2010)

    概要 言語処理学会第16回年次大会は,東京大学郷キャンパスで開催します. ○情報処理学会創立50周年記念全国大会との共催について 年次大会は,情報処理学会との共催となり,言語処理学会のアクティビティを専門外の方々に知らしめるチャンスであります. ただ,結果として例年より非会員による発表申し込みが増加することがあり得ます. 例年よりは多めの発表が可能になるよう,会場等を手配しておりますが,極端な場合にはすべての発表申し込みに発表時間を割り当てることができなくなる可能性があります. そうした場合,申し込みが遅い発表は,ご希望の発表形式以外で発表していただく,あるいは,発表ができなくなることもあり得ますが,ご了承ください. ○大会発表募集 例年通り,自然言語に関する理論から応用まで幅広い研究発表を募集します. とくに,言語学教育学,心理学など,日頃「言語処理」とは縁が薄いと感じておられる人

    hayato34
    hayato34 2009/10/26
    受付11/24, 締切12/18, 提出1/12
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode