サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
nlp.kuee.kyoto-u.ac.jp/~ryohei
概要 1つのテーマごとに担当者を決め1〜3つくらいの論文を1〜2週で紹介 対象とする論文は、機械学習系の論文誌やNIPS、ICMLなど機械学習系の国際会議で発表された論文(できれば自然言語処理で使えそうなもの)、 および、ACL、NAACL、EMNLPなどで発表された論文のうち機械学習寄りのもの スケジュール 2010前期は基本的に火曜日9:00-11:00 2010後期は基本的に金曜日9:30-11:30 場所は黒橋研ミーティングルーム
nlp.kuee.kyoto-u.ac.jp/~nakazawa
MIRA (Margin Infused Relaxed Algorithm) 京都大学大学院情報学研究科知能情報学専攻 中澤 敏明 nakazawa@nlp.kuee.kyoto-u.ac.jp 2009/7/31 勉強会 1 Introduction MIRA(Margin Infused Relaxed Algorithm) はオンライン学習アルゴ リズムの一つで、事例と超平 面との距離 (Margin) をモデル更新に利用 (Infused) する。Relaxed の気持ちは、[3] で示されている multiclass version Perceptron のパラメータ更新時の制約を緩めているところから来ている (と思われ る)。なお MIRA の初出は [3] であり、正確にはこの論文中での定義が MIRA なのだが、この MIRA は 分離可能な問題にしか対応しておらず、こ
nlp.kuee.kyoto-u.ac.jp
nlp.kuee.kyoto-u.ac.jp/~murawaki
黒橋研究室で開発している日本語形態素解析器 JUMAN についてのメモ。 何をしているのか。他の解析器 (ChaSen と Mecab) との比較など。 最近だと Yahoo! JAPAN の形態素解析 API なんてものがあるけど、仕様がよくわからない。 タスク: 日本語の形態素解析 文を形態素に区切る 各形態素に品詞を割り当てる 「名詞」や「動詞」など 内容物 プログラム デフォルトの文法辞書 デフォルトの形態素辞書 プログラムは放置で、実質的に辞書のみの更新。誰かどうにかしてほしいレガシーコード。 文法辞書と形態素辞書は利用者が自由に定義できるとマニュアルではうたっているが、デフォルト以外の辞書が配布されている例を知らない。 ChaSen と MeCab は配布のレベルで、プログラムと辞書を分離している。 IPAdic, NAIST dic, UniDicなど エンコーディング デフ
概要 京都大学情報学研究科と日本電信電話株式会社NTTコミュニケーション科学基礎研究所は、 共同研究ユニットという新しい研究組織を構成して自然言語処理の研究を共同で進めることに合意し、 2004年度から5年間の計画で、研究活動を開始しました。 この研究ユニットは、NTT京阪奈ビルに研究拠点を構え、ここを中心として、 実質的な研究交流と共同研究を行っていくことを目的としました。 また、京都大学とNTTという2つの組織の共同研究という枠を越え、 けいはんな地区を起点とした他の研究機関の研究者にも参加いただくオープンな共同研究ユニットとして 活動して参りました。 沿革 主な研究テーマ グローバルコミュニケーションを支える言語処理技術の研究として、主に、深い意味解析を指向する言語資源の開発を行って参りました。 MeCab 言語, 辞書,コーパスに依存しない汎用的設計の形態素解析器。パラメータ
形態素解析済みコーパスの公開 形態素解析済みのコーパスを公開します。 本コーパスは、ウェブでフリーで公開されているテキストに対し、自動的に形態素解析を行い、その情報を付与したものです。 データのフォーマットは国立国語研究所で公開している全文検索システム『ひまわり』に準拠しています。 利用者の皆様は、本データをダウンロードし、『ひまわり』をパソコンにインストールすれば、 単語単位での例文検索 基本形での例文検索 品詞による検索結果の絞り込み といった作業を簡単に行うことができます。 動作環境 本データを利用するのに必要な環境は以下の通りです。 パソコン Windows, Linux, Mac OS X などのパソコンで本データをお使いになれます。 下記の『ひまわり』が動作する環境のパソコンであれば大丈夫です。 全文検索システム『ひまわり』 国立国語研究所の『ひまわり』のサイトからプログラ
[索引] [あ行] [か行] [さ行] [た行] [な行] [は行] [ま行] [や行] [ら行] [わ行] あ行 アーリーアルゴリズム (Earley algorithm) 文脈自由文法に基づく構文解析アルゴリズム.ある非終端記号の直後に現われ得る終端記号を事前に予測することによって解析効率を改善している点が特徴. IIS (Improved Iterative Scaling algorithm) 最大エントロピー法のパラメタを学習するアルゴリズム. 曖昧性 (ambiguity) 自然言語処理では,複数の解析結果が得られることを曖昧性があるという.例えば複数の語義がある場合は語義(選択)に曖昧性があるといい,かかり受け解析において複数の可能性がある場合は,かかり受けに曖昧性があるという.曖昧性は様々な処理レベルで存在し,曖昧性解消(ambiguity resolution, disa
nlp.kuee.kyoto-u.ac.jp/~shibata
キューにたまったメールの削除 スパム攻撃などでサーバーにたまったメールのキューを削除する方法のメモ。 ★ キューの数を見る /var/qmail/bin/qstat ★ キューを見る /var/qmail/bin/qread ★ たまったキューの削除 1. qmHandleをダウンロード あるパターン(ドメインの指定など)にマッチしたものだけを削除するために以下を行なう。 2. キューの書き出し ./qmHandle -l > que.txt 3. カウントする grep From: que.txt | perl -lne 'print $2 if //' | sort | uniq -c | sort -nr 4. パターンにマッチするMessageIDを取り出して、削除するシェルスクリプトを掃く cat que.txt | grep -B2 "(ここにパターンを書く)"
CGIのデバッグの仕方 一般にCGIのプログラム(ここではPerl)はデバッグがしにくいと言われます。慣れればそんなことないと思うのですが、はまりやすいことを書いときます。 1. use CGI::Carp qw(fatalsToBrowser); と書く。 CGIでエラーが生じたときに、「Internal Server Error.」と出ても、何の情報量もないので、ブラウザにエラーメッセージを出すようにする。しょうもないバグならこれでOK。まず、これは基本。 2. シェルで動かしてみる。 CGIといっても所詮Perlなので、CGIを動かす前に、 perl -c index.cgi と構文チェックしてから、 ./index.cgi とシェルで動かしてみる。当たり前ですが、シェルで動かないものはCGIでも動きません。 また、当然CGIではパラメータを渡すことが多いのですが、その場
自然言語処理に関連する講義資料へのリンク お願い: このリストに追加すべきページをご存知の方は、nlp_portal あっと nlp.kuee.kyoto-u.ac.jpまでご連絡下さい。 講義名: 自然言語処理論 大学: 北陸先端科学技術大学院大学 キーワード: オートマトン,文脈自由文法,形態素解析,構文解析,情報検索,機械翻訳 ファイル形式: pdf URL: http://www.jaist.ac.jp/~kshirai/lec/i223/index.html (スライド) 講義名: 言語情報科学 大学: 東京大学 キーワード: 形態素解析,情報抽出,自動要約,機械翻訳,情報検索 ファイル形式: ppt URL: http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/suri-GJK/syllabus.html (スライド)
JavaScript によるオブジェクト指向プログラミングを説明する。 対象とするのは、JavaScript に言語的な興味を持つ人や、XUL などを併用して JavaScript で割と本格的なアプリケーションを作る人などである。 説明の都合上 Java の知識を前提としている。 参考文献はECMA-262 Edition 3 (errata)およびJavaScript 1.5 (mozilla.org)。 バグがなければ ECMA-262 Edition 3 を実装した処理系で動くと思う。 互換性を全く考慮していないので、それ以外の処理系では動かない。 一応 Rhino で動作確認している。 基本的な作法 サンプル・コード まずは例から入る。 取っ付きやすいように Java のサンプル・コードを示す。 説明の都合上 _counter と _access_counter は public
nlp.kuee.kyoto-u.ac.jp/~kuro
黒橋 禎夫 Sadao KUROHASHI 所属: 京都大学 大学院情報学研究科 知能情報学専攻 知能メディア講座 (工学部 電気電子工学科兼担) 所在地: 〒606-8501 京都市左京区吉田本町 部屋: 吉田キャンパス 本部構内 工学部3号館 S206 (アクセス・マップ) 電話: (075)753-5344 Fax: (075)753-5962 E-mail: kuro あっと i.kyoto-u.ac.jp 略歴 研究プロジェクト 著書・論文リスト 講義・演習 2008年度 情報探索入門 2008年度 電気電子プログラミング及演習 2008年度 計算機ソフトウェア 2008年度 言語情報処理特論 リンク集 Last Modified: April 6, 2006
京都テキストコーパス Version 4.0 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。 さらに、このうちの5,000文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。 コーパスをダウンロード (7,990,765 bytes) 形態素・構文情報のタグ付け基準マニュアル 格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル ※ これらのマニュアルはコーパスのパッケージにも同梱されています。 注意点:ここに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれ
自然言語処理のためのリソース 日本語形態素解析システム JUMAN 日本語構文解析システム KNP 京都大学テキストコーパス Webから自動構築した大規模格フレーム 解析結果汎用表示ツール TableDisplay これらのリソースに関する御意見, 御質問は nl-resource あっと nlp.kuee.kyoto-u.ac.jp 宛にお願い致します。
本システムは, 計算機による日本語の解析の研究を目指す多くの研究者に共 通に使える形態素解析ツールを提供するために開発されました。その際, 学校 文法が計算機向きではないという問題を考慮し, 使用者によって文法の定義, 単語間の接続関係の定義などを容易に変更できるように配慮しました。 新バージョン5.Xの拡張点の概要は以下の通りです. 日本語の基本的語彙,約3万語(固有名詞を除く)を選定した. 表記バリエーションの整備を行い,代表表記を出力することとした. その他の整備(読みの音訓情報の付与,「読ます」「読まされる」などの使役形への対応) 例えば,以下のような解析結果がえられます. % cat sample.txt 子どもはリンゴがすきだ かぜでおくれた % juman -B -e2 < sample.txt 子ども こども 子ども 名詞 6 普通名詞 1 * 0 * 0 ”代表
日本語構文解析システム KNP KNP は日本語文の構文解析を行うシステムです。形態素解析システムの解析結果(形態素列)を入力とし, それらを文節単位にまとめ, 文節間の係り受け関係を決定します。 以下に典型的な使用例を示します。 % cat test 格文法は本質的に統語規則と意味規則を共存させた文法であり, 日本語の解析に広く用いられている。 % juman -e2 -B KNP Ver.2.0 をダウンロード (1,571,201 bytes) KNP Ver.2.0 (Windows版)をダウンロード(1,797,651 bytes) JUMAN/KNPのチュートリアルのスライド (京都大学学術情報メディアセンター, メディア情報処理専修コース「自然言語処理技術」, 2005/08/30) KNPを試してみる 自然言語処理のためのリソース にもどる
IWSLT 2008 (International Workshop on Spoken Language Translation) (2008/10/20-21, Hawai'i, USA) AMTA 2008 (The 8th Biennial Conference of the Association for Machine Translation in the Americas) (2008/10/21-25, Hawai'i, USA) JEITA 知識情報処理技術に関するシンポジウム 「先端Web技術は企業を変えるか」 (2008/10/23, ベルサール神保町, 東京) EMNLP 2008 (Conference on Empirical Methods in Natural Language Processing) (2008/10/25-27, Hawai'i, USA
京都大学 大学院情報学研究科 知能情報学専攻 知能メディア講座 言語メディア分野 黒橋研究室 本研究室では,言語の仕組み,それを用いたコミュニケーションの仕組みを計算機が扱える正確さで解明するという理論的研究と,それによって情報検索,自動翻訳,マンマシンインタフェース等をより高度化して人間の活動を支援するという工学的研究を行っています.(→詳細) メンバー NLPリソース 科研情報爆発 開放型検索エンジン基盤 TSUBAKI (試験運用中) 言語情報処理ポータル 研究室内部ページ 連絡先 〒606-8501 京都市左京区吉田本町 Tel/Fax:(075)753-5962 Last Modified: September 7, 2007
Webから自動構築した大規模格フレーム βバージョン Webテキストから自動構築した大規模格フレームを公開いたします。格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したものです。この格フレームは、Web上の約5億文の日本語テキストから自動的に構築しており、約5万用言からなるものです。以下のアドレスから格フレームを検索することができます。 格フレーム検索 注意点:今回公開するのはβ版のため、検索条件によってはアクセス速度が非常に遅くなる場合があります。近日中にシステムを更新し正式公開する予定です。また、格フレームをダウンロードして利用したい方は別途ご連絡ください。 この格フレームに関するご意見、ご質問は nl-resource あっと nlp.kuee.kyoto-u.ac.jp 宛にお願いいたします。 参考文献 Daisuke Kawahara and Sadao Kur
毎日新聞CD-ROM (1991年) Type Text Type.linguistics annotation/corpus Description 1991年の毎日新聞の記事を収録したCD-ROM。約10,000記事。 Annotation.document keyword Creator 毎日新聞社 Contact person 日外アソシエーツ (data-saleあっとnichigai.co.jp) Price 126,000円 Subject.language 日本語 Date 1991 Format 1 CD-ROM. Format.encoding Shift_JIS Relation IsPartOf 毎日新聞CD-ROM URI http://www.nichigai.co.jp/sales/mainichi/mai
このページを最初にブックマークしてみませんか?
『KUROHASHI LAB (In Japanese)』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く