サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
cl.naist.jp/~mamoru-k
松本研究室の手引き この文書は NAIST の松本研究室(自然言語処理学講座)の修士1年生に、松本研で1年過ごすってどんな感じか伝える目的で書かれています。また、今後松本研に来ようと思っている学部生の参考になればとも思っています。 松本研の1年 NAIST に入学してから1年でどんなことがあるのか時系列で紹介します。 4月 4月頭に入学式があります。研究室配属希望が4月中旬にあるので、4月の第1週から第2週にかけては、引っ越しや授業に加えて研究室説明会にも忙しいと思います。松本研ではこの時期 M1 の人も入れた勉強会はありませんが、最初から松本研に来る気まんまんの人は話してみると M2 以上向けの勉強会に参加させてもらえるかもしれません。NAIST では授業の資料は端末から印刷したりしないといけないので、本配属が決まるまでは仮に配属された研究室でプリンタを使わせてもらったりします。 4月の
NAIST 情報科学研究科の受験を考えている人に(2) --- TK くんとの手紙 --- この文書は奈良先端科学技術大学院大学(奈良先端大・NAIST)の情報科学研究科に出 願を考えている人・迷っている人・行く気満々の人に向けて書かれています。奈良 の生活というよりは、入った後の研究生活について、大学を変わることの不安などを取 り除けたらというつもりで書いています。 本シリーズ2回目は大学時代の後輩筋に当たる人で、出身や大学院に来る経緯も 似ている人からメールをもらい、2008年のスプリングセミナーに来てもらって NAIST の紹介をしたやりとりについて紹介します。彼は自分と同じく文系から 自然言語処理学講座を希望しているので、同じ境遇の人もいるでしょうし、 参考になるなら、ということで掲載を快諾してくれました。どうもありがとう ございます。 これを読んで参考になった、ここは自分の考え
今日は京都大学の石田先生が言語グリッドについて講演してくれる。 石田先生がいらっしゃる社会情報学研究科というのは、まず実装して動かしてみて、そこで出てきた問題点を解決していく、という方法で研究を進めているそうで、言語グリッドもそういう流れで生まれてきたものだそうだ。 言語グリッドとは一カ所からグリッドに情報を入力するとそれが全体で共有されるような仕組みになっているそうで、いくつかのNPO(医療・災害・教育)と一緒に自然言語処理の技術を活用した活動を展開しているようだ。特に用いられているのは他言語翻訳技術で、用例ベースの多言語診療ツールや多言語チャットで成果を挙げているそうだ。 おもしろかったのはNPOでは自然言語処理の技術をなんとか使おうと熱心にフィードバックしてくれて割とうまくいくのだが、学校でやろうとすると先生は忙しいので専ら消費者の立場でしか参加してくれず、失敗することが多いそうだ。
今日は eric-n さんが Tanaka Corpus を使った実験について進捗報告してくれる。Tanaka Corpus は兵庫大学の故田中先生が学生さんとこつこつ訳した日英対訳データらしいのだが、自由に使えるよう公開されているとのこと。20万文程度使えるので、自由に日英翻訳プログラムを作りたい人には嬉しいかも。 今回は Moses の factored-model (+POS) をベースラインとして動かして、eric-n さんの提案手法との比較をしていたのだが、Moses のベースラインがとても強い、という話であった。 NTCIR-7 も Moses のベースラインがかなり強いという話を聞いたが、Moses かなりいいみたいだ。
情報処理学会誌2008年5月号に関根さんの「Web検索における人名の曖昧性解消技術の動向—同姓同名のクラスタリング—」という解説記事が載っていた。 人名の曖昧性解消って単に語義曖昧性解消の特殊な場合かと思っていたが、確かに特殊は特殊だがその特殊性によって割といろいろな問題があるようである。特に固有名に関する属性の知識が必要とか、ドキュメント中の他の固有名認識が重要とか、言われてみればなるほどと思うような感じである。 興味ある人は手にとって読んでみてはいかが?
NAIST 情報科学研究科の受験を考えている人に --- CR くんとの手紙 --- この文書は奈良先端科学技術大学院大学(奈良先端大・NAIST)の情報科学研究科に出 願を考えている人・迷っている人・行く気満々の人に向けて書かれています。奈良 の生活というよりは、入った後の研究生活について、大学を変わることの不安などを取 り除けたらというつもりで書いています。 この文書は元々2006年のスプリングセミナーに来て(自分の所属する講座では ありませんが)親しくなった CR くんとの Mixi でのやりとりに基づいて編集してあり ます。彼も悩んだ内容はみんな悩む内容だと思いましたし、彼も掲載を快く承諾して くれたので、実体験に基づく内容を公開することは受験生にとって大事なことだと 思って公開することにしました。これを読んで参考になった、ここは自分の考えと違 う、これをもっと知りたい、などあり
学振取るまで(NAIST 版) NAIST で学振取る人あまりいないので、こんな文書でも書いて一人でも多く応募して、 そして採用されることを願って書いてみます。「学振」という単語に聞き覚えが ある人、もしくは博士後期課程に進学予定の人、または在学中の人向けです。 ポイント(忙しい人のために) 学振へは毎年出そう。出しているうちに研究もまとまってくる 先輩にもらっている人がいたら「学振に通った研究計画書」をもらおう。教授の学生時代は学振制度がなかったが、助教やポスドクの人ならもらっていた人がいるかも 研究計画には図を入れる。ゴシックや下線でキーワードを際立たせる。図はプレゼンテーションのスライドからのコピペでいい。紙の上でプレゼンする気持ちで 業績は早めに。特に論文誌は時間がかかる。業績が少ないうちは書けるものは共著だろうが分野違うものだろうが書く 他の採択者の採択テーマを見て傾向と対策を考
ChaIME: 大規模コーパスを用いた統計的仮名漢字変換 トップに戻る 統計的仮名漢字変換 統計的仮名漢字変換では、与えられた仮名文字列の入力yに対して変換候補 xを条件付き確率P(x|y)の降順に提示します。仮名文字列が来たときに仮名漢字 交じり文になる確率です。この確率値が高い順に変換結果が並んでいて くれればいいわけです。言い換えると、確率値最大のものがもっとも尤もらしい 変換候補となり、尤もらしさ順に確率値が並んでいることが統計的仮名漢字変換 の基本原理となります。 さて、直接P(x|y)を推定する方法があればそのまま仮名漢字変換に用いること ができるのですが、一般にこの確率値を直接推定することは難しいため、 近似を用いて推定することになります。 この定式化は統計的機械翻訳や音声認識と同様で、ベイズの定理を用いることに よってP(x|y)はP(y|x)とP(x)の積として推定するこ
ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google 日本語 N グラムからの推定 現在2GBの辞書サイズ
今日の意味談話解析勉強会は hiraku-m くんが "COGEX at RTE 3"Marta Tatu and Dan MoldovanACL2007 について紹介。Pascal Challenge の Entailment Recognition タスクで上位の成績を収めたシステムの説明だそうだ。なんかよく分からない話だったが……。hiraku-m くんもちゃんと準備してくればしっかり読めている人で、秋入学とは思えないくらい(それもそのはず研究生として4月からいた)がんばっているのだが、どうも最近勉強会で紹介する論文のチョイスをことごとく間違っている気がする。 これは自然言語処理分野に限らないと思うが、とりあえず目についた論文を紹介するのではなく、その周辺の論文をいくつか読んでみて(特にその論文が準拠している親論文など)、その中からおもしろそうなものを紹介する、という感じにするといい
An Integrated Approach to Measuring Semantic Similarity between Words Using Information available on the Web 今日の意味談話では以下の論文を紹介した。 An Integrated Approach to Measuring Semantic Similarity between Words Using Information available on the WebIn Proceedings of NAACL/HLT 2007Danushka Bollegala, Yutaka Matsuo, Mitsuru Ishizuka 最近は Google のヒットカウントを用いて PMI を計算したりすることが多いのだが、そういうページカウントベースの手法とスニペットを用いた類似度尺度
今日はIJCNLPの発表練習。松本研からは(聞きにだけ行く人も含めると)総勢8人で行くようなのだが、 ryu-ishuya-amamoru-kjia-lharendra-bの5人が練習(jessic-r さんは今朝いてスライド直していたそうなのだが、発表練習の時はいなかった)。ゆうちゃんは松本先生が代理で話してくれるらしい(うらやましい)。自分は最初行く気満々だったが段々テンション下がってきて、今では彼女に「インドみやげなにがいい?」と言うと「なにも要らないから頼むから生きて帰ってきて」と言われる始末である。なんだかな〜 ryu-i さんは今年の5月から2ヶ月サセックス大学で共同研究したときの話(日本語の語義曖昧性解消)。shuya-a さんは去年と今年の言語処理学会年次大会で話した内容(事態の含意関係獲得)。自分は MSR でのインターンシップの内容。jia-l さんは NAIST に来
今日は明け方まで徹夜で実験していた(というのも前日お酒飲んで気持ちよくなってしまってぐーすか寝てしまったせいなのだけど)ので、勉強会の時間に少し寝過ごしてしまうが、がんばって出てくる。 今回は ryu-i さんが Dan Moldovan, Adriana Badulescu, Marta Tatu, Daniel Antohe, Roxana GirjuModels for the Semantic Classification fo Noun PhrasesHLT-NAACL 2004 Workshopの紹介。名詞句の関係を統語的に noun-noun と adj-noun の複合名詞・genitive('s とか A of B とかね)・形容詞句の3つ(下位分類では5つ)に分けて、30数個の関係(部分全体・目的・動作主など)のどれがどれくらいコーパスに出現したか調べて簡単な分類器も作
今日の DMLA 勉強会は松本先生で Nam Nguyen and Yunsong GuoComparisons of Sequence Labeling Algorithms and ExtensionsICML-2007の紹介。SVM^struct/SVM^multiclass/CRF/HMM/Averaged perceptron/SEARN/M^3Nといったいろいろなアルゴリズムで品詞タグづけ問題を解くという話。提案手法はensemble learningで複数の手法の重み付けによる分類器を作ると、単体で一番成績がよかったSVM^structよりさらによくなりますよ、とのこと。なんか CRF が予想外に悪かった(松本先生も首を傾げていた)のだが、なんなんだろうか。 SEARN (Search-based Structured Prediction)というのは元論文は Search
Hanabi-bu (Fireworks club) leader (2005.5-2006.6) NAIST Open Source Club leader (2005.7-2007.3) Summer internship @ NTT Cyber Space Laboratories, Kanagawa, Japan (2005.8-2005.9) User-Oriented Package Management System, Mito (Exploratory Software) Youth Project, Information-Technology Promotion Agency, Japan (2005.7-2006.3) Open Source Software Developers Connection Project, NAIST Schalarship, Japa
このページを最初にブックマークしてみませんか?
『Mamoru KOMACHI aka mamoru-k @ matsu-lab』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く