タグ

ブックマーク / komachi.hatenablog.com (13)

  • 日本語で読める自然言語処理の参考書まとめ - 武蔵野日記

    第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄

    日本語で読める自然言語処理の参考書まとめ - 武蔵野日記
    Cheru
    Cheru 2014/01/03
  • 自然言語処理の入門的な授業の構成 - 武蔵野日記

    来年度、大学院生(とやる気のある学部生)を対象とした自然言語処理の授業をする予定で、シラバスを考えているところである。形態素解析から構文解析、そして意味解析につながるオーソドックスなスタイル(必ずしも機械学習を出さなくてもよい)でやるか、あるいは機械学習を前面に出してやるか(Teaching (intro, grad) NLP 参照)、悩んだのだが、そういえば来年度は人文系の人も含めた交換留学生対象の授業(同一内容だが英語で授業)もやることを思い出し、それなら後者は難しいか……。 自分自身人文系出身なので他人事ではなく、人文系で数学に苦手意識があると、かけ算が2回以上含まれる数式はダメで、かつ割り算が1回でも含まれる数式はダメで、cosやlogが含まれる数式はそもそも意味を理解することができない(そのため、意味を考えず単なる文字列として考えるので、かえって割り算を含む数式よりよいかもしれな

    自然言語処理の入門的な授業の構成 - 武蔵野日記
    Cheru
    Cheru 2013/12/16
  • 質問に答えることが正解ではない - 武蔵野日記

    明日は朝から出張なので、午前中からお昼にかけて、ひたすらメールの返事など。NLP若手の会シンポジウムも、来年に向けて動き出したところではあるが、いろいろ課題や反省点もあるので、次回は改善したい。 昼過ぎからM2の人たちの中間発表練習x6。発表時間は1人12分なのだが、コメントを入れると20-30分かかるので、全部で3時間ほど。内容に関することは直接言ったので、細かいスタイルに関することをいくつか書いておくと、 スライドにはページ番号を入れる。質問のとき、「xページに行ってください」と言われることがあるが、ページ番号がないとどのスライドか探すのに時間がかかる。 最初の数ページで何をしたいか分かってもらわなければならないので、必要があれば図を使ったりして効果的に説明する。 略語はちゃんと説明する。分野外の人には略語は分からない。(自分が知っているつもりの専門用語も同様) 手法の説明で、何が g

    質問に答えることが正解ではない - 武蔵野日記
    Cheru
    Cheru 2012/09/14
  • 大規模データと格闘するサマーインターンのすすめ - 武蔵野日記

    id:naoya さんの日記で「大規模サービス技術入門」 [Web開発者のための]大規模サービス技術入門 ―データ構造、メモリ、OS、DB、サーバ/インフラ (WEB+DB PRESS plusシリーズ) 作者: 伊藤直也,田中慎司出版社/メーカー: 技術評論社発売日: 2010/07/07メディア: 単行(ソフトカバー)購入: 80人 クリック: 1,849回この商品を含むブログ (133件) を見るを知ったので読んでみる。 はてなのサマーインターン向けというだけあり、分かりやすい。こんなに自然言語処理・機械学習のいい入門書はないだろう。それでいて、大規模にするとなんでアルゴリズムやデータ構造といった計算機科学の基礎知識が必要になってくるのか、という点が押さえてあって、とてもよい。 また、単に理論が書いてあるだけではなく、疑似コードや実際に動作する Perl のコードも書かれているし、

    大規模データと格闘するサマーインターンのすすめ - 武蔵野日記
    Cheru
    Cheru 2010/07/08
  • Social IME のソースコードが公開された - 武蔵野日記

    Google Code に Social IME のサーバサイドのソースが公開された。@nokunoさんお疲れさまです。→Social IME をオープンソース化しました 確かに Google 日本語入力とか Baidu Type とかいろいろ出てきているので、出すならこのタイミングなのかな〜と(ちょっと遅かったかもしれないけど)。むしろ出してほしいのはクライアント側のソースなのではないかとも思うが、それを出すと Social IME っぽくないクライアントが派生しそうなので、サーバ側だけ出すのも妥当なのかもしれず。 @makimotoくんといい、@nokuno さんといい、先日の言語処理学会年次大会で積極的に発言(質問)されていて、素敵だなと思った。もっと若い世代の人たち(特に大学の中にいないエンジニアの人たちも含めて)がこうやって発言力を持つべきだと思うし、発言していくことで学ぶものも

    Social IME のソースコードが公開された - 武蔵野日記
    Cheru
    Cheru 2010/03/16
    "指されると偏差値が20下がる"
  • 博士で身につけるべき研究力とは穴埋め問題の作成能力 - 武蔵野日記

    研究室生活 基礎文法最速マスターでも、著名な id:next49 さんの 発声練習 と並んで取り上げられて恐縮しているが、そういうわけで少し研究に関するエントリを書いてみる (笑) 理系のための「即効!」卒業論文術―この通りに書けば卒論ができあがる (ブルーバックス) 作者: 中田亨出版社/メーカー: 講談社発売日: 2010/01/21メディア: 新書購入: 10人 クリック: 78回この商品を含むブログ (12件) を見る を読んでみた。これはやればできる卒業論文の書き方をまとめたものらしいが、ぶっちゃけ web で公開されているもののほうが、卒論の書き方の指南書としてはおもしろい。しかしながら、こちらののほうは、卒論を書くということ以外の話が充実しているので、それはそれで読む価値あると思う(とくに博士に進むか迷っている人とか)。あと、上記のページには「エンジニア・職業研究者をめざす

    博士で身につけるべき研究力とは穴埋め問題の作成能力 - 武蔵野日記
    Cheru
    Cheru 2010/02/05
  • やりたいことはなんですか 見つけにくいものですか - 武蔵野日記

    ちはやふる (7) (BE LOVE KC) 作者: 末次由紀出版社/メーカー: 講談社発売日: 2009/12/11メディア: コミック購入: 6人 クリック: 77回この商品を含むブログ (134件) を見るが出ていたので購入。この日記で取り上げたこともあるが、この漫画はこれまで読んだ漫画の中でトップ3に入るくらいおもしろい漫画なので、買おうかどうか迷っている人はぜひ :-) 最近縁あって修士の人たちの研究や開発の相談に乗ることが多いのだが、なんだかやることを一つに決められない人ってのは、やりたいことが多くて絞り切れない、もしくはやりたくないことが多くて絞り切れない、そういうことなのかなー、と思った。 今回の巻の中で唸ったセリフは やりたいことを思いっきりやるためには やりたくないことも思いっきりやんなきゃいけないんだ というもの。自分が修士のころを思い返しても、M1 のときはずっと研

    やりたいことはなんですか 見つけにくいものですか - 武蔵野日記
    Cheru
    Cheru 2009/12/16
    "「研究」を「勉強」だと思っていたら間違いなく後悔する。たぶん大学(学部)まで勉強が好きな人であればあるほど陥りやすい罠"
  • 回帰のための能動学習と自然言語処理 - 武蔵野日記

    東工大の杉山さんが「回帰のための能動学習」というテーマで講演してくれた。先月東工大の自然言語処理合同研究会でも杉山さんのトークを聞いたが、そちらは確率密度比に関する内容で、それとは被っていなかったので参考になる。 能動学習(active learning)というと、人手によるタグづけの手間を減らすために用いられる手法で、前提としてタグづけやサンプルの採取にとてもコスト(時間なりお金なり熟練なり)がかかるとき、いかにして少ないサンプルで機械学習するか、というようなことができる手法。自然言語処理では、たとえば最初いくらかの分量のデータをタグづけし、それから教師あり学習をして自動タグづけモデルを作成し、残りのタグなしデータに適用する。出てきた出力のうち、確信度の高いものはたぶん正解だろうからおいといて、確信度の低いものは現在のモデルで間違えている可能性が高いサンプルなので、これを人に見せてタグづ

    回帰のための能動学習と自然言語処理 - 武蔵野日記
  • 人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記

    natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。 最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transform」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ? と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で

    人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記
    Cheru
    Cheru 2009/07/23
  • 統計的機械翻訳の基本文献リスト - 武蔵野日記

    今日は機械翻訳勉強会だったのだが、修士の人も入ってきてくれたので、一度基的な論文からしっかり勉強しましょうか、という感じで原典を読むことに。(上記リンク先に eric-n さんが統計的機械翻訳の基礎的な論文のリストを作ってくれている) 今日は IBM Model 1 で終わり。そういえば M1 で入学したとき、一番初めに論文紹介したのはこの論文だった(入学した当初は機械翻訳の研究をするつもりだったので)。 Statistical Machine Translation 作者: Philipp Koehn出版社/メーカー: Cambridge University Press発売日: 2009/12/17メディア: ハードカバー購入: 1人 クリック: 12回この商品を含むブログ (16件) を見る 2年くらい前から出る出る言っていた統計的機械翻訳のテキストだが、とうとう今年の8月に出る

    統計的機械翻訳の基本文献リスト - 武蔵野日記
    Cheru
    Cheru 2009/06/04
  • Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記

    最近次世代「検索」エンジンが登場しつつあるが、彼らのすごいところは検索結果ではない。たとえば Mathematica を作った会社が Wolfram|Alpha や最近検索に異様に力を入れている Microsoft が Bing を開発中だとアナウンスされたが、彼らが真にすごいのは、現在の自然言語処理(や情報検索などの周辺技術)の精度では恐らく不可能だと思えるようなことをやろうとしている、もしくはやっているところだと思う。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解析器を作っているので仕方な

    Wolfram|Alpha や Bing のすごくないがゆえにすごいところ - 武蔵野日記
    Cheru
    Cheru 2009/05/29
  • 自然言語処理における半教師あり学習のテキスト - 武蔵野日記

    最近移動続きであまり研究に時間は割けないのだが、は読めるということでを2冊、サーベイ的な記事を3(うち2はチュートリアルスライドつき)を紹介する。まず Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis) 作者: Steven Abney出版社/メーカー: Chapman and Hall/CRC発売日: 2007/09/17メディア: ハードカバーこの商品を含むブログ (4件) を見る を読む。このの著者の Steven Abney はブートストラッピングの理論的解析をした人で、 Steven Abney. Bootstrapping. 40th Annual Meeting of the Association fo

    自然言語処理における半教師あり学習のテキスト - 武蔵野日記
    Cheru
    Cheru 2009/04/13
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
    Cheru
    Cheru 2009/01/27
  • 1