タグ

ブックマーク / komachi.hatenablog.com (13)

  • 自然言語処理が学べる大学は日本で20校くらい - 武蔵野日記

    世間的には休日だが、最近の大学は文科省の通達で授業回数をちゃんと確保するように言われており、授業時間数を確保するためにお仕事。休日があっても無視して授業をする大学と、休日は休むが学期末に授業の曜日を無視した数合わせの期間がある大学の2種類あるようだが、首都大は前者なのである。 今日の授業はB3の情報理論の授業で、出席も取らないし小テストもしないので、出ても出なくてもいいよ、と伝えてあったにも関わらず、用意した50部の資料が全部なくなる。全員出てきているということのようである。(あとで調べたら履修登録者は57人いたのだが、7人はどうしているんだ?) 「資料が配られるだけだと記憶に残らない、穴埋めにしてほしい」という声があったので今回は穴埋めにしてみたのだが、穴埋め資料を作るのもけっこう面倒くさい。スライドは PowerPoint で作ってあるのだが、印刷したらアニメーションも全部印刷されてし

    自然言語処理が学べる大学は日本で20校くらい - 武蔵野日記
    nfunato
    nfunato 2018/09/24
  • 教師なし機械翻訳とは何か - 武蔵野日記

    お昼から受験生の相談に乗る。来る前に隠れマルコフモデルだとか自然言語処理の基礎を勉強したり、うちの研究室の既発表論文を見たりしているそうで、かなり好印象だったのだが、併願先を聞いたら他大学のモバイルネットワークの研究室だそうで、しかも自然言語処理の研究室はうちしか調べていないと聞いて、大きく落胆する。 うちの研究室はそもそも内部進学者だけでも人数がいっぱいで、外部受験生はどうしても自然言語処理の研究がしたい、かつうちに来るそれなりの理由がある人に限定していて、他の分野でもいい人は他の分野に行ってほしい、と学生募集のページにはっきり書いてあるので、自然言語処理以外でもいい人は受験目的の見学は断りたい。自然言語処理にしようかどうか迷っていて見学によって行くかどうか判断したい、というような人がいることは重々承知しているが、そういう人にまで見学をしてもらうほどの余力は、少なくともうちの研究室にはな

    教師なし機械翻訳とは何か - 武蔵野日記
  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 1年で論文100本読みましょう - 武蔵野日記

    夕方に南大沢で委員会があるので車で通勤。2年前に車で毎日通勤していたのが信じられないくらい、最近は車通勤がこたえる。そもそも車で通勤して首を痛めたり腰を痛めたり、さまざまな問題が生じて電車通勤に戻したのであるが……。 午前中は情報理論の授業。いろいろ雑談をしようと思っていたのだが、先週の復習と小テストをしていると時間が足りない(毎年小テストの回数を増やしている)。演習問題中心の授業にしたほうがいいのだろうか?せっかく3年目の授業でこなれてきているところを変えるのは大変なので、やるにしても来年度以降だろうか。 お昼から進捗報告。サーベイ中の学生が多いのだが、ちゃんと理解するために時間をかける、というのはよいことだと思うが、理解しようと思うと関連する他の論文も読んだりする必要がよくあるのに、その論文だけを読んでいて理解できない、というのは、単に(論文を理解するために、適切な)時間を使っていない

    1年で論文100本読みましょう - 武蔵野日記
  • 取り方を知っても取れない博士号 - 武蔵野日記

    朝には歩けるくらいに回復したのだが、しばらく身体を起こしていると頭痛がする程度には病み上がりなので、職場に電話して有給休暇を使う。在宅で仕事をしようかと思ったのだが、仕事ができるような体調でもなかった……。 娘も今日から保育園に行ってよいと言われていたのだが、まだ動作が緩慢だし、下痢も治っていないので、家で過ごすことになる。親子仲良く家でまったりと過ごす。 そういえば先日「博士号の取り方」を読んだ。[twitter:@ceekz] さんが何回か取り上げていたので興味を持ったのである。 博士号のとり方 学生と指導教官のための実践ハンドブック 作者: エステール M フィリップス,デレック S ピュー,角谷快彦出版社/メーカー: 出版サポート大樹舎発売日: 2010/01/25メディア: 単行(ソフトカバー)購入: 7人 クリック: 42回この商品を含むブログ (9件) を見るタイトルからは

    取り方を知っても取れない博士号 - 武蔵野日記
    nfunato
    nfunato 2015/03/30
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • Unix を使える学生は急速に減っている - 武蔵野日記

    午前3時から NLP(自然言語処理)若手の会シンポジウム・情報処理学会自然言語処理研究会関係の仕事を黙々とする。大学運営関係のお仕事は9月中旬までないので、いまのうちに溜まった仕事を片付け、9月の準備をしておき、10月以降に備えたい(授業が週3コマある)。 (2014-08-21 追記)タイトルだけ見て反応する人が多いので、よくあるコメントについて冒頭で説明しておく。 「最近の若い者はなっとらん」と言っているだけで、教育もしていないなら当然。→8月20日に追記したが、教員なので教育するのが仕事の一部であり、研究室に配属された学生は最初週20時間(1個2時間×10個)の勉強会に出てもらい、それぞれ合計すると演習を解いたりするのに週20時間かかるようなので、合計週40時間基礎勉強に使ってもらっている。(参考: 研究室の勉強会のスケジュール) 必要性がないとやらないのでは?→世の中の99%の人に

    Unix を使える学生は急速に減っている - 武蔵野日記
  • アルゴリズム入門以前 - 武蔵野日記

    朝から雨で娘の機嫌が悪い。昨日病院ではずっとおとなしかったのだが、その反動だろうか? 先週末にエアコンの調子が悪かったのは無事修理できたのだが、また寒い日に戻ったようで(梅雨入りしたらしい)、エアコンフリーの生活。これくらいの気温が続いてくれればいいんだけどな〜 松研の年報の巻頭言が更新されたようである。松研が博士前期課程の学生を受け入れ始めてから去年で20年(残り7年)ということで、自分も今年に初めて博士前期課程の学生の入学・進学があり、残り29年。松研はスタッフも含めた OB/OG が200人以上いるそうだが、自分が博士後期課程に進学してからは毎年10人以上博士前期課程の学生が入学してくるので、定年までに300人に到達しそうである。うちは毎年4〜8人くらい(平均的には6人くらい?)だと思うので、定年までいても200人にはならないだろうな〜。 そういえば、先日「世界でもっとも強力な

    アルゴリズム入門以前 - 武蔵野日記
    nfunato
    nfunato 2014/06/09
  • 現実はバッドデータが9割 - 武蔵野日記

    午前中は大学に来てメール処理。忘年会の予定をfixしたり(しかしその後さらに追加の連絡が……)。 お昼から渋谷に移動し、研究の打ち合わせ。どうしても大学での授業や研究室のことが頭から離れないのだけど、いいのか悪いのか分からない。こういうときってよかれと思っていろいろ動いても空回りしがちなので、適当な感じで力を抜きたいものである。自分の経験上、1年目は試行錯誤して失敗して、2年目に強弱つけるところが分かってきて、3年目で一つの完成を見て、4年目以降は前年の繰り返しでOK、というパターンなので、とりあえず今年は新しいことにチャレンジしてみる時期である。 そういえば、NAISTや松研のことはこの10年で片手で数えるくらいしか夢に見ていない(というか、そもそもほとんど夢を見なかった)のだが、首都大やうちの研究室のことはこの夏から週に1-2回夢に見ている。思い詰めるということではないのだが、移動中

    現実はバッドデータが9割 - 武蔵野日記
  • 公立大学准教授の初年度の年俸 - 武蔵野日記

    雷雨との予報だったのでびびっていたが、結局全然雨は降らなかった。 2人で出かける予定だったのだが、車で目的地に到着すると両親が立っていたり……。休みが取れたから来たそうなのだが、そもそも来る前提じゃなかったから、日程の変更があっても伝える気なかったし、スケジュールが変わっていたらどうするつもりだったのだろう。あと、内容的に母は来ない方がよいと思ってあえて声をかけなかったのだが、母も来ていてなんだかとても申し訳ない感じになる (実際、とても退屈していたそぶりである)。 夕方、印鑑を作るために武蔵境駅前に行く。自分は奈良に行く前に銀行印と実印を作った記憶があるのだが、なんで作ったんだっけな? と思い起こすと、ne.jp のドメインを取得するときに印鑑証明が必要なので実印を作り、そのついでに (セットで頼むと若干安かったので) 銀行印も作った、という流れであったのを思い出した。銀行印自体はすぐは

    公立大学准教授の初年度の年俸 - 武蔵野日記
  • 機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記

    今月号の会誌「情報処理」(2010年8月号目次)の特集は「コンピュータ将棋の不遜な挑戦」というタイトルで、ここ数年のコンピュータ将棋の発展の技術的な解説。こうやって毎年のように情報がアップデートされると非常にありがたい。 見所は鶴岡さんによる「選手権優勝記--激指の技術的改良の解説--」とktanaka先生・kanekoさんによる「大規模クラスタシステムでの実行--GPS将棋の試み--」の2記事。特に鶴岡さんによる記事は、Bonanza のよい解説にもなっており、必読である。実は、激指は 評価関数というのは,局面の形勢判断をコンピュータで行うための関数で,任意の与えられた局面に対して,どちらがどれだけ有利なのかを数値化する関数である.[...] このようなパラメータの調整は非常に手間のかかる作業だが,かつては完全に手作業で行われており,将棋プログラム開発における作業の多くの割合を占めていた

    機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記
  • 精度を98%から99%にするプロセスをたのしむ - 武蔵野日記

    朝、高の原まで[twitter:@shuyo]さんをお迎えに。今日はNAISTで招待講演をお願いしたのである。途中大和路線 (「やまとろせん」かと思ったら、「やまとじせん」のようである) で電車が止まったりされていたようだが、なんとか合流。それとは別に、NAISTの入学を検討しているので少し話を聞きたい、という方もいらっしゃったので、3人で大学まで。 午前中はNAISTを検討されている方と、大学院についてお話したり。松研希望の方だと、あまり自分の所属する研究室を宣伝して押し付けがましくなりたくないし、できるだけ中立になるように、研究したい内容を聞いて他の大学も数個お勧めしたりするのだが、やりたいこと的に言語処理は全然関係ないので、割合NAIST押しでお話してしまった (汗) もっとも、どの大学のどの研究室がどういうテーマで研究しているのか、専門分野以外では分からないので、お勧めしようもな

    精度を98%から99%にするプロセスをたのしむ - 武蔵野日記
    nfunato
    nfunato 2012/05/17
  • N文節最長一致とかな漢字変換 - 武蔵野日記

    uim のメーリングリストで知ったのだが、最近 Anthy のパッチのメンテナンスを続けてらっしゃる G-HAL さんがAnthy の変換アルゴリズムを N 文節最長一致にするパッチを公開したそうだ。 結論のところだけ引用してしまうが、 プログラムの設定値や depgraph やシステム辞書の頻度情報などの、 手作業でのパラメータ調整で変換結果を最高にしようなんて無理、無謀。 オリジナルの Anthy にて、 「手作業で設定するヒューリスティックのパラメータ調整」 と言う方向性を捨てて、 「コーパスからパラメータを自動生成する」 と言う方向性を選んだのは、 至極真っ当。 ただ、不適切だったのは、 公募したコーパスが十分な品質と量になる事を前提とした点と、 個人の文体に合わせた調整機構(学習機能?)が無いと言う運用上の点。 とのことで、全くその通りだと思う。 新聞数年〜十数年分のコーパスはさ

    N文節最長一致とかな漢字変換 - 武蔵野日記
  • 1