タグ

ブックマーク / komachi.hatenablog.com (10)

  • 日本語で読める自然言語処理の参考書まとめ - 武蔵野日記

    第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄

    日本語で読める自然言語処理の参考書まとめ - 武蔵野日記
  • 『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記

    先日献いただいた「入門ソーシャルデータ データマイニング、分析、可視化のテクニック」 入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型購入: 18人 クリック: 779回この商品を含むブログ (42件) を見るを読了 (多謝!)。tkng さんも書評を書かれているし echizen_tm さんも書評を書かれているので、いまさら感は否めないが、別の観点から少し寸評。書は、データを抽出してからの可視化の方法が全体の半分以上を占めていて、そういう方法を知らない人には参考になると思う。 研究のための実験をしていても、実は地味に重要なのは機械学習

    『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記
  • 機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記

    今月号の会誌「情報処理」(2010年8月号目次)の特集は「コンピュータ将棋の不遜な挑戦」というタイトルで、ここ数年のコンピュータ将棋の発展の技術的な解説。こうやって毎年のように情報がアップデートされると非常にありがたい。 見所は鶴岡さんによる「選手権優勝記--激指の技術的改良の解説--」とktanaka先生・kanekoさんによる「大規模クラスタシステムでの実行--GPS将棋の試み--」の2記事。特に鶴岡さんによる記事は、Bonanza のよい解説にもなっており、必読である。実は、激指は 評価関数というのは,局面の形勢判断をコンピュータで行うための関数で,任意の与えられた局面に対して,どちらがどれだけ有利なのかを数値化する関数である.[...] このようなパラメータの調整は非常に手間のかかる作業だが,かつては完全に手作業で行われており,将棋プログラム開発における作業の多くの割合を占めていた

    機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記
  • 自然言語処理の定番の教科書まとめ - 武蔵野日記

    自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。 教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人 クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべきというのと、そこから超えていくというのは違うものであって、どれだけ研究が進んでも、分

    自然言語処理の定番の教科書まとめ - 武蔵野日記
  • 音声認識研究の閉塞感は他人事ではない - 武蔵野日記

    「何かが欠けている音声認識研究」についての話。を紹介。前も書いたことがあるかもしれないが、id:tihara さんの文章は独特のリズムととぼけた感じがあってとても好きである。 古井先生の話は「音声認識技術の進歩が止まっている」というところから始まった。古井先生は国内外で有名な音声認識工学の研究者である。日音声認識界で知らない人はいないだろうし、先日は海外で基調講演をしてきたばかりである。その先生が、実感として「止まっている」と言っており、各種客観的なデータから「止まっている」ということを読みとっていた。 私も止まっていると感じているし、そう感じている音声認識技術の研究者は多いようである。実際、20年間進歩がないと言っていた研究者もいた。古井先生の主張はどうやら6年間進歩がないということらしかったが、とにかく6年から20年くらいは進歩がないようである。 音声認識は進歩が止まっているという

    音声認識研究の閉塞感は他人事ではない - 武蔵野日記
  • ウェブ学会と今後のウェブ研究 - 武蔵野日記

    第1回ウェブ学会というのが開催されていた。博士論文の〆切前のこの時期東京に行くのは不可能だったが、幸いにもストリーミング中継されていたので、半分くらい見ることができた。いちばんおもしろかったのはやはり最後のセッションで、録画も公開されているので、興味がある方は参照されたい。 emiko-y さんの感想が冷静なところだが、自分もウェブ「学会」と言われると、??? と思ってしまうのだが、確かに学会や企業を横断的につなぐというのはとてもいい試みだと思う。もう一つの方向性としては、楽天研究開発「シンポジウム」(カンファレンス、でもよい)のように、場所だけを提供します、という黒子に徹する、という立場もあるし、自分としてはそのほうが好きなスタイルではある。企業の名前が冠されてしまうのは善し悪しだと思うし、もう少し中立的でもいいと思うが、プロ野球で企業が各球団を所有するのと同じで、別に各企業がそれぞれ知

    ウェブ学会と今後のウェブ研究 - 武蔵野日記
  • 自然言語処理における半教師あり学習のテキスト - 武蔵野日記

    最近移動続きであまり研究に時間は割けないのだが、は読めるということでを2冊、サーベイ的な記事を3(うち2はチュートリアルスライドつき)を紹介する。まず Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis) 作者: Steven Abney出版社/メーカー: Chapman and Hall/CRC発売日: 2007/09/17メディア: ハードカバーこの商品を含むブログ (4件) を見る を読む。このの著者の Steven Abney はブートストラッピングの理論的解析をした人で、 Steven Abney. Bootstrapping. 40th Annual Meeting of the Association fo

    自然言語処理における半教師あり学習のテキスト - 武蔵野日記
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • ニコニコ動画の大規模なデータに対するタグ付けとリンク解析 - 武蔵野日記

    ニコニコ動画データ分析研究発表会というのが開催されていたようだ。 タイトルや説明文はノイジーなので、動画につけられたタグを使うと割ときれいなデータとして可視化したりできる、という話は、はてなブックマークの関連エントリー機能のときも聞いたような話で、基的にはインターネットユーザに無料でデータのタグ付けをしてもらっている、という話なんだろうな、と思う。以前紹介したRion Snow の論文 (彼は2005年に Microsoft Research でインターンし、2006年に Powerset (現在は Microsoft に買収済み)、2007年には Google でインターンした人物。ACL という自然言語処理のトップカンファレンスで2006年にベストペーパー受賞)で、 今年の Rion Snow のトークは、Amazon Mechanical Turkというシステムを使って、非常に安価

    ニコニコ動画の大規模なデータに対するタグ付けとリンク解析 - 武蔵野日記
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • 1