タグ

ブックマーク / komachi.hatenablog.com (24)

  • YANS 2014 まとめ: ブログを書くまでが若手の会 - 武蔵野日記

    連休を潰して NLP 若手の会シンポジウムが終わったら疲れているだろうから1日休もうかと思っていたのだが、5時に起きて3日ぶりに娘にミルクをやり、6時から仕事を始めたところ、休めるような仕事量ではないので出勤。事務手続きも色々あるが、9月中に終わりそうにないのだ。 午前中は正午〆切の研究計画書を書いて提出する。最近研究計画書を書いている暇がなく(学生の研究に付き合う方が優先度と重要度が高い)、企業の方と共同研究させてもらったり、他の教員の方に分担に入れていただいたりして研究費をいただいているので、ちょっと肩身が狭い。自分が代表の科研費くらいは持ってないとだめかなと思い、今年はちゃんと書こうと……。 昼からNLP 若手の会のまとめを作成する。こういうのは流れて行ってしまう前にやらないといけないので、時間勝負である。記録に残しておくと、あとで参照しやすいので、時間はかかるのだが、やる価値がある

    YANS 2014 まとめ: ブログを書くまでが若手の会 - 武蔵野日記
    hiroyukim
    hiroyukim 2014/10/03
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • MapReduce を使いこなすための勉強法 - 武蔵野日記

    体調があまりよくなかったので、娘に夜2時前にミルクをあげて二度寝してしまった。体調はよくなったが、3時間ぶん仕事が遅れるので、挽回するのが難しい。 午前中はうちの研究室を受験希望という学部生の見学。これで夏季入試の見学者は6名で、来週の1人で(可能性としては、出願後に見学したいという人が出るかもしれないが)最後だと思う。去年と比べるとうちの研究室の希望者は2倍だろうか。大学院の定員は変わらないので、若干倍率が上がりそう?(例年1.2〜1.3倍くらい) 論文紹介では Shane Bergsma, Mark Dredze, Benjamin Van Durme, Theresa Wilson, David Yarowsky. Broadly Improving User Classification via Communication-Based Name and Location Clust

    MapReduce を使いこなすための勉強法 - 武蔵野日記
    hiroyukim
    hiroyukim 2014/07/03
  • ハッカーは博士号を取れない - 武蔵野日記

    今日は午後から新宿でシンポジウムのパネリストを頼まれていたので、定例の論文紹介はキャンセルしていたのだが、どうしても外せない委員会の用事があったので、出勤(教授会は欠席させてもらったのだが)。 朝はコース長とコース運営に関する打ち合わせ。コースの内規集がどこかにまとまっているとよいのだが、なにかあったときに(内規を最後に改訂された担当の方が)送ってくださらないと、内規が存在するかどうかすら分からないのが悩みの種。コース内 Wiki でもなんでもあればいいのだが、いろいろ反対意見もあって現在の形に落ち着いているようで、個々人で管理するしかないようだ。 昨年度の評価を返していただいたところ、研究はS評価で、教育や社会貢献、大学運営はA評価。これで給料が大きく変わったりするものではないそうで、恐らく肩たたきのための評価制度なのだろう。NAISTは研究業績でボーナスが2倍くらい違った(最終年度はか

    ハッカーは博士号を取れない - 武蔵野日記
    hiroyukim
    hiroyukim 2014/07/03
  • アルゴリズム入門以前 - 武蔵野日記

    朝から雨で娘の機嫌が悪い。昨日病院ではずっとおとなしかったのだが、その反動だろうか? 先週末にエアコンの調子が悪かったのは無事修理できたのだが、また寒い日に戻ったようで(梅雨入りしたらしい)、エアコンフリーの生活。これくらいの気温が続いてくれればいいんだけどな〜 松研の年報の巻頭言が更新されたようである。松研が博士前期課程の学生を受け入れ始めてから去年で20年(残り7年)ということで、自分も今年に初めて博士前期課程の学生の入学・進学があり、残り29年。松研はスタッフも含めた OB/OG が200人以上いるそうだが、自分が博士後期課程に進学してからは毎年10人以上博士前期課程の学生が入学してくるので、定年までに300人に到達しそうである。うちは毎年4〜8人くらい(平均的には6人くらい?)だと思うので、定年までいても200人にはならないだろうな〜。 そういえば、先日「世界でもっとも強力な

    アルゴリズム入門以前 - 武蔵野日記
  • 「哲学入門」は哲学の教科書ではない - 武蔵野日記

    朝に起きて SEG 時代から懇意にしている世界史の増谷先生のお宅へ。先日来たとき傘を忘れてしまったのだが、放送大学の授業も終わったそうで6月の上旬から12月までご夫婦で海外に行かれるとのことで、日を発つ前に、というわけで伺ったのである。 傘だけでなく娘に絵までいただき、恐縮する。自分たちも定年後に夫婦で(子どもを置いて)どこかに出かけたりできるかな? 昼から午後にかけては芝刈りをしたり、うつうつらしたりして過ごす。なぜだか金曜日からやたらと眠いのである。週の後半は疲れが溜まるのだろうか。6月は1日も休日がないので、どこかで自主的に半休にする平日を作ったりしないと、体力が持たないかもしれない。 予備校時代から大学院に行くまでは、講義形式で先生の話を聞いたり教科書や入門書を読んだりするのが勉強だと思っていた(そのため授業によっては話を聞くくらいなら自分でを読んだ方が速いと思っていたもの

    hiroyukim
    hiroyukim 2014/06/05
  • パターン認識の人手最強伝説 - 武蔵野日記

    午前中は機械学習の基礎勉強会の最終回。1冊全部通読できてよかった。 昼から研究室配属の説明会。誰がうちの研究室を希望してくれるかな? 連続して学部3年生のプロジェクト実習の最終発表会。学生たちが各自チームで半年間研究した成果を発表してくれた。トップバッターの女の子4人組チームがとてもプレゼンがうまく、出した数値も段違いによく、他のチームのほぼダブルスコアで、最優秀発表賞を受賞していた。ポスター発表を聞くと、ポスターにはアルゴリズムが前面に書かれていたが、質問してみたところアルゴリズムが問題なのではなく、驚くべき手法によってその精度が達成されていた。 タスクは顔画像認識で、人物の映る画像が与えられたとき、それが誰か当てるという課題。ただ、この実験は設定が特殊で、画像に手を加えてもいいことになっていた。そこで、彼女たちは数千枚の写真画像からなる訓練事例とテスト事例の両方で、まず顔の中心点を決め

    パターン認識の人手最強伝説 - 武蔵野日記
    hiroyukim
    hiroyukim 2014/01/26
  • 苦手なことを得意にするために - 武蔵野日記

    久しぶりに武蔵境まで買い物に行く。ミスドでドーナツをべたくなったのである。ミスドは田無駅前にもあるが、行きはよいよい帰りは怖い、で、片道歩くのは問題ないのだが、帰りも歩いて帰らないといけないのがしんどいので、武蔵境駅まで車で行くのが最適解なのであった。 帰宅して学会関係の仕事。週末に国際会議の投稿〆切があったので、それ関係の調整である。「休日に仕事するのは日人だけ」と言いたいところだが、仕事をしなくちゃいけない時間(与えられた時間が非常にタイト)ががっつり週末にかかっているので、世界中の人が週末に作業しているのではないかと思う(自分に関しては、もう1人の chair の人ががんばってくれたので、3時間くらいの仕事で済んだけど)。松先生が ACL のプログラム委員長をされたとき、3日徹夜でスケジュールを作ったとおっしゃっていたが、プログラム委員長を引き受けると(仕事の時間はもちろん、プ

    苦手なことを得意にするために - 武蔵野日記
    hiroyukim
    hiroyukim 2014/01/22
  • みんなで自然言語処理の最先端を共有する - 武蔵野日記

    最先端NLP勉強会参加のために朝から中央線。今回の会場は九十九里浜で、駅としては茂原という駅なのだが、在来線を乗り継いで行く方法と新宿から特急に乗る方法、そして東京駅から高速バスに乗る方法、という3通りあり、資料が準備できておらず車内で完成させるため、新宿から特急に乗るルートを選択したのである。 車中は快適で、さくっと資料を作成して M 林さんに送付。送ったあともさらに手を加えたけど……。 茂原駅でみんなと合流し、合宿の宿へ。他にも大学生が合宿をしているらしく、賑やかな感じ。 勉強会の概要と感想はdaiti-mさんが書かれていたり、[twitter:@conditional]さんが最先端NLP勉強会に参加してきましたで書いてくださっているので、自分の紹介した論文だけ説明する。自分が紹介したのは Tim Van de Cruys, Thierry Poibeau and Anna Korho

    みんなで自然言語処理の最先端を共有する - 武蔵野日記
  • Learning to Hash! 最新 Locality sensitive hashing 事情 - 武蔵野日記

    高速に類似度計算をしたい場合、典型的に使われるのは Locality sensitive hashing (LSH)という技術であり、元々距離が近いインスタンス同士はハッシュ値が近くなるようにハッシュ関数を作ることで高速に類似度を計算したりできるというお話なのだが、最近 Semantic hashing や Spectral hashing、また Kernelized LSH という手法が登場して盛り上がりつつあるところ、同じグループの人がもっといいのを出しました、ということらしい。ちなみに情報推薦とか画像検索とか大規模クラスタリングとか、いろいろな分野で高速な類似度計算の応用例がある。 そういうわけで、今日は manab-ki くんが Brian Kulis and Trevor Darrell. "Learning to Hash with Binary Reconstructive

    Learning to Hash! 最新 Locality sensitive hashing 事情 - 武蔵野日記
    hiroyukim
    hiroyukim 2013/01/10
  • EMNLP 2012 2日目: 自然言語処理の最先端の課題は言語理解 - 武蔵野日記

    [twitter:@hjtakamura] さんが朝早くに帰国されたので Suma と2人で朝 & タクシー。彼女はベジタリアンで朝も特別な事を持ってきていてそれをべているが、昨日のポスターレセプションで出た軽は、ベジタリアンがべられるものはフルーツくらいしかないのに、一瞬でなくなってしまって困った、とのこと。来年の IJCNLP@名古屋もベジタリアンメニューを用意しておかないと同じような不満が聞かれるのかもしれない……(今回はコーヒーブレイクのコーヒーもインスタントコーヒーで、けっこう文句を言っている人がいた) (写真は昼にべた韓国冷麺) 朝イチは Patrick Pantel さんによる招待講演で、"The Appification of the Web and the Renaissance of Conversational User Interface" という話。

    EMNLP 2012 2日目: 自然言語処理の最先端の課題は言語理解 - 武蔵野日記
    hiroyukim
    hiroyukim 2012/12/08
  • 日本から出ることが研究の転機になる - 武蔵野日記

    睡眠時間が足りていなかったようで、朝起きてから二度寝して起きたのは10時過ぎ。天気がいいと外に行こうという気になるが、天気が悪いと家でごろごろしたくなる。 ノーベル化学賞受賞者の根岸さんのをNAISTの図書館で借りてくる。 夢を持ち続けよう! ノーベル賞 根岸英一のメッセージ 作者: 根岸英一出版社/メーカー: 共同通信社発売日: 2010/12/11メディア: 単行購入: 1人 クリック: 16回この商品を含むブログ (10件) を見る研究内容についてはほとんど書かれていないが、ノーベル賞級の研究をするための考え方が参考になる。たとえば基は周期表を見ることだそうで、周期表を見てどういう性質の物質がどのあたりにありそうで、まだ研究されていないのはこのあたり、となったら、徹底的かつ系統的に全部試す、というのは、先日のノーベル生理学医学賞につながった高橋さんの仕事の仕方にも通じるところが

    日本から出ることが研究の転機になる - 武蔵野日記
    hiroyukim
    hiroyukim 2012/12/08
  • 「女子学生のほうが優秀なんだけどね」は「自分は女子学生を研究者として育てることができません」という意味 - 武蔵野日記

    午前中、研究ミーティング。意味解析にちゃんと取り組む、というのは、大変ではあるが重要な仕事だと思う。難しいところが多いので、研究のスコープをしっかりと決めないと、泥沼にはまりやすいが……。 昼から第5回奈良先端男女共同参画推進シンポジウムに参加。 最初磯貝先生が NAIST の男女共同参画に関するいくつかの数字を挙げられていたのだが、意外と知らずにびっくりする。たとえばここ数年女性教員の採用比率を12%にすることを目標にしてきて、実際は16%だった一方、現在全学合わせても女性の教授は2名 (バイオ1、情報1)、准教授はなんと1名 (バイオ) だそうで、職位が高くなるほど女性の割合が減るということを如実に表しているとか。最近女性教員の採用比率が上がったとはいえ、NAIST は日一若手研究者が多い大学なので、流動性の高い助教や研究員に女性が多くなった、ということだろう。ちなみに、助教の女性比

    「女子学生のほうが優秀なんだけどね」は「自分は女子学生を研究者として育てることができません」という意味 - 武蔵野日記
    hiroyukim
    hiroyukim 2012/12/08
  • 松本研究室の追い出しコンパ - 武蔵野日記

    毎回違う道を通ることを目標にしているのだが、今回は国道24号線を南下し、木津川を渡るのに一瞬だけ有料道路 (100円) を使い、残りは府道22号線で南下し NAIST まで。途中道に迷って1時間20分ほどかかるが、どうやらこれが一番値段と時間と安全を考えるとベストな気がする。 昼間は怒濤のように溜まった仕事を片付け (終える数と増える数がバランス取れていない)、夕方からを迎えに京都駅へ。高の原でダッシュしたので電車に乗ったとき死ぬかと思った……。 夜は 風神 近鉄奈良駅前店 にて松研の追い出しコンパ。自分が助教になったときに入学した修士の人たちが初めて卒業するので、感慨深いものがあるが、と一緒に来ることにしたので30分遅刻して来たせいもあり、慌ただしく終わってしまう。卒業する全員と一言は話すことができたので、よしとしよう。 研究室の卒業生に茶筌を渡すのが恒例になっているのだが、ここ数

    松本研究室の追い出しコンパ - 武蔵野日記
    hiroyukim
    hiroyukim 2012/03/28
  • 『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記

    先日献いただいた「入門ソーシャルデータ データマイニング、分析、可視化のテクニック」 入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型購入: 18人 クリック: 779回この商品を含むブログ (42件) を見るを読了 (多謝!)。tkng さんも書評を書かれているし echizen_tm さんも書評を書かれているので、いまさら感は否めないが、別の観点から少し寸評。書は、データを抽出してからの可視化の方法が全体の半分以上を占めていて、そういう方法を知らない人には参考になると思う。 研究のための実験をしていても、実は地味に重要なのは機械学習

    『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記
    hiroyukim
    hiroyukim 2011/12/12
  • 研究のソースコードを公開することに対するインセンティブ - 武蔵野日記

    午前中は共同研究のミーティング。毎回進捗があってすばらしい。自分は ryu-i さんにものすごく助けてもらったのに、あまりヘルプにならず、恥じ入るばかり……。 午後は勉強会にて論文紹介。 Zornitsa Kozareva and Eduard Hovy. Not All Seeds Are Equal: Measuring the Quality of Text Mining Seeds. In Proc. NAACL 2010. という論文を紹介してみた。ブートストラップ法という手法は、少数の種となる事例(たとえば単語)を与えて大規模に知識を獲得する手法なのだが、種(シード)の善し悪しを議論した論文がこれまであまりなかったので、そこを研究してみました、という論文。 実験設定やアルゴリズムが実はいまいち現実離れしているので、実際ここで提案されている手法はシード選択には使い物にはならないと

    研究のソースコードを公開することに対するインセンティブ - 武蔵野日記
    hiroyukim
    hiroyukim 2011/12/12
  • メリットデメリットで悩んだらとりあえず直感を信じて挑戦するのも一つの決断 - 武蔵野日記

    NAISTは今日までが夏季特別休暇。いつもと違ってひっそりしていてよい。久しぶりにゆったり仕事ができる。 とはいえ、論文にコメントを入れたり、実験の方針を決めたり、休暇中でもやるべきことはあるが……。IJCNLPやワークショップの最終原稿〆切が9月2日に延びたのはありがたいが、結局のところ〆切ぎりぎりにならないとエンジンがかからないので、他の予定を優先してしまってまた〆切間際に右往左往しそう。 いろいろあって公募書類を準備。過去の書類からのコピペでいい部分はいいのだが、新しく書かないといけない部分もあり、けっこうな作業。フォーマットの変換だけで済めばいいが、やっぱり公募に合わせて変えるべきところは変えるべきだろうし。あとで松先生にも送って見てもらわないとなぁ。 どういう経緯だったか忘れたが、@mrcarrotくんと研究談義。といっても研究の内容についてではなく、研究をするとはどういうこと

    メリットデメリットで悩んだらとりあえず直感を信じて挑戦するのも一つの決断 - 武蔵野日記
    hiroyukim
    hiroyukim 2011/08/17
    権威だけ追う。こういう人は最後孤独か精神やられちゃう人多かった。。。
  • ACL HLT 2011 最終日: 自然言語理解の研究がおもしろい - 武蔵野日記

    ACL HLT 2011 の3日目の最初は認知言語学に関するHow do the languages we speak shape the ways we think? という基調講演。時間、性(ドイツ語やフランス語で女性名詞や男性名詞がある)、因果関係に関していろんな言語でどのように表現され、それが人間の認識にどのように影響を与えているか、というトーク。おもしろい。 たとえば、時間軸の過去と現在を前後と言う(思う)か上下と言うかは言語によって違い、たとえば日語では「6月下旬」は6月の先の時間(未来)を指すが、英語では上下でなく前後で表現したり(たとえば "back in '90s" のように過去を指す)、アイマラ語は前後でも過去が前で未来が後ろだったりとか。 それで、言語が認識に影響を与えるかの調査の実験として、英語中国語のバイリンガルに対し、「月曜日と火曜日がどのように位置関係にな

    ACL HLT 2011 最終日: 自然言語理解の研究がおもしろい - 武蔵野日記
    hiroyukim
    hiroyukim 2011/06/24
  • ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記

    5時に日光で自然に目が覚めたので電話。前使っていたプリペイドの携帯を持ってきたので$30チャージして、かれこれ3時間くらい話していると思うのだが、まだなくならない。日の携帯電話にかけて1分$0.15のレートなので、200分いけるようだ。 朝はベストペーパー・ペストスチューデントペーパー・ベストショートペーパーの3のトーク。これらの論文が決まらないと会議のプログラムを確定できないので、早くプログラムを公開してほしい、といろんな人からせっつかれて困った、と (ACL のプログラム委員長) 松先生がぼやいていたのだが、ベストペーパーの紹介を今日は松先生がして、ベストペーパーを事前に発表する Pros and Cons というタイトルでしっかり「事前に決めるのは大変だった」と苦言を呈していた (笑) 副学長に加えてプログラミング委員長、なんだか今年松先生は忙しそうな年である。 さてベスト

    ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記
    hiroyukim
    hiroyukim 2011/06/23
  • 手軽に自然言語処理を学ぶには「入門 自然言語処理」の第12章がお勧め - 武蔵野日記

    午前中、言語教育勉強会。進捗報告と発表練習など。見る度に新しい機能が追加されていたりUIが向上していたりするので、まだまだ先が楽しみである。 午後、CJE 勉強会と研究会。日語の依存構造解析、これ以上向上させていくのは難しいということを知る。いろいろと悩ましい。少なくともこの状況の上に述語項構造解析をやらなければならないわけで…… 松研OBの@takahi_iさんが記事を書いていると小耳に挟んだので、大学の売店で WEB+DB PRESS を購入してみる。ちなみに大学の売店、書籍・雑誌は1割引である。 WEB+DB PRESS Vol.59 作者: 竹内真,猪狩丈治,矢野りん,中島拓,伊藤敬彦,角田直行,はまちや2,柄沢聡太郎,田中正裕,梶原大輔,藤真樹,増井俊之,加藤幹生,藤澤瑞樹,木村俊也,永井幸輔,中尾光輝,平田雄一,渡辺智暁,藤吾郎,原悠,浜階生,八柳幹太郎,uupaa,塙

    手軽に自然言語処理を学ぶには「入門 自然言語処理」の第12章がお勧め - 武蔵野日記
    hiroyukim
    hiroyukim 2011/05/14