タグ

ブックマーク / komachi.hatenablog.com (18)

  • 1年で30万は上がってる - 武蔵野日記

    朝起きて仕事をしようと思ったら、色々な事情で仕事できず、人生を感じる。10年後のために現在耐えているような感じである。 午前中は研究室の学生と話したりする。今年の就職活動、3月1日から解禁らしいが、もう就職活動を終えた学生もいるようだ。まあ、人生何がベストか予見することは難しいし、どの会社でもいいところも悪いところもあるので、すんなり行っても驕らず、紆余曲折があっても腐らず、淡々と毎日を送れば、チャンスが巡ってくることはあると思う。 今年は確定申告ではなく還付申告なので、特に3月15日縛りはないのだが、周囲の方々が確定申告をしているようなので、2017年の源泉徴収票を公開してみる。ウェブ検索等から到達した方のために書いておくと、これは公立大学法人首都大学東京(昔の都立大学)システムデザイン学部(だいたい工学部)准教授の1年分のお給料で、自分は大学教員になってからこれまでの給与明細を全て公開

    1年で30万は上がってる - 武蔵野日記
    jewel12
    jewel12 2019/02/19
  • 年俸が800万に届かない - 武蔵野日記

    午前中はいろいろメールを片付けたり学会の仕事をしたり。学会の仕事がいま最もプライオリティが低いのだが、自分が参加しているぶんは一応貢献したいとは考えている(逆にいうと、投稿したことない和文論文誌からの査読依頼は、基的に断っている)。 午後は ACL(自然言語処理分野のトップカンファレンス)の原稿のコメント。8同時にコメントを入れるのは大変だが、〆切まで1週間と少しとなり、そろそろ自分が見る部分は収束してきた(収束しないと英文校正に出せないので、1週間前には収束しているのが正しい)。 正直なところ、時短勤務で全ての仕事を十分にこなすのは無理で、何かを諦めるしかない(程度問題もある)わけだが、研究の時間も十分に取れていないので、いろいろと思うところがある。とはいえ、夫婦共働きでも(つまり男性側も女性側と同じくらい家事・育児をやり)ちゃんとパフォーマンスを挙げる、というのを我々の世代がやらな

    年俸が800万に届かない - 武蔵野日記
    jewel12
    jewel12 2018/10/09
  • パターン認識の人手最強伝説 - 武蔵野日記

    午前中は機械学習の基礎勉強会の最終回。1冊全部通読できてよかった。 昼から研究室配属の説明会。誰がうちの研究室を希望してくれるかな? 連続して学部3年生のプロジェクト実習の最終発表会。学生たちが各自チームで半年間研究した成果を発表してくれた。トップバッターの女の子4人組チームがとてもプレゼンがうまく、出した数値も段違いによく、他のチームのほぼダブルスコアで、最優秀発表賞を受賞していた。ポスター発表を聞くと、ポスターにはアルゴリズムが前面に書かれていたが、質問してみたところアルゴリズムが問題なのではなく、驚くべき手法によってその精度が達成されていた。 タスクは顔画像認識で、人物の映る画像が与えられたとき、それが誰か当てるという課題。ただ、この実験は設定が特殊で、画像に手を加えてもいいことになっていた。そこで、彼女たちは数千枚の写真画像からなる訓練事例とテスト事例の両方で、まず顔の中心点を決め

    パターン認識の人手最強伝説 - 武蔵野日記
    jewel12
    jewel12 2014/01/30
    “ここまで人の手が入っていたら、全自動のシステムで勝つのは至難の技であろう(一つ付け加えるとすると、テストのクエリ画像には訓練事例にはない人物も入っているそうだが、それらは彼女らによって除去されたそう
  • ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記

    5時に日光で自然に目が覚めたので電話。前使っていたプリペイドの携帯を持ってきたので$30チャージして、かれこれ3時間くらい話していると思うのだが、まだなくならない。日の携帯電話にかけて1分$0.15のレートなので、200分いけるようだ。 朝はベストペーパー・ペストスチューデントペーパー・ベストショートペーパーの3のトーク。これらの論文が決まらないと会議のプログラムを確定できないので、早くプログラムを公開してほしい、といろんな人からせっつかれて困った、と (ACL のプログラム委員長) 松先生がぼやいていたのだが、ベストペーパーの紹介を今日は松先生がして、ベストペーパーを事前に発表する Pros and Cons というタイトルでしっかり「事前に決めるのは大変だった」と苦言を呈していた (笑) 副学長に加えてプログラミング委員長、なんだか今年松先生は忙しそうな年である。 さてベスト

    ACL HLT 2011 2日目: NLPのトレンドはグラフを用いた手法 - 武蔵野日記
    jewel12
    jewel12 2011/06/27
  • ACL HLT 2011 初日: 人間のクイズ王に勝った IBM Watson を支える技術 - 武蔵野日記

    今日は自然言語処理に関する世界最大の会議、ACL の会議初日。ホテル開催なので朝簡単につまめるものは会場にあるのでは、と思って行ったら案の定ベーグルとかコーヒーとかフルーツがあったので、ベーグルをべる。けっこういける。 オープニングでは今回の会議の統計を話していたが、1,146の投稿(うち646がフルペーパー、残りの512がショートペーパー)、292(うち164がフルペーパー、128がショートペーパー)が採択とのこと。フルペーパー(2段組8ページ+参考文献)とショートペーパー(2段組4ページ+参考文献)ともに採択率は25%。自然言語処理では採択率が40%くらいの国際会議が多いので、25%はやはり難関会議である。 招待講演はアメリカのクイズ番組で人間に勝ったことで有名になったIBM Watson を支える技術について。ネタがあまりよく分からずいまいち楽しめなかったが (細かい

    ACL HLT 2011 初日: 人間のクイズ王に勝った IBM Watson を支える技術 - 武蔵野日記
  • Microsoft は Google の検索結果なんてコピーしていない - 武蔵野日記

    Google、おとり捜査でBingの「カンニング」を発見。マイクロソフトを非難という記事について、Microsoft が悪いことしたのか、という声がけっこうある。 (2011-02-07 訂正) IE の Bing ツールバーを入れただけで検索に関する行動データが送られていた、という点、ツールバーからの検索のときに行動データが送られていた、と誤解していたので、お詫びして訂正します。 @shuyo さんご指摘ありがとうございます。Search Engine Land の元記事も参照されるとよいです。日語に翻訳される過程でいろいろ情報が落ちています。 パッと見ると Microsoft に恨みがある人は坊主憎けりゃ袈裟まで憎い、と言わんばかりに「Microsoft が悪いことしたのか」と思うのだろうが、恐らく話は簡単ではない。ちょっと引用。 マイクロソフトのサーチエンジン Bing が Goo

    Microsoft は Google の検索結果なんてコピーしていない - 武蔵野日記
    jewel12
    jewel12 2011/02/08
    本の紹介までされていて素晴らしい
  • 猫に小判 豚に真珠 わたしに iPhone 4 - 武蔵野日記

    言語学と自然言語処理の合同勉強会。朝乗るバスをどうも逃してしまったので車で来てみたが、京都市内に入ってからが長い長い。そして駐車場で迷う。 結局自己紹介の時間に遅れてしまったが、@shirayuくんの発表には間に合う。自然言語処理側からの発表として、述語項構造解析について手短にまとめてくれる。みなさんのいつきもよかったので、成功ではないでしょうか。 休み時間に黒田さんやら@cacahoさんやらと述語項構造の話やらアノテーションの話やら。どこも抱える問題は共通してますなー。 後半は言語学からの参加 (@tomo_wb くんが内容をまとめているのでそちらを参照されたい)。ウェブを研究に使う人が増えているらしいが、やっぱり作例ではない生身の人間が書いたデータが取れるという点で、ウェブデータも貴重らしい。「Googleは余計なことをしてくれるので、なにもしない生のデータを使わせてほしい」という意

    猫に小判 豚に真珠 わたしに iPhone 4 - 武蔵野日記
    jewel12
    jewel12 2010/10/27
  • 人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記

    昨日帰るとき、katsuhiko-h くんが論文紹介に苦しんでそうだったので(先週、先々週と彼が紹介していた)自分がやってもいいよ、と声をかけたので、午前中がんばって読んで紹介。 Jason Riesa and Daniel Marcu. Hierarchical Search for Word Alignment. ACL-2010. 思いがけずおもしろい論文であった。 簡単にまとめると、機械翻訳では単語の対応付け(どの単語がどの位置のどの単語に翻訳されるか)が重要な問題なのだが、この問題は典型的には IBM Model というのを使って(GIZA++ というツールにより)計算するのだが、これは教師なし学習(人手による正解データを用いない)であり、単語対応(アライメントと言う)のデータを作る必要がないのが利点だが、自分が「こういう対応付けになってほしい」と指定することができない、という問

    人工知能アルゴリズムを総動員して解く統計的機械翻訳 - 武蔵野日記
  • 自然言語処理研究の現在の価値観とその問題点 - 武蔵野日記

    高村さんのページを見て考えさせられる。少し引用しておく。(NLP というのは自然言語処理のことである) 優秀な人材を有する民間企業を目前にし、研究機関としての大学の研究室の存在 意義がわからなくなっている人たち(特に若者)がいるようである。原因は、学 術界の迷走にある。学術界と産業界の間に来存在すべき境界線を彼ら彼女らに 見せることに、我々は失敗している。 このような状況において、今、自分が自分の思う方向にいくらかでも歩める立場 になった。とりあえずしばらくの間、次に述べるような方向性でやってみようと 思う。いくらかextremeであるが、燦々たる状況を考えると致し方ない。 1. NLP communityの現在の価値観に迎合しない。つまり、論文を会議に通すため の努力を最小限に抑える。通らなくても気にしない(ただし、自分の学生を徒に 危険に巻き込むわけにはいかないので、そこのバランスは

    自然言語処理研究の現在の価値観とその問題点 - 武蔵野日記
  • 自然言語処理で博士号を取得したあとのキャリアパス - 武蔵野日記

    朝東工大とポリコムでミーティング。ポリコム自分で使うの初めてかもしれない。いろいろ考えるところはあるのだが、タグ付けするという気になるとわくわくするものだ。つけているときは大変だが、やっただけ得るものはある。なんとなれば、タグ付けする能力こそ、自然言語処理(計算言語学)の研究者に必要なものだと思うし。 最近 @o_bon さんたちと話していて話題になるが(彼女もいまタグ付けしているので)、松先生は「この単語、ここしか見えてないからこっちにかかりたくなるやん」などと「単語の気持ちになる」ことのできる人なので、やはりそれくらい熟達したいな〜。 「先行きの見通しや情報がないとみんな博士に進学するのを避けるのでは」という話を聞いたので、自然言語処理の現状について書いてみる。5年後も同じである保証はないので、あくまで現状の話ではあるが。 このところ進学相談で博士に進学した場合の就職先に関しても心配

    自然言語処理で博士号を取得したあとのキャリアパス - 武蔵野日記
    jewel12
    jewel12 2010/06/06
  • 翻訳の不可能性について - 武蔵野日記

    今年は機械翻訳をやりたいというD1の人が1人、M2の人が1人、M1の人が2人いるので、研究室内で機械翻訳勉強会が盛り上がりそうな雰囲気を受けるのだが、自分も大学院に来たときは機械翻訳を研究しようと思っていたので、研究グループができるのは嬉しいことである。 自分が入試のときに書いた小論文にも、機械翻訳がやりたい、と書いてある(公開していて恥をさらしているのだが、他の人がどういうのを書いているのか見るのも参考になる人もいるだろうし、公開し続けている)。松先生からは入試の面接のとき「機械翻訳を研究テーマにするのは難しいかもしれないけど、入学したらおいおい分かってくるだろうから、これだけしかやりたくない、と思わず柔軟に考えて来てください」というようなことを言われたのを覚えている。 実際、機械翻訳を大学院でのメイン研究テーマにするのは難しく、自分はいろいろ模索した末、NTT 研究所の永田さんが「統

    翻訳の不可能性について - 武蔵野日記
    jewel12
    jewel12 2010/04/13
    #問題は通じない部分はどういうところであり、それが通じないことがどれくらいクリティカルであるかによって、翻訳が不可能であることが問題ないのかまずいのか判断するべき
  • これからの10年は統計的機械翻訳が発展していく過渡期 - 武蔵野日記

    この日記の読者さんから、「ソフトウェアのマニュアルの翻訳を仕事としてやっていますが、今度こそ機械翻訳が技術翻訳の世界でも使われると思うので、勉強会を開きたい」ということでメールをいただき、それならこんな感じでやってみては、というアドバイスをしたりなどしているうちに、それなら統計的機械翻訳について1回お話しましょうか、ということで、「第2回統計的機械翻訳研究会」なるものにお呼ばれしてお話してきた。参加者は技術翻訳のプロの方々8名ほど。みなさん先進的な方々で、機械翻訳は毛嫌いするというわけではなく、使えるものがあったらぜひ使いたい、そのために統計翻訳がどういうものか勉強したい、という熱心な方々だったので、2時間の予定が2.5時間話してまだ話が尽きず、懇親会でも2時間くらいお話ししたりして(機械翻訳の問題点や技術翻訳でここが困っているなんていうことについて)、こちらがむしろ恐縮したり。 特に懇親

    これからの10年は統計的機械翻訳が発展していく過渡期 - 武蔵野日記
  • 統計的機械翻訳の基本文献リスト - 武蔵野日記

    今日は機械翻訳勉強会だったのだが、修士の人も入ってきてくれたので、一度基的な論文からしっかり勉強しましょうか、という感じで原典を読むことに。(上記リンク先に eric-n さんが統計的機械翻訳の基礎的な論文のリストを作ってくれている) 今日は IBM Model 1 で終わり。そういえば M1 で入学したとき、一番初めに論文紹介したのはこの論文だった(入学した当初は機械翻訳の研究をするつもりだったので)。 Statistical Machine Translation 作者: Philipp Koehn出版社/メーカー: Cambridge University Press発売日: 2009/12/17メディア: ハードカバー購入: 1人 クリック: 12回この商品を含むブログ (16件) を見る 2年くらい前から出る出る言っていた統計的機械翻訳のテキストだが、とうとう今年の8月に出る

    統計的機械翻訳の基本文献リスト - 武蔵野日記
  • Microsoft Office IME 2010 はガチ - 生駒日記

    ガチとはガチンコの略で「真剣勝負」を意味したそうだが、Microsoft Office 2010 IMEが東方に強いと言う噂を聞いたので検証してみたという話を目にしたので、Microsoft Office 2010 ベータ版ダウンロードから Office Professional 2010 を取得してインストールして試してみた。無料のプロダクトキーがダウンロードページに書いてあり、2010年10月31日まで使用可能なようだ。 上記ページには Twitterのアカウントで、MS-IMEへの不満を書いたら、MicrosoftでIME開発をしている人 (自称) にMS-Office 2010のIMEを勧められ、更に"Twitter / Takashi umeoka: @rh_kimata 東方に強いという、うわさもありますよ"と言われたので、検証してみた。 と書いてあるが、Twitter でつぶ

    Microsoft Office IME 2010 はガチ - 生駒日記
    jewel12
    jewel12 2010/01/13
  • Baidu Type と多言語の入力メソッド - 武蔵野日記

    今日のトップニュースは Google 日本語入力に続いて Baidu もBaidu Type という日本語入力エンジンを作ったこと。技術的にどういうことをしているのかは分からないが、@mhagiwara さんも20%ルール的に関わっているらしいので、前から準備していたもののようである。 特徴的には中国語 IME では一般的な候補ウィンドウが横に並ぶ選択方法(日語の場合基的には縦に候補が並ぶ)と、デフォルトが予測入力であること。あと、中国語 IM では「スキン」という入力メソッドの外観が設定できるものもあるのだが、特徴の4つ目として Baidu Type もスキンをサポートしている。エンジンをどう作っているのか分からないが、インタフェースに関しては中国語の入力メソッドを流用しているという意味で、特徴的な入力メソッドであろう。 そのうち中国エンジニアたちが日PM の下で日語の入力

    Baidu Type と多言語の入力メソッド - 武蔵野日記
    jewel12
    jewel12 2009/12/18
    #日本語の入力システムは政治的(言語教育/言語政策)な問題でもあるように考えているので、日本人がデータとコードのレベルで関与した入力メソッドを作ることは重要だと感じている。
  • ウェブ文書の正規化 - 武蔵野日記

    「ゎナ=∪も行くょ〜」も修正 ―― KDDI研、「くだけた表現」の自動判読技術を開発というニュースが流れていた。 やっていることの原理はそんなに複雑ではないのだが、やはりどのように修正候補を検索してきているのか(どこが修正対象になるのかを判別する必要がある)と、編集距離(修正前の文から「何手」あれば修正後の文になるか)をどうやって決めたのかが気になる。 仕組み自体は音声認識や統計的機械翻訳、そして先日 Google IME として取り上げられていた統計的かな漢字変換とほとんど同じ仕組みでできるので、「統計以後」の自然言語処理を研究した人と、「統計以前」の自然言語処理の人とで、世界の見え方が違うのではないかと思うことはある。逆に言うと、質的なところはあまり変わっていなくても、それを統計化しただけでだいぶ楽になります、というエンジニアリング的にはとても嬉しいことであっても、研究として続けよう

    ウェブ文書の正規化 - 武蔵野日記
    jewel12
    jewel12 2009/12/07
    #エンジニアリング的にはとても嬉しいことであっても、研究として続けようと思うと、もう一ひねり二ひねりしないといけないので、大変なところでもあるが……。
  • Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記

    Google IME がリリースされたそうで、Twitter でも #googleime というハッシュタグで祭りになっているようである。リリース文を見ると @taku910 さんと @komatsuh さんが主に関わっているようである。 以前Google サジェストのローマ字検索機能 = Google IME でも書いたことがあるのだが、これが出る予兆はいろいろあって、 2007年秋に Google語 N グラムが出る(もっと言えば2007年3月に言語処理学会で「N グラムデータを出すならどういう形がいいか、どういう用途で使うか」という特別セッションがあった)ときから想像できたことであり、taku さんや komatsuh さんくらいのエンジニアであればエンジンを作るのには数日もかからないであろう。 Social IME 開発者の nokuno さんもGoogle IMEという可能

    Google IME の次は Google 日本語スペル訂正が来そう - 武蔵野日記
  • 自然言語処理の明日を考える若手の会 - 武蔵野日記

    今日から明日にかけてNLP 若手の会 (NLP というのは自然言語処理のこと)というのがあるのだが、午前中からいろいろとやることがあって、招待講演から聞きたかったのだが泣く泣く夕方から参加。 やはりみんな真剣に聞いていてやる気になる。この会は活気があってよい。もっとインフォーマルな感じだったのがどんどんフォーマルな感じになってしまっているのが気がかりであるが……。(フォーマルに発表できる場はたくさんあるので、結果が出ていない内容とかポジションペーパー的な内容とかが話せる場所として存在してくれているとありがたい) そういうわけでポスターも初日の半分しか聞けなかったのではあるが、 言語の習得や使用における非言語情報の必要性について 宮尾 祐介, 鍜治 伸裕 (東京大学) 語義注釈システムの単語クリックログからの言語能力情報の抽出 江原 遥, 二宮 崇, 中川 裕志 (東京大学) の2つが自分の

    自然言語処理の明日を考える若手の会 - 武蔵野日記
    jewel12
    jewel12 2009/10/02
  • 1