タグ

ブックマーク / komachi.hatenablog.com (16)

  • 沖縄のことを休みに振り返る - 武蔵野日記

    今日はオフィシャルにはお休み(自己研鑽)のつもり。 午前中は書籍担当の方とオンラインミーティング。偶然沖縄出身の方だったので、沖縄の話で盛り上がったり。GitHub で進捗は共有されているのだが、色々とご配慮いただいてありがたい。後期が頑張りどころなのであるが……。 そういえば最近下の子(2歳10ヶ月)が「海をあげる」がお気に入りで、「読んでー」と持ってくるのだが、読んで意味分かっているのだろうか(前は「存在しない女たち」をしょっちゅう開いていたが、逆さまに持っていた)。 この中に出てくる、沖縄で少女暴行事件があった(これは自分が中高生のころで、よく覚えている)ときに東大の教員が「これはいい研究ネタになるのに、デモを見に行けなくて残念」と言っていて、そのときに声を上げられなかったのがあとで思うと悔しかったが、そのときは悔しいと思えなかったというような話が印象的で、自分も東大の文3にいたとき

    沖縄のことを休みに振り返る - 武蔵野日記
    dlit
    dlit 2022/10/30
  • 業績を全部並べてみるサイト - 武蔵野日記

    この週末は2日ともほぼ(事の時間以外)ワンオペ育児になる予定なので、上の子に行きたいところを聞いたところ、土曜日はまた井の頭公園に行きたい、というので車で吉祥寺。午前中なので駐車場にもスムーズに入れたし、人も少なかったし、やはり吉祥寺に来るなら土曜日である。あちこちでハロウィーンの仮装をした子どもがいたので、上の子も仮装して来たかったようだが……。 午後は近所の子と遊んだが、何で遊ぶかの相談がうまく行かず、希望が通らなかったということで、上の子がシクシク泣いていた。気持ちは分かる。が、父は下の子(と近所の3歳の男の子の相手)で手一杯……。 と話していて、研究業績の定量化はどうする、という話題があったのだが、自分は最近 Semantic Scholar が良いと思っている。Google Scholar Citations の方が和文の文献も入っていて、結果も見やすい、という利点はあるのだ

    業績を全部並べてみるサイト - 武蔵野日記
  • 最近の小学校は進んでる - 武蔵野日記

    昨晩は旧に娘(4歳5ヶ月)が保育園の友だちの家に泊まると話をつけて泊まってきていたので、朝に迎えに行く。うちから一番近い友だちの家で、自転車で5分くらいなのである。 娘は好きな子と一緒に寝られたということで大満足のようだった。「お手伝いしてくれたり、いい子にしていたよ〜」とママ友からも教えてもらう。確かにお手伝いはしたがる子だが、家では甘えん坊でも外にいると優等生。 1泊したのにまだ一緒にいたい、というので、上の子の土曜授業についていく。最近は月に1回土曜授業があるようで、保護者はもちろん地域の誰でも見学できるようになっているそうだ。自分の小学生のころは年に1回くらいしか授業参観がなかった気がするし(そもそも親が見にきていた記憶もないし)、昔と比べるとずいぶん変わった気がする。そもそも小学生のころは週休2日ではなく、土曜日も授業があったわけだけど……(土曜日に授業があった時代をいまの大学生

    最近の小学校は進んでる - 武蔵野日記
    dlit
    dlit 2018/11/14
    「述語項構造解析の話は小中学生には難しいか、と思っていたが、実は大人の方が文法を知らないので難しいのかも」
  • いくら相手のためだと思っていても、押し付けてはいけない - 武蔵野日記

    午前中、大阪大学の留学生センターで日語を教えてらっしゃる先生が、研究で使う茶筌のインストールを手伝ってほしい、というので masakazu-i くんとお手伝い。 実はこちらの先生がマシンを買い替える (OS をアップグレードする) 度に「ChaSen が動かなくなりました、助けてください」と連絡があってお手伝いしているのだが、前回も MeCab を入れようとして「MeCab と ChaSen では出力形式が違うので困るのです」と結局 ChaSen を入れることになった、という経緯があったため、今回も ChaSen かなぁ、と腹をくくっていた。 MeCab に詳しい人は「あれ、mecab には出力形式で -Ochasen とすれば chasen 形式にできるんじゃないの?」と思うかもしれないが、先方が使っていた Excel マクロで利用する形式と微妙に出力形式が違うので、mecabrc を

    いくら相手のためだと思っていても、押し付けてはいけない - 武蔵野日記
  • 論文の専門用語を洗い出す - 武蔵野日記

    朝起きると八王子が既に雪らしく、家のあたりも降り出していて、保育園まで久しぶりに車で行く。年度始めで新しい子や新しい保育者さんが増えて、せっかく覚え始めてきたのに、また誰が誰だか分からない……。 誕生日に「おめでとう」メッセージへの返事をするとエンドレスになるので1日待っていたが、返事を始めるとどう考えても1日で返事し切れない数あるので、少しずつお返しをすることにした。 以前は Mixi とか GREE、そしてこの日記のコメント欄でお誕生日おめでとう的な何かがあった気がするのだが、最近はほぼ Facebook である。しかし Facebook 登場以前はこんなにメッセージをいただかなかった気がするのだが、そんなにみんな突然誕生日を祝いたくなるわけがないので、メッセージの入力を促すインタフェースというのは重要だなと思う。(もしかするとこれまでつながっていた友人たちと、最近はつながっている友人

    論文の専門用語を洗い出す - 武蔵野日記
    dlit
    dlit 2015/04/10
    「初回の論文紹介なので専門用語に一つ一つ注釈を入れて紹介していたところ、2-3行に1つは専門用語があり、けっこう大変」
  • おもしろい研究テーマは自分から動かず見つかるものではない - 武蔵野日記

    朝、毎時35分に豊田駅から出ている「旭ヶ丘循環」という首都大学東京にもっとも近いバス停で停まるバスに乗ろうと思ったのだが、9:25に駅に着いたので、これは歩いた方が早いかと思って歩いたところ、途中でバスに追い抜かれた。歩きだと駅から25分かかるのであった。やはり最速は「旭ヶ丘循環」バスに乗ることのようである。 今日は事務補佐員さんがいらっしゃる日だったので、午前中は事務処理の依頼とメール処理。月に数時間でも、手伝ってくださるのは当にありがたい。月20日出勤するとして、丸1日分は確実に事務処理に取られているし、事務処理は物理的な時間以上に精神的ダメージが大きい(実際にかかった時間の3倍くらいかかっているように主観的には感じる)ので、その負担が大幅に減ると生産的に働ける時間が出てくるのである。 合間に研究室に行き、訪問留学生の翻訳タスクに関する打ち合わせ。ソースコードは GitHub で共有

    おもしろい研究テーマは自分から動かず見つかるものではない - 武蔵野日記
  • 自然言語処理の入門的な授業の構成 - 武蔵野日記

    来年度、大学院生(とやる気のある学部生)を対象とした自然言語処理の授業をする予定で、シラバスを考えているところである。形態素解析から構文解析、そして意味解析につながるオーソドックスなスタイル(必ずしも機械学習を出さなくてもよい)でやるか、あるいは機械学習を前面に出してやるか(Teaching (intro, grad) NLP 参照)、悩んだのだが、そういえば来年度は人文系の人も含めた交換留学生対象の授業(同一内容だが英語で授業)もやることを思い出し、それなら後者は難しいか……。 自分自身人文系出身なので他人事ではなく、人文系で数学に苦手意識があると、かけ算が2回以上含まれる数式はダメで、かつ割り算が1回でも含まれる数式はダメで、cosやlogが含まれる数式はそもそも意味を理解することができない(そのため、意味を考えず単なる文字列として考えるので、かえって割り算を含む数式よりよいかもしれな

    自然言語処理の入門的な授業の構成 - 武蔵野日記
  • 一つ一つ研究に必要な環境を整える - 武蔵野日記

    朝起きたときから若干調子が悪い。風邪気味である。体温が低いと体調を崩しがちなので、自転車ではなくバスに乗ってみる。最近やたら寒いし……。 今日はさきがけのシンポジウム参加のため、市ヶ谷に来てみる。市ヶ谷といえば自分的には日棋院だが、四ッ谷、飯田橋、市ヶ谷、御茶ノ水あたりは降りて駅を出ると区別がときどき分からなくなる。最近御茶ノ水の利用頻度が上がり、御茶ノ水はかろうじて分かるようになってきたが……(ただ千代田線に降りる最適ルートおよび東大構内に行く最適ルートがまだ分からない)。 さきがけというのはJSTという文科省の研究費配分期間が行っている研究助成制度で、独創的な研究をしている30-40歳くらいの若手研究者を対象に年間1,000万円くらいの研究費を3-5年に渡って支援する、という制度である。研究費的に潤うことは間違いないが、さきがけを取った、ということで分野外の人にも活動が認知されるきっ

    一つ一つ研究に必要な環境を整える - 武蔵野日記
  • 自然言語処理の研究における言語学の役割 - 武蔵野日記

    朝から研究室の夏の勉強会。 一応全部読んでみたが、どうなんだろう……。ちょっと自分は週明けのブートキャンプの準備が全然終わっていない(TA の人たちから「準備早くしてください」と言われている……ごもっとも)ので、自分の担当部分が終わったらブートキャンプの準備に戻りたいのだが、進捗が遅いようで明日の午後までかかるかもしれず。 個人的には Cross-Serial Dependencies in Dutch の章が一番おもしろかったのだが、ここはどうも飛ばすようだし、基的には過去に発表した論文をベースに(大幅に)加筆修正しているらしく、言語学の基的な知識がない人が突然読むのは厳しいだろうし、逆に言語学にある程度詳しい人にはちょっとあっさりしすぎていて、中途半端。自然言語処理的な話が載っているのは第9章だが、こういう話について知りたいならこのでなくてもいいような……。 自分は言語学から「言

    自然言語処理の研究における言語学の役割 - 武蔵野日記
  • 当日にならないと分からないというのは困りもの - 武蔵野日記

    今日は昨日とはうって変わってメール書き。書き。書き。 そういえば昨日東京三菱 UFJ 銀行に口座を作りに行ったのだが、同一人物で口座は2つ作れないと言われ、個人事業主で屋号をつけた口座を作るなら作れる、とのことだったが、開業届とかなんだとかいろいろ書類が必要だと言われて断念。1人で複数口座を持つのって昔は普通にできたと思うのだけど (というか NAIST に来てから UFJ の窓口で勧められたことすらある)、できなくなったのか。仕方ないのでゆうちょ銀行で口座を作っておく。これで (ほとんど奈良にしかない) 南都銀行を解約すれば銀行関係は一段落かな。そもそも大学から徒歩で行ける圏内に都市銀行が一つもない (M1 のころは徒歩30分くらいのところにみずほ銀行があったのだが、撤退してしまった) ので、どの都市銀行で作っても不便であることに変わりはないのだが…… 合間合間にミーティングをしたり、今

    当日にならないと分からないというのは困りもの - 武蔵野日記
    dlit
    dlit 2011/09/15
    「やっぱり他の人の発表練習に出て他の人がどのように直されているのかたくさん聞かないと、なかなか身につかないと思う 」
  • 自然言語処理リソースにまつわる諸問題 - 武蔵野日記

    午後は研究会。和歌の解析はどうしたらいいか、という話題なのだが、@togisoさんが中古和文 UniDic を作っているので、MeCab でこれを使えばいいのではないかな? 古文を対象にした研究も一定の需要はあると思うので、こういうリソースが公開されているのはありがたい。 daiti-m さんがやっていたような教師なしの単語分割がスケールすれば教師なしでやるのもおもしろいかもしれないが、とりあえず分かち書きすることが目的なのであれば、少量のデータにタグ付けして学習するのがコスト的には妥当な判断だろう。(論文を見ると上記 UniDic は源氏物語と大和物語と土佐日記と紫式部日記合計64,000語にタグ付けしたコーパスから学習しているようだ) 先日注文していたNTTの「基語データベース」が到着。 基語データベース:語義別単語親密度 作者: 天野成昭,小林哲生出版社/メーカー: 学研プラス発

    自然言語処理リソースにまつわる諸問題 - 武蔵野日記
  • 仲間が話をするときは聞きにいくもの - 武蔵野日記

    勉強会の論文紹介担当に当たっているので準備で忙しく、昼の CJE (Chinese-Japanese-English、普通は Chinese-Japanese-Korean の CJK なのだが、いま研究室に韓国の人がいないので CJE になっている)勉強会には出られず残念であった。 松研では M1 の秋以降は全員最低1つ以上の勉強会に所属し、その勉強会は(自分の発表担当でなくても、あるいは取り上げられている論文にあまり興味がなくても)毎回出席し、何回かに1回は論文紹介もしくは進捗報告をすることが義務づけられている。 義務づけの意味を考えると、定期的に進捗を報告する場所を研究室全体の週1ミーティング(研究会)とは別に設け、もっと突っ込んだ議論を持つ、という役割もあり、あるいは単に聞きにいくだけでいい非コアの勉強会と比べると、自分もなにか論文を紹介しなければならないわけで、他人の論文紹介を

    仲間が話をするときは聞きにいくもの - 武蔵野日記
    dlit
    dlit 2010/06/13
    色々同意。それにしても野矢先生に習ったとか羨まし過ぎる。
  • 人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記

    natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。 最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transform」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ? と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で

    人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記
  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
    dlit
    dlit 2009/03/29
    楽しそう。
  • 査読(peer-review)と研究者コミュニティ - 武蔵野日記

    NAACL-HLT 2009 という自然言語処理に関する国際会議(North American、つまり北米の研究者コミュニティがメインなので、この業界で3番目くらいに巨大な会議なのだが)のプログラム委員になっているので、人生初めての査読をしている。これまで国際会議や論文誌に投稿して査読を受けることはあっても、自分が査読することはなかったので、なかなか勉強になる。 査読というのは基的に同業者の書いた論文は同業者がいちばん適切に評価できるという原則で行われているもので、誰かの書いた論文を同じ研究コミュニティの中の他の誰か(投稿者と利害関係がない人が望ましい)が評価するというもの。学会によってやり方に細かい違いはあると思うが、たとえばいま査読している国際会議では Appropriateness: 1-5 Clarity: 1-5 Originality / Innovativeness: 1-

    査読(peer-review)と研究者コミュニティ - 武蔵野日記
  • 言語学と工学のあいだ - 武蔵野日記

    今年の研究室の夏の集中勉強会で読んでいる言語学系のなのだが、やはり最近工学系の文章に触れ慣れているせいか、そういうつもりで読むと隔掻痒の感がある。「この問題への対処は3種類の方法が考えられる。1つ目はAという問題点がある。2つ目はBという問題点がある。3つ目はCという問題点がある」で終わっていて、じゃあなにがいいんだ、というのが出てこない(かもっと後ろで出てくる)。特定の立場にコミットしないことで批判をかわしたいのかもしれないが、そもそも批判されたくなかったら書かなければいいような…… あと、記述が体系的でなく、つまみい的にトピックを紹介しているだけに終わっているのもいまいちな感じである。場合分けをしていても場合分けが全部を尽くしていなかったりして。「自分たちの理論は使えるものだ」と主張したいのだろうが、どういうふうにしたら使えるのか書いていないので、「で、どうするの?」と思って

    言語学と工学のあいだ - 武蔵野日記
    dlit
    dlit 2008/08/09
    どの本だろ?
  • 1