タグ

ブックマーク / komachi.hatenablog.com (12)

  • 教師なし機械翻訳とは何か - 武蔵野日記

    お昼から受験生の相談に乗る。来る前に隠れマルコフモデルだとか自然言語処理の基礎を勉強したり、うちの研究室の既発表論文を見たりしているそうで、かなり好印象だったのだが、併願先を聞いたら他大学のモバイルネットワークの研究室だそうで、しかも自然言語処理の研究室はうちしか調べていないと聞いて、大きく落胆する。 うちの研究室はそもそも内部進学者だけでも人数がいっぱいで、外部受験生はどうしても自然言語処理の研究がしたい、かつうちに来るそれなりの理由がある人に限定していて、他の分野でもいい人は他の分野に行ってほしい、と学生募集のページにはっきり書いてあるので、自然言語処理以外でもいい人は受験目的の見学は断りたい。自然言語処理にしようかどうか迷っていて見学によって行くかどうか判断したい、というような人がいることは重々承知しているが、そういう人にまで見学をしてもらうほどの余力は、少なくともうちの研究室にはな

    教師なし機械翻訳とは何か - 武蔵野日記
  • 10年後の全文検索エンジン - 武蔵野日記

    朝はかぼちゃフレークをべさせてみる。予想通りいつきがよい。あとはこれをおかゆに混ぜてべさせたときの反応だろうか。 先日のDSIRNLP勉強会がきっかけで、[twitter:@feeblefakie] さんから『検索エンジン自作入門』をいただく。ありがたい。 検索エンジン自作入門?手を動かしながら見渡す検索の舞台裏 作者: 山田浩之,末永匡出版社/メーカー: 技術評論社発売日: 2014/09/25メディア: Kindle版この商品を含むブログ (1件) を見るの内容を紹介されていたときも、「検索エンジンと言いながらもほぼ丸一冊転置インデックスについて説明しているで、ここまで転置インデックスについて丁寧に説明したはないと思う」とおっしゃっていた通り、非常に詳しく転置インデックスについて書かれている。 こういうについてくる擬似コードは、「擬似」コードなのに既に書ける人でないと理解

    10年後の全文検索エンジン - 武蔵野日記
    makoto15
    makoto15 2014/11/12
    []
  • 正規表現を学ぶタイミング - 武蔵野日記

    地元のクリニックに電話して、インフルエンザの予防接種に行ってくる。自分の人生でインフルエンザの予防接種を受けたのは、大学受験で浪人した年だけである。さすがに浪人した年だけは、インフルエンザで1日寝込むだけでそれまでの努力を棒に振りたくはなかったので……。(これまで34年間インフルエンザにかかったこともなかったのだが、今年初めてインフルエンザにかかったようなので、用心するに越したことはない) 注射を打ってから家に帰ってきて安静にする。来年の授業の準備で、オートマトンと形式言語について勉強する。大学にいるとゆっくりを読む時間がないのだが、家だとするするっと読めてよい(その代わり、キーボードを打たないといけないような仕事は、家ではまずできないのであるが……)。 NAIST では「オートマトン 言語理論 計算論 <1>」を使っていたのだが(リンク先は第2版、どうも第2版のほうがかなりよくなってい

    正規表現を学ぶタイミング - 武蔵野日記
  • Microsoft は Google の検索結果なんてコピーしていない - 武蔵野日記

    Google、おとり捜査でBingの「カンニング」を発見。マイクロソフトを非難という記事について、Microsoft が悪いことしたのか、という声がけっこうある。 (2011-02-07 訂正) IE の Bing ツールバーを入れただけで検索に関する行動データが送られていた、という点、ツールバーからの検索のときに行動データが送られていた、と誤解していたので、お詫びして訂正します。 @shuyo さんご指摘ありがとうございます。Search Engine Land の元記事も参照されるとよいです。日語に翻訳される過程でいろいろ情報が落ちています。 パッと見ると Microsoft に恨みがある人は坊主憎けりゃ袈裟まで憎い、と言わんばかりに「Microsoft が悪いことしたのか」と思うのだろうが、恐らく話は簡単ではない。ちょっと引用。 マイクロソフトのサーチエンジン Bing が Goo

    Microsoft は Google の検索結果なんてコピーしていない - 武蔵野日記
    makoto15
    makoto15 2011/02/08
  • 機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記

    今月号の会誌「情報処理」(2010年8月号目次)の特集は「コンピュータ将棋の不遜な挑戦」というタイトルで、ここ数年のコンピュータ将棋の発展の技術的な解説。こうやって毎年のように情報がアップデートされると非常にありがたい。 見所は鶴岡さんによる「選手権優勝記--激指の技術的改良の解説--」とktanaka先生・kanekoさんによる「大規模クラスタシステムでの実行--GPS将棋の試み--」の2記事。特に鶴岡さんによる記事は、Bonanza のよい解説にもなっており、必読である。実は、激指は 評価関数というのは,局面の形勢判断をコンピュータで行うための関数で,任意の与えられた局面に対して,どちらがどれだけ有利なのかを数値化する関数である.[...] このようなパラメータの調整は非常に手間のかかる作業だが,かつては完全に手作業で行われており,将棋プログラム開発における作業の多くの割合を占めていた

    機械学習に魂を売ったコンピュータ将棋 - 武蔵野日記
    makoto15
    makoto15 2010/08/23
  • 翻訳の不可能性について - 武蔵野日記

    今年は機械翻訳をやりたいというD1の人が1人、M2の人が1人、M1の人が2人いるので、研究室内で機械翻訳勉強会が盛り上がりそうな雰囲気を受けるのだが、自分も大学院に来たときは機械翻訳を研究しようと思っていたので、研究グループができるのは嬉しいことである。 自分が入試のときに書いた小論文にも、機械翻訳がやりたい、と書いてある(公開していて恥をさらしているのだが、他の人がどういうのを書いているのか見るのも参考になる人もいるだろうし、公開し続けている)。松先生からは入試の面接のとき「機械翻訳を研究テーマにするのは難しいかもしれないけど、入学したらおいおい分かってくるだろうから、これだけしかやりたくない、と思わず柔軟に考えて来てください」というようなことを言われたのを覚えている。 実際、機械翻訳を大学院でのメイン研究テーマにするのは難しく、自分はいろいろ模索した末、NTT 研究所の永田さんが「統

    翻訳の不可能性について - 武蔵野日記
  • これからの10年は統計的機械翻訳が発展していく過渡期 - 武蔵野日記

    この日記の読者さんから、「ソフトウェアのマニュアルの翻訳を仕事としてやっていますが、今度こそ機械翻訳が技術翻訳の世界でも使われると思うので、勉強会を開きたい」ということでメールをいただき、それならこんな感じでやってみては、というアドバイスをしたりなどしているうちに、それなら統計的機械翻訳について1回お話しましょうか、ということで、「第2回統計的機械翻訳研究会」なるものにお呼ばれしてお話してきた。参加者は技術翻訳のプロの方々8名ほど。みなさん先進的な方々で、機械翻訳は毛嫌いするというわけではなく、使えるものがあったらぜひ使いたい、そのために統計翻訳がどういうものか勉強したい、という熱心な方々だったので、2時間の予定が2.5時間話してまだ話が尽きず、懇親会でも2時間くらいお話ししたりして(機械翻訳の問題点や技術翻訳でここが困っているなんていうことについて)、こちらがむしろ恐縮したり。 特に懇親

    これからの10年は統計的機械翻訳が発展していく過渡期 - 武蔵野日記
  • 統計翻訳での並べ替えは徹底的に〜NTCIR 特許翻訳タスク - 武蔵野日記

    情報検索に関する国際ワークショップ、NTCIR の3日目である。自分はこれの特許翻訳に関するタスクに参加しており、今日はそのポスター発表だったので、ポスター担いで行ってくる。 午前中は特許翻訳タスクの概要と、参加したチームの中からいくつか選ばれた(もしくは自分で希望した)チームが口頭発表。京都大学や NTT などいつも出てくるチームの説明は変わらないが、MIT の Michael Collins のところの学生さんで、現在 Googleエンジニアとして働いている人の発表はおもしろかった。 Jason Katz-Brown and Michael Collins. Syntactic Reordering in Preprocessing for Japanese→English Translation: MIT System Description for NTCIR-7 Pate

    統計翻訳での並べ替えは徹底的に〜NTCIR 特許翻訳タスク - 武蔵野日記
  • 「日本語」と「国語」について読んでおきたい3冊 - 武蔵野日記

    前出のは論文ではなく随筆(もしくは随筆風小説)であって、論考であるかのようにこちらやこちらで取り上げられてしまったのが不幸の始まりかなと思うのだが、随筆として読めば「よく月刊誌に載っていそうな内容」の随筆なので、そういうのがおもしろいと思う人にはおもしろいと思う。 前半のハイライトとしては「アメリカに住むことになってしまったけど、英語も好きじゃなくて日語ラブで、大きくなって日語の小説家になったが、国際ワークショップに参加したら英語で議論しないといけなくて億劫である」という、なんとも日人好みの設定だなぁ、と思うわけである。これ、アメリカで育って英語ペラペラでアメリカに住んでいる場合、こういう迎えられ方しないだろうし、逆に最初から日で大きくなって国際ワークショップに呼ばれた人ならこうも書かないだろう。その自虐的なところが日人のココロをくすぐるのだろうか……。そのあたりが評価分かれる

    「日本語」と「国語」について読んでおきたい3冊 - 武蔵野日記
  • 日本語が工学の言語になろうとしていた時期 - 武蔵野日記

    昨日のエントリに関して何人かから「研究者」として紹介されたのがちょっと嬉しかった。国語問題に関しては4年前の研究で、しかも続きをやっていないので、なんとも言えないけど……。 アイデアはいくつかあって、特に関心があったのは、大東亜共栄圏の学術語(前述ので言えば「共通語」)として日語が生き残る、という筋道は、日が植民地時代の言語政策にもう少し関心があれば、ありえたと思うし、それについてもっと検証したい、と言うのが一番大きい。 たとえばトラックバックいただいたが英語とかガラパゴスとかフラット化とかで、つらつらと考えること。で 他の国が多くの分野で一番になったら、その国の言語が共通言語になることがあるかもしれない。しかし、アメリカが建前であっても自由の国で他の国からどんどん人を集める限り、アメリカが一番であり続けるだろう。ロシア中国政治的に、フランスや日は面積的にアメリカと同じことはで

    日本語が工学の言語になろうとしていた時期 - 武蔵野日記
  • 楽天はあの規模なのに手作業を続けている - 武蔵野日記

    trombik さんの日記から、インフラエンジニア討論会に行ってきたけど。 自然言語処理が使える分野でも、企業では手作業で仕事をしたりすることがまだまだ多い(常に機械化したほうがいいわけではないが、ほとんどの場合、全行程を機械化しないまでも、機械的な処理を補助的に使った方が圧倒的に効率がよい)のだが、なかなか「人手神話」を崩すのは難しい。 つい先日計量国語学を研究している人から聞いたのだが、彼女が ChaSen で形態素解析して言語教育系の研究会で報告したところ、「形態素解析の精度はいくらだ」と言われ、次は言われたとおりに精度を書いたのに「そんな研究はうちでは評価できないから、違う分野で発表してほしい」と言われたそうだ。文系の人の気持ちとしては、人手でやったら精度は100%だから、機械で処理して精度が95%でもそんなものは信用できない、というココロなのだろう。 自然言語処理の門を叩いて4年

    楽天はあの規模なのに手作業を続けている - 武蔵野日記
    makoto15
    makoto15 2008/12/25
  • 日本語が亡びるとき、IME も亡びる - 生駒日記

    各地で噂に(?)なっていた 日語が亡びるとき―英語の世紀の中で 作者: 水村美苗出版社/メーカー: 筑摩書房発売日: 2008/11/05メディア: 単行購入: 169人 クリック: 12,657回この商品を含むブログ (459件) を見る を読んでみた。なんだこれは……。歴史的な認識の誤りとか日の国語国字問題とかそういう部分での知識の欠如とか多すぎて話にならない。まずこれは「論文」ではない。一言で要約すると「ワタシは明治・大正時代の日小説が美しくて好きだ。なぜならその時代の日小説家は知識人だったからだ。この美しい日語の小説が読まれなくなるのは腹立たしいので、日の若い世代でも明治時代の小説が読めるように、日政府はちゃんと日語を教育しなければならない」というものである。気持ちは分からないでもないが、そういう気持ちがあったとしても、他人を説得する文章を書きたいのであれば、

    日本語が亡びるとき、IME も亡びる - 生駒日記
  • 1