つい先週,機械翻訳で驚くべき進展がありました. 教師なし機械翻訳がヤバい進化を遂げててびっくりした.たった半年でBLEUスコアを15から25に改善したのブレイクスルーでは?https://t.co/SVQlYYu2Pt 教師なし学習でこのクオリティの機械翻訳できるのまじで感動するし,ちょっと語っていい? pic.twitter.com/fBllGtTkgb— Ryobot | りょぼっと (@_Ryobot) 2018年4月23日 要約すると教師なし学習でもひと昔前の教師あり学習の機械翻訳に匹敵する性能を獲得できたというのです.この記事では機械翻訳を知らない初心者にもわかるように魔法のような教師なし機械翻訳の仕組みを説明したいと思います. 教師あり学習の限界 機械翻訳はディープラーニングを適用することで急激に進歩した分野の1つだと思います.Google 翻訳はニューラル機械翻訳を導入するこ
これを行ったのは、東京共済病院腎臓高血圧内科部長、東京医科歯科大学臨床教授などを務める神田英一郎氏。日本腎臓学会の組織した委員会による、慢性腎臓病(CKD)をテーマとした「エビデンスに基づくCKD診療ガイドライン2018」(未出版)の作成に関わった。その作成プロセスにおいて、論文スクリーニング作業の負担が重いことから、機械学習の活用を思い付き、「第3のスクリーニング担当者」を生み出した。 以下では、同氏の説明に基づき、これを紹介する。 「心の折れる作業」をどう軽減できるか 医療の世界では、「EBM(Evidence Based Medicine)」への取り組みが進められてきた。EBMとは、「医療行為は最新、最良の科学的根拠に基づいて行うべき」という考え方だ。診療ガイドラインは、EBM推進の観点から、臨床現場での意思決定における判断材料の1つとして利用することを目的とした文書で、各専門分野の
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。 単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。 これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。 本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。 これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。 イメージ的には、以下のような感じで単語をクラスタにまとめます。 では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。 準備 まずは、作業用のディレクトリを作成しておきましょう。 また、必要に応じて Python の仮想環境も用意します。 以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前(以下、材料名)の正規化があります。 クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。 さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。 これは異表記同義(いわゆる表記揺れ)の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。
この記事はGoodpatch Advent Calendar 2016、21日目の記事です。 先日退職ブログを書いたばかりですが「今年も書いて良いよ」と言われ図々しく書いてます。 昨日はえんぴのQAについての記事でした。 qiita.com 私の記事ではタイトルの通り、ナイーブベイズを利用した自動カテゴリ判定器を先日作った話をしたいと思います。 参考にした記事 以下、こちらの記事にかなりお世話になっております。先人すばらしい。 qiita.com ナイーブベイズって何? 昨年のこのアドベントカレンダーでベイズ理論の話をしましたが、その中でも語っているやつです。 migi.hatenablog.com 実は、これはGmailなどのスパムフィルターにも使われている技術です。 「出会い」や「寂しい」といったメールに含まれている単語それぞれに、その単語が含まれていた時にそのメールがスパムメールであ
ここ最近、Google翻訳がリニューアルされ、性能が向上したという話が流れてきたので、さっそく試してみた。 ぼくが真っ先に試したのは、「母は、父が誕生日を忘れたので、怒っている。」だ。 なぜこの文が気にかかっていたかは後述する。 結果は次の通り。 "My mother is angry because my father forgot her birthday." すばらしい。 では、「母は、父が鞄を忘れたので、怒っている。」はどうだろうか。 "My mother is angry because my father forgot his bag." 完璧だ! 「誕生日を忘れた」の場合は「母の誕生日」と解釈し、「鞄を忘れた」の場合は「父の鞄」と解釈する。 これこそ、利用者が翻訳に求めるものじゃないだろうか。 しかし、ここまでだった。 次にぼくは、「父」と「母」を入れ替え、「父は、母が誕生日
この記事は、去年私が書いた「Machine Learning in a Week(機械学習に挑んだ一週間)」という記事の続編です。その記事では、私が5日間集中的に機械学習を学び、のめり込んでいった経緯について説明しています。 機械学習に挑んだ一週間 一般の人にとって機械学習の分野に足を踏み入れるのは、無謀なことに思えるでしょう。medium.com 私は順調なスタートを切った後も、時間を見つけて勉強を続け、およそ一年後には、仕事で機械学習を活用した初プロジェクトを立ち上げることができました。そのプロジェクトでは、さまざまなタイプの機械学習や自然言語処理(NLP)の技術を駆使して、 Xeneta の 潜在顧客の特定 を行っています。 趣味でやっていたことが仕事になって、とても嬉しかったです。 同時に、仕事として機械学習を利用するのは博士号を持つ限られた人だけだ、という思い込みも払拭されました
先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。 今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616
最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。 以下
* NTT daichi@cslab.kecl.ntt.co.jp 2011 2011-3-10(Fri), z PDF : http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf – , “ ” z ( , , , ...) – ...(Brain damaged!) Twitter Blog z (“ ”,“ ”,“ ”...) – z ... CSJ (+, ACL2009) z , – : NPYLM (Nested Pitman-Yor LM) 1 2 10 50 100 200 NPYLM as a Semi-Markov model z Semi-Markov HMM (Murphy 02, Ostendorf 96) +MCMC z (n ) BOS EOS Æ z , – “ ”, “ ” – “ ”Æ“ ”, “ ”Æ“
ある国際会議のkeynote Speechの中で紹介されていた話。非常に面白かった。 Wired: How a Math Genius Hacked OkCupid to Find True Love 「いまどきの若い男は、なんでもコンピュータか!」とか思われるかもしれないけど、何をしたのかを読んでみると「これって、単なるナンパの方が楽だったんじゃないか?」と思わされる。 登場人物のスペック この人の経歴がアメリカ的。 名前:Chris McKinlay (35歳) 経歴 2001年:Middlebury College を卒業。専攻は中国語 同年:世界貿易センターで中国語から英語への翻訳のアルバイト。アルバイトを辞めた5週間後に9・11。 〜2002年:その後、友達に誘われて、an offshoot of MIT’s famed professional blackjack team に
第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄
来年度、大学院生(とやる気のある学部生)を対象とした自然言語処理の授業をする予定で、シラバスを考えているところである。形態素解析から構文解析、そして意味解析につながるオーソドックスなスタイル(必ずしも機械学習を出さなくてもよい)でやるか、あるいは機械学習を前面に出してやるか(Teaching (intro, grad) NLP 参照)、悩んだのだが、そういえば来年度は人文系の人も含めた交換留学生対象の授業(同一内容だが英語で授業)もやることを思い出し、それなら後者は難しいか……。 自分自身人文系出身なので他人事ではなく、人文系で数学に苦手意識があると、かけ算が2回以上含まれる数式はダメで、かつ割り算が1回でも含まれる数式はダメで、cosやlogが含まれる数式はそもそも意味を理解することができない(そのため、意味を考えず単なる文字列として考えるので、かえって割り算を含む数式よりよいかもしれな
転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の
11/27-28 に京都で開催された WebDB Forum 2013(第6回 Webとデータベースに関するフォーラム) の、サイボウズの技術報告セッションにて「どの言語でつぶやかれたのか、機械が知る方法」という題で発表させてもらいました。聞いて下さった方(ustream 中継含む)、関係各位、ありがとうございました。 発表資料はこちら。 どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013 from Shuyo Nakatani テーマは過去に発表済みの「∞-gram ロジスティック回帰を使った短文言語判定」なので、技術的に目新しいことは特にない。実装が新しくなったり、細かい工夫はちらほらなくもないんだけど、そのあたりは基本端折ってしまったし。20分ちょっとの発表時間でモデルの話をすると大火傷を負うことは身にしみてわかっちゃったんだ……。 というわけで、「twitter や
人工知能学会誌 Vol.18 No.5 (2003年9月) 目 次 特集:「遺伝的アルゴリズムの発展」 特集「遺伝的アルゴリズムの発展」の編集にあたって ……………………………………… 山村雅幸・喜多 一・小野 功 477 確率分布推定に基づく実数値GA の新展開 ……………… 佐久間 淳・小林重信 479 ベイジアン最適化手法と分布推定アルゴリズムの動向 ……………………………………. 倉橋節也・勝又勇治・寺野隆雄 487 航空機の多目的最適設計 ……………………………………… 大林 茂 495 実数値GA のバイオ分野への応用 ―大規模遺伝子ネットワークの相互作用推定― …………. 岡本正宏・小野 功 502 GAによる不確実な適応度関数の最適化 ………………….. 喜多 一・佐野泰仁 510 特集:「機械学習,それが人に及ばざる理由」 特集「機械学習,それが人に及ばざる理由」の企画
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く