タグ

algorithmとNLPに関するraimon49のブックマーク (4)

  • 最近またLinux用の日本語IMEを作っている - tokuhirom's blog

    最近またLinux用の日語IMEを作っている 件は mozc の ut がどうこうとかは関係なくて、ふと linux desktop を使おうと昨年末に思いまして、昨年末からちまちまやってます https://github.com/tokuhirom/akaza かな漢字変換って作るの難しいのかなぁ、と思ったので作ってみている。これはまさに Just for Fun でやっている。 わりと普通に自分で常用してる分には困らないかな、というところまできている。 以下は、思ってることの垂れ流しという感じで、まとまってないですが。 「日本語入力を支える技術」というが 2018年に出ていて、このの内容を読めば、だいたいエンジン部分は実装できる。Amazon のレビューではこのよんでも実装できないって書いてあるけど、変換エンジン自体は実装できます。 UI が辛い。けど。 エンジンは、ビタビア

  • Rebuild: 181: UNK Reply Bot (higepon)

    Taro Minowa さんをゲストに迎えて、ボット、機械学習AI などについて話しました。 Show Notes seq2seq の chatbot を日語で動かしてみた - Higepon’s blog ひげみbot (@higepon_bot) Convolutional neural network Sequence-to-Sequence Models ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装 TensorFlow Keras Theano Chainer 意味分からない。最初からKeras使った方が良くない?流石日人。Chainer好きすぎでしょ。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer りんな Twitter taught Microsof

    Rebuild: 181: UNK Reply Bot (higepon)
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • 異なる「しょうぶ」 を見分けるGoogle の同義語システム

    Google は、検索を使いやすくするために、日々改善を続けています。昨年は、検索結果ページのリニューアルやレシピ検索等、ユーザーの皆さんに見える機能を含め、500 以上の改善を施しています。今日は「見えにくい」改善のひとつとして、同義語システムについてご紹介します。 日語には、ひらがな、カタカナ、漢字、アルファベット等、多様な種類の文字があり、同じ言葉でも、さまざまな書き方があります。文字種違いの同義語への取り組みについては、以前の記事でもご紹介しましたが、これは、一見簡単そうで実は奥の深い問題です。一見すると、日本語入力に使っている辞書のようなものがあればよいように思いますが、人手を介さずに正しい同義語を見つけるのは単純ではありません。 たとえば、「しょうぶ」という言葉は「勝負」「菖蒲」「尚武」などさまざまな漢字を当てることができますが、それぞれ異なる意味を持っていて、探している情報

    異なる「しょうぶ」 を見分けるGoogle の同義語システム
  • 1