タグ

ブックマーク / antibayesian.hateblo.jp (4)

  • RakutenMAによる形態素解析入門 - あんちべ!

    概要 稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。 また、稿ははてな×PC工房との連動企画の補足をするべく書きました。 「あんちべさんと一緒に Rakuten MA で形態素解析はてなニュース連動企画 第二弾! : パソコン工房 パソコン工房のPCで遊ぼう第2弾! あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモ エディタ判定器 :パソコン工房 【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに 近年、twitterやFacebookなどのSNSAmazonのレビューなどから得ら

    RakutenMAによる形態素解析入門 - あんちべ!
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
    zmsgnk
    zmsgnk 2014/11/28
  • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

    概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

    自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
  • Rによるtwitterテキストマイニング 〜テキストに対する学習とは〜 - あんちべ!

    あんちべのすべらない話〜俺のツイートがこんなにウケないはずがない〜 View more presentations from AntiBayesian 自分のtweetがウケるか滑るかをpostする前にrandomForestで判別してみよう! LTは制限時間10分だったため、詳細は意図的に省きました。 記事では皆さんにも実践頂けるよう、学習データの作り方についてスライドより詳しく説明したいと思います。 ●そもそも「学習する」とは? 今回の目的は、自分のツイートがfav(面白い), non(普通)のどちらになるか分類することです。 そのためには「favになるツイートはどのような特徴を持っているか?」を明らかにしなければなりません。 特徴が明らかになっていれば、 ・このツイートはfavの特徴を強く持っている→favに分類 ・このツイートはfavの特徴を殆ど持っていない→nonに分類 という

    Rによるtwitterテキストマイニング 〜テキストに対する学習とは〜 - あんちべ!
  • 1