タグ

ブックマーク / antibayesian.hateblo.jp (6)

  • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

    概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

    自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
    kimutansk
    kimutansk 2014/03/10
    最新手法をこのテーマに適用するあたりに浪漫を感じます。 とまぁ、こういう方向付けをした推薦は面白いですね。
  • Clojure/Incanter/clj-mlでデータマイニング入門 - あんちべ!

    概要 Clojureでデータマイニングに必要な各手法を解説する記事です。 記事を読むと、全くClojureを知らない方でも データ抽出・集計 可視化 機械学習(決定木、ランダムフォレスト、k-meansクラスタリング) をClojureで実行できるようになります。 はじめに ClojureとはJVM上で動く(つまりOSを問わず沢山の環境で動く上に Java資産をそのまま使える)Lisp系の言語です。 Clojureではデータマイニングを行う際、 Incanterとclj-mlという2つの便利なツールがあります。 Incanterは統計処理用の専門ライブラリで、 単体で様々な統計分析を行ったり集計を便利にしたりする機能が沢山用意されています。 clj-mlはwekaという機械学習系のツールをClojureで簡単に使えるようにしたラッパーで、 決定木やランダムフォレストなどの分類器や 各種ク

    Clojure/Incanter/clj-mlでデータマイニング入門 - あんちべ!
    kimutansk
    kimutansk 2014/02/17
    Clojureでもきちんと機械学習用のライブラリありますか。この位の構文であれば問題なく理解できますし、よさそうです。
  • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

    転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!
    kimutansk
    kimutansk 2013/12/03
    「入社理由はデータが面白そうだったからであって「社員みんな仲良しで充実した業務内容です!」とかに惹かれたわけでは全くない。」と。わかりやすくていいですね
  • 進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!

    はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、

    進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!
    kimutansk
    kimutansk 2013/08/04
    大体あっているあたりがすごいですね。 そしてよくわからない世界の内容も含まれています・・・
  • テキストマイニングのための機械学習超入門 一夜目 - あんちべ!

    テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい(けれど高度な数学は厳しい…)」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの?じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。 筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう

    テキストマイニングのための機械学習超入門 一夜目 - あんちべ!
    kimutansk
    kimutansk 2013/07/29
    Clojureの記事を読みに来たはずが、いつの間にかに機械学習の記事を読み込んでいる罠。まぁ、全く問題はないんですが。
  • 新社会人の君へ-disるということについて - あんちべ!

    「ご趣味は?」と聞かれて「Lispをdisることですね(キリッ」と答えてしまい、 合コン開始4秒で蚊帳の外に放り出されるあんちべです、こんばんは。 今から長い文章を書く。 結論だけさっさと言っちゃうと 「まぁ、初めのうちは、あんまり『○○は使えない』とかdisらない方が良いよ」の一言だ。 さぁ、それで話しはおしまい。もし暇だったら続きも読んで欲しい。 (あと、この文章はたった一人のために書いた。 ちょっと妙に聞こえるところもあるだろうけど、そこは聞き流して欲しい) 私はよくいろんなものを嫌いだ嫌いだとdisる。 にわかベイジアンが嫌い(話すと長くなる)、Javaが嫌い(JVMは愛してる)、Perlが嫌い、 MavenとかCVSとかが嫌い、アジャイルアジャイル言ってる人が嫌い(アジャイルが嫌いなわけじゃないよ)… 言い出したらキリがない!毎日新しいdisりの種が沸いてくるんだ! 何度か様々な

    新社会人の君へ-disるということについて - あんちべ!
    kimutansk
    kimutansk 2013/04/24
    いろんなものを嫌い嫌い言っているのかもしれませんが、やさしい記事ですねぇ
  • 1