yuisekiのブックマーク - はてなブックマーク

RakutenMAによる形態素解析入門 - あんちべ！

概要本稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。本記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。また、本稿ははてな×PC工房との連動企画の補足をするべく書きました。「あんちべさんと一緒に Rakuten MA で形態素解析」はてなニュース連動企画第二弾！ : パソコン工房パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモエディタ判定器 :パソコン工房【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに近年、twitterやFacebookなどのSNSやAmazonのレビューなどから得ら

yuiseki 2015/01/09

リンク

統計屋のためのAWK入門 - あんちべ！

はじめに本稿はAWKという言語を用いて、ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。特にデータの抽出に関して恐るべき簡易さを提供します。具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけでその文字列を含む行を抽出できるのです。大変簡単ですね！また、awkはLinuxやMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。複雑な処理をする場合はPythonや

yuiseki 2014/09/16

リンク

自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！

概要この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。自然言語処理と言うと耳慣れない言葉かもしれませんが、実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。自然言語処理の適用範囲や要素技術は幅広いのですが、その中でもword2vecの特色は、冒頭でも挙げたように「意味の計算」が出来ることです。これ

yuiseki 2014/03/10

リンク

エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ！

2014/10/14 追記本書87ページに「母数」という単語が複数回出てきますが、これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、例えば正規分布は平均と分散という二つの母数によって形状が決定されます。決して母数と分母（あるいは全数）と誤解してはなりません。しかし母数と分母を混同することは本当によくあることで、本書はこのような頻出する誤解を訂正し、皆様が統計を用いる際の失敗を一つでも減らすという目的で執筆に至ったにも拘らず、まさか本書でこのような重大な失敗をしてしまったことに対し心からお詫び申し上げ訂正させて頂きます。なお、問題個所の記述は共著者の森藤氏ではなく私が記述したものであり、全責任は私にあります。本を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、人間であるためミスをす

yuiseki 2014/02/17

リンク

Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ！

こんにちは！今年の春からWeb系企業でHTML/CSSデザイナーとして働きだしたキラキラ女子（を目指してる）のあんちべ（23）です！よろしくお願いします！私は普段自社のWebサービスのCSSなどを書いている*1のですが、最近データマイニングに興味を持ち始め、データを分析して、自社サービスの売り上げ改善に貢献したいなーと思うようになりました！でも。。。私は文系出身で統計学とか全然わからない*2し、プログラミングも得意じゃない*3し、高価な統計解析ソフトを買うのも辛いです。。。無い無い尽くしですね＞＜；！そんな私に救いの手が！インストール作業不要で、便利な統計処理機能が色々あって、しかも無料という素晴らしいソフト*4を発見しました！その名も"Incanter"です！なんでも、 Lispっていう古くから使われてきた実績のあるプログラミング言語で動いてて、Lispの文法でどんな処理をすればよいかを

yuiseki 2014/02/16

lisp
tech

リンク

Clojure/kuromojiでテキストマイニング入門　～形態素解析からワードカウントまで～ - あんちべ！

[テキストマイニング] Clojureでテキストマイニングをしたい！という方がTLにいらっしゃったので、 Clojureという言語とkuromojiという形態素解析器を用いたテキストマイニング入門の記事を書きます。この記事の通り手を動かすと、様々なテキスト、例えばアンケートの自由記述やブログ、twitterなどの文章に形態素解析を掛け、ワードカウントと呼ばれる、ある単語が何回出現しているのかを解析する手法を使えるようになります。これを利用し、出現単語を頻度順に並べてランキングを作るなどして、その文書の特徴を明らかにするなどが出来るようになります。ある程度コンピュータを使えることは求めますが、プログラミングの前提知識はさほど求めていません。そのため、所々天下りなところ（ここはとりあえずこうやってください！と説明無しの記述）もありますが、ご容赦ください。形態素解析とは？形態素解析とは、

yuiseki 2014/02/16

clojure
tech

リンク

お正月なので色々ネタ的に面白そうな論文読んでみた - あんちべ！

はじめに前提知識不要の面白論文を幾つか紹介致します、暇なお正月を利用して読んでみましょう！ 1. 明治期における学生男色イメージの変容～女学生の登場に注目して～ http://ci.nii.ac.jp/naid/110006474771 概要 1900年前後の「男色」に関するイメージが「女学生」の登場によりどのように変化していったかを説明した論文。この論文によると、 ■1800年代後半から1900年くらいまで男性間の性行為を禁止する法令が施行されたりしつつも、「男色は男同士の友情を深めたり知的交流の一環であったりするのだ！」というノリで男色者は勿論知識人の中でも割と男色が肯定的に受け止められてたっぽい。そもそも周囲に女性が居らず「女性と付き合う」がほぼ遊郭などに行くことを意味していたため、「遊郭の女とかマジアホだし！あんなのと付き合っても得るものないし！*1」という感

yuiseki 2014/01/03

science

リンク

クリスマス暇過ぎて腐女子人気作品の探索的データ解析を行うしかなかった - あんちべ！

はじめにクリスマスはいつものように全く予定無かったあんちべです、こんばんは！皆様はクリスマスをお楽しみになられましたでしょうか？「今yesと答えた奴ら全員地獄に堕ちろ」ってサンタさんにお願いしておいたからな。さて、世間のリア充様がクリスマスで浮かれまくりやがっていらっしゃる中、やること無さ過ぎていつものようにpixivで腐女子向け作品を眺めていたところ、ありがたいことに寂しさを感じる暇もない勢いでどんどん作品が投稿されていました。ハッピーですね！ …………？クリスマスの真っ只中に腐女子絵を投稿している…だと！？クリスマスと言えば皆さんお楽しみのはずでは？いや、クリスマスの夜にむしろ投稿数が増加しているような気が…？という疑惑を抱いたので、実際データを色々眺めてみましょう。データの説明データはpixivから下記タイトルで検索した結果を12/26の午前中時点で各々1

yuiseki 2013/12/29

tech
culture

リンク

面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ！

転職して丁度2年がたちました。現在はWebベンチャーで統計屋しています。大変楽しい毎日です。なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。あと現職の解決しがたい不満についても書いています。糞長くなってしまったので要約すると「今糞面白いけど超えられない壁あるので誰か助けて」です。現職面白い理由5個。 1．データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした行動経済学やテキストマイニングをやっていました。そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。ですが今はSNSやソーシャルゲームや広告の

yuiseki 2013/12/03

news

リンク

進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ！

はじめに最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。これだけ人気なんだからきっと面白いに違いないのですが、なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。扱うデータとして、pixivのタグ情報を利用します。商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、そこに付与されるタグ情報は、ファンの熱（過ぎる）いメッセージが込められているに違いありません。今回、以下のような縛りを入れています。 1．勿論原作は見ない 2．pixivのタグ情報は参照するけど、

yuiseki 2013/08/05

culture
tech

リンク

15分だけLua勉強した - あんちべ！

ドットインストールとか見ながら15分だけLua勉強したのでそのメモ。 --コメント x = 10 s = "hello" print(x*2) > 20 --テーブル(連想配列)操作 t[0] = 0 t[1] = 10 t[2] = 20 t[3] = 30 t[5] = 50 for k,v in pairs(t) do print(k, v) end >1 10 >2 20 >3 30 >0 0 >5 30 for k,v in ipairs(t) do --ipairsに注意 print(k, v) end >1 10 >2 20 >3 30 --なんでこんなことになるのかよくわからない --テーブルは1から始まるっぽい --連番じゃないとそれ以降は捨てるっぽい print("hello " .. "world") --文字列連結は.. --制御構文 i = 10 if i~= 1

yuiseki 2013/07/16

tech

リンク

経済学、数学、統計学などの資料纏め - あんちべ！

※適宜追加します経済学計量経済学京大　末石直也 http://www.econ.kyoto-u.ac.jp/~sueishi/econometrics/econometrics.html 経済数学系資料 http://www.f.waseda.jp/ksuga/ 経済学のための位相数学の基礎とブラウワーの不動点定理 http://www2.chuo-u.ac.jp/keizaiken/discussno39.pdf 経済学のための最適化理論：講義ノート http://www.meijigakuin.ac.jp/~mashiyam/pdfdocs/optimization.pdf 経済学に必要な最適化理論 http://mediaislandr.org/pdf/static_optimization.pdf 経済学のための確率論入門 http://www.meijigakuin.ac.

yuiseki 2013/05/03

リンク

靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ！

やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい？面白い話がtwitterに流れていたので紹介したい。日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した靴屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う？ twitterでは皆がこのニュースに対して嘲笑を投げかけていた。そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。そう、データマイニングに必要なのは意外性だ！あの靴屋は全く馬鹿なことをしたもんだ、ゲラゲラ！ OK、笑いが取れたようなので、もう一つ同じような話

yuiseki 2013/04/24

リンク

ガチャとは心の所作

ガチャとは心の所作 View more presentations from AntiBayesian http://partake.in/events/ac0fcc7d-a289-4e2a-bb8e-1965aab8b17b Pythonの数値計算系モジュールNumpyを用いてガチャコンプに関する正しい確率認識をしましょうというスライドを作りました。ソースを置いておきます。宜しければご覧下さい。 import numpy as np import pylab as plt def gachaMain(weight, trialNum): length = len(weight) sumWeight = sum(weight) return [gachaDo(weight, length, sumWeight) for i in range(trialNum)] def gachaDo(

yuiseki 2012/03/19

リンク

統計解析アプリ「Incanter」入門 - あんちべ！

Clojure製統計解析アプリ「Incanter」は無料かつjarファイル一つでお手軽に実行できる、その上Javaの豊富なライブラリを利用したり、描画に特化したProcessingという処理系でリッチなアニメーションやインターフェイスを実装できるという面白いアプリケーションです。また、JVM上で動くため、HadoopやLuceneなどにシームレスで適用できますし、GoSenなど形態素解析アプリも簡単に呼び出せるため、自然言語処理やテキストマイニングにも活用できます。一番重要なことは、Clojureであるということ、つまり皆さんの愛するLispでコーディング出来るということです。もう一度言いますが、Lispで統計解析が出来るという喜ｂ（略）。無料の統計解析アプリというとR（あとアプリではありませんが、Python-Scipy/Numpyなど）が挙げられると思います。正直な話、Incante

yuiseki 2011/12/01

tech

リンク

テキストマイニングのための機械学習超入門　二夜目　パーセプトロン - あんちべ！

一夜目はパターン認識と機械学習の概要を学びました。今夜は、識別部で用いられる機械学習の基本的な線形識別器である「パーセプトロン」を具体的に学びたいと思います。「線形識別器？パーセプトロン？何それ？」字面は厳しいですが、手を動かしてみると意外と簡単に理解できます。今夜からは数式をバリバリ使っていきますし、手を動かしていただきます。「必ず」手元にペンと紙を用意してください。そうは言ってもパーセプトロンが一体何なのか、機械学習の中でどのような位置づけなのかがわからないと混乱するかもしれません。パーセプトロンの説明へ入る前に、機械学習の3つのアプローチをご紹介します。 ●機械学習の３つのアプローチ - 識別関数、識別モデル、生成モデル機械学習は大きく分けて識別関数、識別モデル、生成モデルという３つのアプローチがあります。識別関数 := 入力データを見て、特定のクラスに属するよう識別（代表的な手

yuiseki 2011/11/26

リンク

テキストマイニングのための機械学習超入門　一夜目 - あんちべ！

テキストマイニングに必要なパターン認識と機械学習について学びます。非常に初歩的な話から始めます。対象者は「テキストマイニングに興味があり、用いられる手法の中身を知りたい（けれど高度な数学は厳しい…）」というビジネスマンや学生さんです。数式は出来る限り「使います」。使わないと意味するところは理解できません。ただし、愚直に数式の一行一行を手計算で順を追って解いていきますし、必要な数学知識はその都度説明し、前提知識は求めませんので「数式出てくるの？じゃあついていけないのでは…」という心配は不要です。この記事の特徴は「機械学習の手法をやたら冗長な数式と過剰なまでの例を用いて、くどくどと同じ話を何度も説明する」ことです。筆者ことあんちべは純文系出身で、数学や統計学、プログラミングは全然学生時代やってこなかった上、業務でも機械学習を使うことなんて皆無、それどころか機械学習なんて言葉は就職してからよう

yuiseki 2011/11/05

リンク

退職しました - あんちべ！

昨日2011年10月31日をもちまして、約２年半お世話になった金融機関を退職しました。退職の旨を周囲にお伝えすると、驚きの声が…全く上がらず、「あんちべは５年もここに居ないだろうなってずっと思ってた」と皆さんから言われました。それどころか「なんでお前初めからベンチャー行かずに、こんな堅苦しい大企業へ来たんだ？」と問われること多数（どころか十中八九聞かれる始末…）。現職を選んだのには理由がありました。それは高校時代に遡ります。「モノづくりをして、技術で皆さんの生活をハッピーにしたい！」という思いから、進学校ではなく、某工業大学付属高校へ入学しました。技術を学ぶのは楽しく、そのまま技術屋になろうと考えていました…が、地元の工場見学で社会人と接するにつれ、徐々に「現場でどんなに頑張っても、マネジメントやそもそもの経営が上手くいってないと詮無いのでは…」という思いが募り、進路に悩みました。そん

yuiseki 2011/11/03

リンク

Python/NetworkXで簡単ネットワーク分析 - あんちべ！

slaさん主催のNumpy/Scipy勉強会でLTをします。内容はNetworkXというPythonのネットワーク分析パッケージの紹介です。 Pythonで簡単ネットワーク分析 View more presentations from AntiBayesian ネットワーク分析と言えば、PajekやRのigraphが定評有りますが、これらはどうしてもサブグラフの扱いに不満がありました。ネットワークからサブグラフを抽出するところまでは出来ますが、各サブグラフがどのような性質を持つか分析したい場合、指定したサブグラフを形成しているノード、エッジ、重みの情報を簡単に取り出す方法がありません。 NetworkXであれば、指定したノードやエッジだけ隣接行列や辺行列の形で入出力することが可能です。また、ネットワーク分析は非常に計算量が大きく、高速な演算が求められるため、データをNumpyへ

yuiseki 2011/09/01

リンク

転職（失敗）しました - あんちべ！

テキストマイニング、自然言語処理をしたいという強い思いから転職活動をした…ら失敗しました。以下、転職（失敗）活動経緯をまとめます。また、今回作成した履歴書と職務経歴書を公開致します。私自身初めての転職活動であり、職務経歴書を書いた経験が無いため苦労しました。拙いものですが、何かご参考になるようでしたら幸いです。履歴書　職務経歴書・2009年入社前後経済学科でテキストマイニングや社会ネットワーク理論などを研究し、コミュニケーション活性化などに興味を持つ。それを活かしてSNS系のベンチャー行くか大企業行くか迷うが、ベンチャーは実力さえあれば今でなくても行ける、大企業は新卒のレールに乗らないとまず入れない。大企業特有の「大規模な資金・頭数を、牛のような腰の重さでマネジメント」する機会は新卒の今しかないと思い、最初は大企業で学ぼうと現職を選択。・2010年不自然言語処理コンテストに出たり、no

yuiseki 2011/05/31

リンク

はてなブックマーク

タグ

ブックマーク / antibayesian.hateblo.jp (20)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス