中年以降の人生を考えるための5冊 今までずっと、ひたすらラクなことや楽しいことだけをやって生きていきたいと思っていたのだけど、40歳を過ぎた頃から、今までのやり方ではいろいろと行き詰まってくるようになってきました。何をやってもそんなに楽しくない。これからの人生はずっと下り坂が続いてい…
SPSSで簡単テキストマイニング View more presentations from SPSSはPythonと連携することが出来ます。SPSSは大変多機能ですが、業務で実際扱うデータは一筋縄にはいきません。様々な前処理が必要です。SPSSに落とし込めるよう、データの整備やクリーニングをPythonで簡単にやってしまいましょう。今回はテキストをSVMにかけるための下準備をPythonで行います。形態素解析にはMeCab-野良ビルドを用います。まずは頻度カウントしてみます #coding:utf-8 import sys import MeCab #MeCabを呼んで使えるようにする tagger = MeCab.Tagger("-Owakati") #分かち書きをする指定 read_file = sys.argv[1] #コマンドラインから読み込むデータファイルを指定する all_te
※2011/10/2 ver0.2になりました。 更新内容 64bit版対応 https対応 微修正 csvで吐くのが不評だったため、txtで出力(しかしボタン名修正するの忘れた… SakusakuTwitterMiningのダウンロード http://www24.atpages.jp/antibayesian/app/ 32bit版OSをお使いの方→stm32.zip 64bit版OSをお使いの方→stm64.zip ●概要 twitter Streaming APIを用いて日本語のtweetを自動収集します。 マウスクリックだけで操作可能です。 テキストマイニングをするためには、まずテキストを収集しなければなりませんが、 プログラミング経験が無いとその時点で躓いてしまいます。 誰でも簡単にtweetを収集するために作成しました。 ●ご利用頂ける環境 Windows XP以降 .NET
というわけで参加してきました。会場は数理システムさんです。第3回 さくさくテキストマイニング勉強会 : ATND 入門セッション(AntiBayesian)第三回さくさくテキストマイニング勉強会 入門セッション View more presentations from AntiBayesian 単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch ) TF*IDFの話 えっ私のテキストマイニング力低すぎ!? 例:大量のアンケートの自由回答文から重要な単語を抜き出す 例:エビオス嬢についての文章 TF*IDFとは TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数)) 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している なんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数
4/16(土)「第2回 さくさくテキストマイニング勉強会」に参加してきました。 ATND: 第2回「にこにこ」改め さくさくテキストマイニング勉強会 : ATND 運営、講師のみなさんお疲れさまでした。先週の第10回TokyoWebmining−2nd Week−大規模分散 機械学習 祭り−に続き、毎週会っているメンバーも多い。来週、再来週も会いますね。たっぷり話しましょう。 以下、各講師資料、メモ、所感まとめ。 言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 ([Twitter:@AntiBayesian]) 資料:言語処理学会へ遊びに行ったよ〜不自然言語処理へのお誘い〜 言語処理学会の中で実務に使えそうなものを紹介していく。 学会で最新の情報と仕事を得る。疑問点を解決する。 7本の論文紹介、全てスキップw Wikipediaを利用しコーパス作成、カテゴライズが流行。やってみた
というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201
ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く