サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
都知事選
datasciesotist.hatenablog.jp
執筆時のBGM:アイドルネッサンス「夏の決心」 アイドルネッサンス「夏の決心」(MV) まえがき 世の中の「でーたさいえんてぃすと」はとうの昔に通り過ぎてしまったところだろうけど、「言葉の意味」をベクトル空間にマッピングして、様々に操作(計算)できるword2vecで遊んでみた記録。 自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData (PDF)深層学習の最近の進展 みずほ情報総研技報 Vol.7 No.1 前提 今回は、慣れているR(最近はMicrosoft R Open)のwordVectorsパッケージを使う。また、テキストデータは、昨年夏前ころにダウンロードした、Wikipedia日本語版のダンプXMLを使う。 作業環境 たまたま、自分のPCがそうだ、というだけなのだけど。ただ、メモリは十分に必要。ソフトウェア類は、基本的に最新のものをダウンロードすれ
(1)としたものの、続かないかもしれない。ただ、自分の業務上のニーズとして、可能な限り同じ作業の繰り返しを避けて、定型的なレポートは自動生成したい、というのがあるので、やりかたを調べてみた。 ……knitr使えとか、RMarkdownがいいぞ、とかあるのだけど、残念ながらこのセカイはPowerPointとExcelで満たされている。なので、PowerPointに出力する。 RからPowerPointを操作するのに必要なもの もちろんPowerPointは必要だが、他にいくつかのRパッケージを導入する。 R2PPT https://cran.r-project.org/web/packages/R2PPT/index.html 名前の通り、RからPowerPointを操作するためのパッケージ。しばらく更新されていないが、Windows 10+Office 2013の環境で動いた RDCOMC
いつも自分でしゃべっていて、「検索したらヒントが出てきますよ」と言っているのだけど、参照先がうまく紹介できないので、研修のネタ帳として。 オフラインのパソコンでRを使う データ分析を専門にしている方からすると信じられないかもしれないが、一般的なIT企業や官公庁ではいろいろセキュリティが厳しいので、限られたパソコンしかインターネットに接続できないことが多い(らしい。お客さんと話をすると)。 特に、「分析したくなる」データを扱うようなパソコンは、尚更ネットには繋げないかもしれない。 そのようなオフラインのパソコンでRを使いたいとき、問題になるのはパッケージの導入である。Rは、まぁ最初にCDか何かでインストーラを持ち込めばよいが、その後必要に応じてパッケージを導入したいときに、 install.packages が使えないのは不便だ。特に、依存関係を手動で解決しなければならない、というのが困難だ
ということで、実際には1台のコンピュータ上なうえ、仮想化のオーバーヘッドもあるので「分散並列」で「高速」な処理はできないのだけど、動作検証ができる環境の作り方。 前提 仮想マシンホスト CPU: Intel Core i7 4770(8コア) メモリ: 24GB OS: Windows 7 Professional VirtualBox: 4.3.10 r93012 ゲストOS: CentOS 6.5 64bit もっとも、上記の環境はあくまで手元がそうだから、というだけで、VirtualBoxは最新版をインストールすればよいし、ゲストOSもCDHがインストールできるならUbuntuでもSLES(Suse)でもなんでもよい。 VirtualBoxで仮想マシンを作成 CDH5*1をインストールし、Sparkを動かすための仮想マシンを作る。CPU4コア、メモリ8GBを割り振る。ディスクは80G
このページを最初にブックマークしてみませんか?
『データサイエ「ソ」ティストは語る』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く