データマイニングとは? 「データマイニング(Data mining)」という言葉は最近では広く使われていますが、あまり理系的な勉強をしてこなかった…という方のために簡単に解説します。 直訳して「データ採掘」とも言えますが、その名の通り、 まるで鉱山のような大量のデータから、価値のあるデータ(知識)を取り出す技術のことです。 かといって上のイラストのような手作業で探していては非効率すぎます。 そこでデータ解析といって、パタン認識、人工知能(AI)、統計学といったものを使って、見つけ出していきます。 特にインターネット上のウェブページにおいては「ウェブマイニング」などと呼ぶこともあります。 他にも「テキストマイニング」「イメージマイニング」「パターンマイニング」…などもあります。 最近では当たり前のように、ビジネスで利益につながる知識を見つけるために、データマイニング技術が利用され
はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“明確に”わからない。 このような問題を解決するには、
システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。 この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)
『データの見えざる手』を読みました。 この本は、ウエアラブルセンサという人に装着するセンサを利用して、24時間人間の行動を記録したビッグデータから人間社会の新たな発見について書かれたものです。 今まで理系の本は、興味が湧かなかったので読んでこなかったのですが、この本は興味のない私でも楽しめました。経済や経営といった社会科学が科学的に明らかになっていき、今までの人間や社会の常識が覆されていくのが面白かったです。 今回は、この本を読んで驚いた、ビッグデータで明らかになった人間や社会の法則をいくつか紹介したいと思います。 Photo:big-data_conew1 By luckey_sun 人間の行動は決まっている 人が1日に行動できる回数は決まっていることが、ビッグデータによって明らかになりました。そのデータの要約は以下の通り。 人は、1日の中で約7万回の腕の動きをしており、人の行動の種類が
6月12日~14日に開催される「Interop Tokyo カンファレンス 2024」にてデー... データセンター 2024年06月05日 【機能強化】IDCFクラウドで「オートスケール」の提供を開始しました クラウド 2024年06月05日 三井物産・三井情報・ゼウレカが企画・提供・運用する「Tokyo-1」のAIスパコン稼働環境にI... データセンター 2024年05月22日 6月7日開催「Japan Cloud & Datacenter Convention ... その他 2024年05月15日 IDCフロンティア、小・中規模のWebサイト向けに純国産ホスト型WAF「SiteGuard S... サービス 2024年05月09日 【帯域追加】「バーチャルブリッジ(インターコネクト:メガクラウド)」に50Mbps~500Mb... サービス 2024年05月09日 日本最大級の小
はじめに 今回紹介する本は玄人向けではなく「データ分析が重要そうだけど、なんだかよくわかんないと思っている人」向けです。 昨今ではデータマイニングという単語がエンジニアやマーケティング担当者のものだけでなく、経営レイヤーでも重要視されてきています。 ビッグデータというバズワード的なものも頻繁に言われ始めて、めんどくさい上司とかはとにかく口にし出すような状況ではないでしょうか?(想像です) 勉強しないと!と思いはするものの、統計やらHadoopやらRやら、それにまつわるものが多すぎて何から手をつけていいのかわからないもの。 というわけで、私が最近読んだ中でも「何ができるものなのか」という浅く広いテーマについて触れている本をいくつか紹介します。 統計学 統計学が最強の学問である 作者:西内 啓ダイヤモンド社Amazon cakesの連載をまとめた本ですが、統計学がどういった分野に使われているの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く