タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

HadoopとProgrammingに関するagwのブックマーク (11)

  • Charming Python: Functional programming in Python, Part 3

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Charming Python: Functional programming in Python, Part 3
  • Pigとは?:Hadoop上で稼動するスクリプト環境|データ分析用語を解説 - GiXo Ltd.

    記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) Hadoopプラットフォーム上でのデータ操作をJavaより簡単にプログラムしたい 日は「Pig」という言葉を解説します。PigはHadoopによる高速なビッグデータ処理をより簡単に利用する為の「Hadoop上で動作するソフトウェア」です。 以前の記事で「Hadoop(ハドゥープ)」とは、 巨大データの取り扱いを目的とした分散処理のフレームワークである 分散処理によってビッグデータを高速に処理することができる Hadoopの利用者は自作したデータ処理のプログラムや他者が開発したツールプログラムをHadoop内に組み込んでビッグデータ処理を行う と説明させていただきました。Hadoopの登場や広まりによってビッグデータ分析処理は劇的に効率化され、多くのデータ分析業務に携わる

    Pigとは?:Hadoop上で稼動するスクリプト環境|データ分析用語を解説 - GiXo Ltd.
  • 大規模なデータセットを効率的に扱うための Pig 超入門 - (゚∀゚)o彡 sasata299's blog

    2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。 最近は TwitterYahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・ 今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。

  • Apache Pig で大規模データセットを分散処理する - Qiita

    Apache Pig とは Apache Pig は簡潔に Hadoop でのクエリーを記述することのできる高水準な言語です。 このように高水準な記述で大規模なデータセットを扱えるドメイン固有言語のようなものは他にもいくつかありますが、現時点では Pig はその柔軟さや拡張性という面からかなり優位性が高いのではないかと思います。 種類 説明

    Apache Pig で大規模データセットを分散処理する - Qiita
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 分散処理技術「Hadoop」とは:NTTデータのHadoopソリューション

    分散処理技術「Hadoop」とは Hadoopとは、大規模データの蓄積・分析を分散処理技術によって実現するオープンソースのミドルウェアです。 Apacheプロジェクトの元で、Hortonworks社、米国Yahoo!社、Cloudera社といった初期から参加していた企業に加えて、 Intel社、Microsoft社などより多くの企業のメンバーによって開発が続けられています。 Hadoop登場の背景 Hadoopは、Google社が論文として公開した、Google社内の以下の基盤技術をオープンソースとして実装したものを利用しています。 * GFS (Google File System : Google社の分散ファイルシステム) * Google MapReduce (Google社での分散処理技術) 検索サービスで扱うWebページの情報をGFSに保存して、検索用インデックスをGoogle

  • 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)

    ■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 日Hadoopユーザー会 濱野 賢一朗/Kenichiro Hamano (NTTデータ)Read less

    40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
  • Hadoopとは何か? これまでのおさらいと最新動向

    大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。そしてそのHadoop自体も、日々進化し続けています。Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そこで2

    Hadoopとは何か? これまでのおさらいと最新動向
  • Hadoopとは - Qiita

    Hadoopに関する基的な内容をまとめてみたものです。Hadoopに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。 Hadoopとは Hadoopの概要 Hadoopは、 ・テキスト ・画像 ・ログ などの構造化されていないデータを、高速に処理出来るオープンソースのプラットフォームです。 Hadoopは大規模なデータの処理に適しているだけではく、複数のコンピュータで処理を行う分散処理を可能としている点が特徴となっています。 従来の分残処理は処理を分散するだけものが多かったのですが、Hadoopの分散処理はデータも複数のコンピュータに分散させる事で、容易にスケールアウト出来るようになりました。 そのため、Hadoopを使えばビッグデータを処理するシステムは低コストで構築出来ると、注目を集めています。 分散処理を可能とするHDFSとMapReduce Hadoopの分

    Hadoopとは - Qiita
  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
    agw
    agw 2017/07/12
  • 1