並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 2922件

新着順 人気順

hdfsの検索結果281 - 320 件 / 2922件

  • アプリ屋がつくった分散ストレージソフトウェア「Scality RING」が普通でない理由

    スケールアウトストレージソフトウェア「Scality RING」を開発・提供する米スキャリティは3月5日、日本法人スキャリティ・ジャパンを設立した。この製品は他とどう違うのかを、米本社COOに聞いた。 米Scalityは3月5日、日本法人スキャリティ・ジャパンを設立、日本での本格的な事業展開を開始した。国内大手携帯キャリア3社のうち2社が電子メール用ストレージとして採用するなど、すでに国内における販売実績もある。日本法人社長に就任した江尾浩昌氏は、最優先事項として技術サポート体制の充実を挙げている。 ペタバイトレベルのデータがある組織のためのストレージ Scality RINGは、汎用サーバーを用い、大規模なオブジェクト/ファイルストレージを構築できるソフトウェア。200TB以上のストレージニーズを持つ組織が利用の目安だが、1PBを超えるあたりから同製品の優位性が明確化してくるという。同社

      アプリ屋がつくった分散ストレージソフトウェア「Scality RING」が普通でない理由
    • Clouderaで作るデータ分析環境 - 科学と非科学の迷宮

      wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日本語の本も出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、Python、Javascript、Ruby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら

        Clouderaで作るデータ分析環境 - 科学と非科学の迷宮
      • hadoopのバージョン表記について - 科学と非科学の迷宮

        (2012/01/10 追記) Cloudera 社から hadoop 1.0 に関する公式ブログ記事が公開されました。そちらの方がより分かりやすく正確に書いています。まずはそちらをご覧ください。 先日 hadoop-1.0 がリリースされたことが巷で話題になっています。 話題になること自体は構わないのですが、この 1.0 が実は 0.20 系の派生だということはあまり理解されていないように見えます。 1.0.0 は従来のバージョンナンバリングポリシーで言えば 0.20.205.1 に相当するものです。 つまり、最新版 0.23 で採用された MapReduce2 を初めとする様々な新機能はこの 1.0 には入っていないということです。 わかりやすく図にしてみました。 よって、新機能を試したいとかいう人には全くおすすめしません。 また、上記の通り既存のバージョンとなんら変わりがないので、た

          hadoopのバージョン表記について - 科学と非科学の迷宮
        • 「最前線で戦う若手インフラエンジニアたちが語る「技術トレンド」と「数年後の未来」」 - JTF2015 (July Tech Festa)

          10:00 - 11:00 《基調講演》 ベンチャーCTO、AWSエバンジェリストを経て考える、クラウド時代に向き合うエンジニア像のこれから 対象: 初級 概要: インターネット、モバイル、クラウド、21世紀の3つの技術トレンドと言われるこれらの技術はエンジニアの働き方も大きく変えようとしています。このセッションでは、スタートアップ企業のCTOと、AWSエバンジェリストの経歴をたどった視点から、クラウド時代の真っ只中で、私達エンジニアの働き方はどう変わるのか、技術との接し方や、その時どうしたら幸せになれるのか、未来像をお話いたします。 堀内 康弘 1978年生まれ。慶應義塾大学大学院理工学研究科修士課程修了。 株式会社ブイキューブにて、学生時代からWebシステム開発に携わり、卒業後は取締役として開発をリードする。その後動画共有サービス「FlipClip」の立ち上げを経て、2009年、創業期

            「最前線で戦う若手インフラエンジニアたちが語る「技術トレンド」と「数年後の未来」」 - JTF2015 (July Tech Festa)
          • The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog

            Overview In the Big Data business running fewer larger clusters is cheaper than running more small clusters. Larger clusters also process larger data sets and support more jobs and users. The Apache Hadoop MapReduce framework has hit a scalability limit around 4,000 machines. We are developing the next generation of Apache Hadoop MapReduce that factors the framework into a generic resource schedu

            • HBaseの開発者がHadoop、BigTable、分散データベースについて語る

              Google が最近リリースしたGoogle Application Engineと、それが持つBigTableへのアクセス機能により、(RDBの)代替となるデータベース技術への感心が新たに盛り上がっている。数週間前にInfoQは、GoogleのBigTableデータベースから着想を得て始められた、Hypertableプロジェクトの創始者であるDoug Juddにインタビュー(source)を行った。今週InfoQは、HBase(サイト・英語)の主要な開発者であるJim Kellerman 、Michael Stack、Bryan Duxburyへのインタビューを行った。HBaseはオープンソースで分散型、列指向のデータストアで、BigTableを手本として作成された物である。 1. HBaseについて初めて聞く、と言う方に対しての説明をお願いします。 HBase はオープンソースで分散型

                HBaseの開発者がHadoop、BigTable、分散データベースについて語る
              • 障害に強いscribeサーバ構成と設定 - たごもりすメモ

                scribeによるログ配送についていくらか試したりしつつ実戦投入しているのでその話。 今のところピーク時で20Mbps程度の流量で、100Mbpsを超えてくるようになると流量制限をシビアに考えたり中継サーバを複数台構成にしたり考えることになるのかなーと思っているが、現状はまだそこまでやってない。世の中には考えている人がぜったいいるはずなので話を聞いてみたいなあ。なんか「動かしてみた」レベルの話しかぐぐっても見付からない。悲しい。 サーバ構成 各サーバからログを(ほぼ)リアルタイムにscribedに流すのはいいとして、1台立ててるだけだと障害があったら全て終了してしまう。これはまずいので、複数台構成にする。 scribedはdeliverとcentralの両方で起動する。(設定はもちろん異なる。後述。) 通常は各サーバはすべて deliver サーバに接続してログを送る。deliverサーバ

                  障害に強いscribeサーバ構成と設定 - たごもりすメモ
                • BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita

                  まだ入門もしてないので「ことはじめ」じゃないです。 大体触ってみたのを載せます。 Wikipedia 集計 サンプルデータのwikipediaを集計してみました。 データは3億行ほどあり、サイズは36GBほどあります。 今回は、contributor_usernameを集計し、wikipediaに貢献している人ランキングをつくりました。 上位陣はbotさん達ですね。 結果としては、3億行のデータを、 何も考えずに書いて 16.2秒で集計することが出来ました。 3億行を16秒。 countしなければ3秒くらいで終わります。 MapReduceみたいなのを一切書いてないのにこの速度。 ちなみにテーブルはインデックスしているわけではなく毎回フルスキャンしているらしい。 わお。 データ保管: \$0.026/GB/mo クエリ: $5/TB (スキャンしたデータのサイズで課金) 今回のwikipe

                    BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita
                  • Embulk のメンテナンス体制がオープンになります

                    オープンソースのプラグイン型データ・ローダー Embulk のメンテナをここ何年かやっている @dmikurube です。 Embulk はオープンソースですが、本体 (core) のメンテナンスは Treasure Data でおこなっている、いわゆる「企業発オープンソース」でした。ライセンスは Apache-2.0 で、その意味でちゃんと「オープンソース」ですが、メンテナンス体制や意思決定は実質的に Treasure Data で握っていました。 [1] この Embulk のメンテナンス体制を、このたび、よりオープンにしていくことになりました。まだ準備を進めている段階ですが、本記事は、その概要のご紹介です。 オープンって、具体的には? 大きくは次の 2 点です。 特にプラグイン互換性に影響があるような大きな変更の意思決定プロセスを整備する Treasure Data の外からも Em

                      Embulk のメンテナンス体制がオープンになります
                    • MesosとCephのクラスタをAWSに構築するTerraformのmoduleを書いた - As a Futurist...

                      冬休みの宿題として、Mesos+Docker でアプリちゃんと動かしたい!→Shared Filesystem が欲しい →Ceph やりたい!→AWS の orchestration が必要 →Terraform 面白い!という yak shaving を経て、なぜかずっと Terraform をいじってました。とりあえずちゃんと動くのができたので公開。 riywo/mesos-ceph Terraform module for Mesos + Ceph cluster and Packer template – As a SW/Ops/DB Engineer 細かい話は 1 年ぶりの英語で適当に書きなぐったつもりなので、こちらにはポエムでも。 Terraform 面白い このブログとかを移行しようと考えてて、AWS を遊びじゃなくて運用しようとしたら、VPC とかサーバ以外に管理しなき

                        MesosとCephのクラスタをAWSに構築するTerraformのmoduleを書いた - As a Futurist...
                      • うるう秒によるjava障害と連動して生じたHDFSメタデータ破損からの復帰手順 - 生物物理計算化学者の雛

                        ※本記事ではうるう秒によるjavaの異常と、それに伴って生じたHadoop 0.21.0 HDFSのメタデータ破損からの復旧手順を説明します。なお、本復旧手順は私の環境で上手くいっただけであり、他の環境で同様の手順を行ったとしても復旧できる保証はありませんので、ご注意ください。 昨日(2012/7/1)Hadoopクラスタの一部マシンでCPU負荷が突然MAXに張り付いていることに気付きました。 今日になってこの現象はうるう秒のあとにjavaに生じた不具合であることが分かりました(参考:http://d.hatena.ne.jp/sh2/20120702、このブログの記述と同様にjavaとksoftirqdプログラムが大きなCPU負荷を占め続けていました)。 この障害が起きていたのはOSがfedora10, 13のマシン群で、他のマシンはCentOSであり不具合無く動作していました。 試行錯

                          うるう秒によるjava障害と連動して生じたHDFSメタデータ破損からの復帰手順 - 生物物理計算化学者の雛
                        • Apache CassandraとApache Hadoopを一体化した「Brisk」発表 | OSDN Magazine

                          「Apache Cassandra」の商用サービスを提供する米DataStaxは3月22日(米国時間)、Cassandraと「Apache Hadoop」を組み合わせたディストリビューション「Brisk」を発表した。1カ月半後のリリースに向け、ユーザー登録を開始している。 Apache CassandraとApache Hadoopはともに非営利団体Apache Software Foundation(ASF)のオープンソースプロジェクト。Apache Cassandraは元々は米Facebookで開発された技術。オープンソースの分散データベース管理システムで、大規模データ用の拡張性などを特徴とする。一方、Apache Hadoopは米Yahoo!がASFに寄贈した技術で、大規模データ用の分散コンピューティング用ソフトウェアとなる。 DataStaxが発表したBriskは、HadoopとH

                            Apache CassandraとApache Hadoopを一体化した「Brisk」発表 | OSDN Magazine
                          • 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて - Repro Tech Blog

                            Reproでチーフアーキテクトを担当しているjoker1007です。 今回、社内のデータストレージの将来的な選択肢の一つとしてApache Hudiというテーブルデータフォーマットについて調査と実データでの検証を実施しました。 この記事では2回に分けて、そもそもhudiってどんなフォーマットなのか、どういうデータで検証してどんな結果が得られたのかについて紹介します。 ということで第1回は、hudiそのものについての紹介をしていきます。 この記事はhudi-0.14.1を利用して検証した時のものです。また社内向けに書いた資料の手直しであるため丁寧語でないことに御留意ください。 Hudiとは何か、その目的 hudiは更新可能なデータレイクを構築するためのテーブルフォーマットである。 ストリーミングによるデータインサートや、upsert, deleteをサポートする。 通常、データ分析に向いたデ

                              更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて - Repro Tech Blog
                            • 楽天テクノロジーカンファレンス2017でApache Kuduについて発表してきた - 科学と非科学の迷宮

                              楽天テクノロジーカンファレンスに登壇するという貴重な機会をいただいたので、Apache Kuduについて発表してきました。 Apache Kudu - Updatable Analytical Storage #rakutentech from Cloudera Japan 主催していただいた楽天様、ご聴講いただいた皆様、ありがとうございました。 社外での英語プレゼンだったのでなかなか準備が大変でした。 以下、補足やFAQです。 これ資料英語なんだけど日本語はないの? この資料そのものの日本語スライドはありませんが、より詳しいスライドが日本語で公開されています。 Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017 from Cloudera Japan #cwt2016 Apache Kudu 構成とテーブル設計 from Cloudera Japan 「新製品

                                楽天テクノロジーカンファレンス2017でApache Kuduについて発表してきた - 科学と非科学の迷宮
                              • 【インフラエンジニアに】S3 に置いてるログ、圧縮してますか?【聞いてみよう】 - AppBrew Tech Blog

                                AppBrew で LIPS のリードエンジニアをやってる Pin (@spinute)と申します。 半年ほど前に AppBrew でアルバイトをしながら転職活動をしていましたが、いい感じだったのでそのまましれっと AppBrew に入社しました。 tech.appbrew.io 今日の記事では、圧縮し忘れていたログを圧縮し、35万円/月の費用を削減した話を紹介します。 確認するだけなら一瞬なので、AWS を使ってる会社の方は、担当の方にこの記事を共有してみると思わぬ費用削減に繋がるかもしれません...! LIPS のインフラ構成 問題発見の経緯 対応 Firehose のログ圧縮設定を有効にする 既存のログを圧縮する s3-dist-cp ログを削除する まとめ LIPS のインフラ構成 弊社のデータ処理基盤は開発初期に深澤が入れてくれたもので、大まかな構成は今もそのままです。 LIPS

                                  【インフラエンジニアに】S3 に置いてるログ、圧縮してますか?【聞いてみよう】 - AppBrew Tech Blog
                                • 知らないと大損する、Apache Sparkの基礎知識と3つのメリット

                                  知らないと大損する、Apache Sparkの基礎知識と3つのメリット:特集:IoT時代のビジネス&IT戦略(3)(1/3 ページ) 社会一般から大きな注目を集めているIoT(Internet of Things)。だが、その具体像はまだ浸透しているとはいえない。今回は、IoTやビッグデータのキーテクノロジとして注目されている「Apache Spark」について、Sparkを製品に取り込んでいる日本IBMの土屋敦氏と、数多くの企業のデータ分析を担うブレインパッドの下田倫大氏に話をうかがった。 大規模データ処理のテクノロジとしてApache Hadoop(以下、Hadoop)に続き、Apache Spark(以下、Spark)が注目されている。Sparkは、IoT(Internet of Things)やビッグデータのキーテクノロジとして注目されているが、エンタープライズ領域ではどのように活

                                    知らないと大損する、Apache Sparkの基礎知識と3つのメリット
                                  • HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例

                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめに こんにちは。Yahoo! JAPANでHadoopに携わっているエンジニアの浅沼です。Hadoopは大量のデータを分散処理するためのオープンソースソフトウエアです。この夏にリリース予定のバージョン3.0系には、HDFSの新機能であるErasure Codingが導入されます。Yahoo! JAPANではHadoopコミュニティーでErasure Codingの実装に参加してきました。本記事ではErasure Codingの仕組みを詳しく解説し、弊社での運用事例を紹介します。 既存のHDFSの課題 Hadoopの中核をなす分散ファイルシステムのHDFS(Hadoop Distributed File System)は、マス

                                      HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例
                                    • AWSチーム社内勉強会「EMRおじさんに聞いてみよう」レポート | DevelopersIO

                                      弊社AWSチームでは最近「◯◯おじさんに聞いてみよう」というタイトルで各分野について詳しそうなメンバーを講師としてQA形式の社内勉強会を開催しています。今回はその中でもAmazon Elastic MapReduce(Amazon EMR)に関する勉強会のレポートになります。QA形式の勉強会ですので、どんな質問が出て、どんな回答があったかをお楽しみ頂ければと思います。なお、EMRということもあり、社内でも利用経験がないメンバーもいたため、まずはHadoopの概要から説明しつつ、オンプレHadoopとEMRの違いなどについて駆け足で説明する勉強会となりました。 Q. そもそもEMR(Hadoop)が分からない かなり古いのですが、前述のスライドを元に以下の点について説明しました。 Hadoopは並列分散処理基盤。スケールアウトする。 バッチ処理用に開発された。とはいえ、最近は対話処理用に利用

                                        AWSチーム社内勉強会「EMRおじさんに聞いてみよう」レポート | DevelopersIO
                                      • Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実

                                        オープンソースの分散バッチ処理ソフト「Apace Hadoop(以下、Hadoop)」の国内コミュニティが主催するイベント「Hadoop Conference Japan 2011 Fall」が2011年9月26日に都内で開催された(写真1)。第3回となる今回は、リクルートが会場提供と運営支援をすることにより、コミュニティ主催のイベントとしては異例の1000人規模の会場を確保(写真2)、月曜日にもかかわらず多くの参加者が午前10時の開始前から来場した。 米国のHadoopベンダー3社が基調講演 午前中に開催された基調講演では、Hadoopを使ったシステム構築を支援する、ベンダー3社が相次いで登壇。Hadoopの企業情報システムでの利用を前提に、「いかに簡単に構築運用できるか」を主なテーマに据えて、自社製品やサービスの最新動向を語った。 最初に登壇したのは、米ClouderaのTodd Li

                                          Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実
                                        • Collecting and Analyzing Ruby on Rails Logs | Fluentd

                                          Scenario You have an application written in Rails and want to collect data into MongoDB, HDFS, Elasticsearch, et. al. for analytics/search. Logging directly into MongoDB/HDFS/Elasticsearch is not highly recommended since synchronous logging is slow/potentially hazardous for the backend. You can build asynchronous logging into your application, but Fluentd can sit between your application and backe

                                          • 「エンタープライズ=レガシー」をぶち壊す。技術レイヤーを拡げ世界を変えるエンジニア | teratail Report - 価値ある情報は、いつもヒトの中に

                                            2012年フューチャーアーキテクト株式会社に新卒入社。 Hadoopによる大規模バッチ処理基盤からKafkaとSpark Streaming等のストリームエンジンを使ったリアルタイムな処理基盤など、エンタープライズ領域を中心とした様々なデータ処理を得意とするデータインフラエンジニア。 5年で1,000冊の技術書を購入 ── よろしくお願いします。まずは前回の記事『AWSによる大規模IoTプラットフォーム構築の裏側に迫る!』が750シェアを超えるなど話題を呼びましたが、普段からイベントなどで登壇されているのですか? 須田桂伍氏(以下、須田)そうですね。僕は去年Hadoop / Spark Conference Japan 2016をはじめ様々なイベントで登壇させていただきました。このカンファレンスは上司に「こんなのあるから出てみなよ」って声をかけられたのがきっかけです。このイベントを境にいろ

                                              「エンタープライズ=レガシー」をぶち壊す。技術レイヤーを拡げ世界を変えるエンジニア | teratail Report - 価値ある情報は、いつもヒトの中に
                                            • プログラミング Hive

                                              本書は、Hadoop上でSQLライクなクエリ操作を可能にするHiveについて、基礎から応用までを詳細に解説した書籍です。データ型とファイルフォーマット、またHiveQLのデータ定義、操作などの基礎的な事柄から、関数、ストリーミング、Thriftサービス、さらにAWSやHCatalogなどの応用まで、Hiveについて必要な事柄を豊富なサンプルとともにわかりやすく解説します。 日本語版では、Microsoftの佐藤直生氏による「Windows Azure HDInsight Service」、Clouderaの嶋内翔氏による「Cloudera Impala」、「Hive 0.10 の新機能」、「HiveServer2」を追加。ビッグデータに関心のあるすべてのエンジニア、必携の一冊です。 訳者まえがき はじめに 1章 イントロダクション 1.1 HadoopとMapReduceの概要 1.1.1

                                                プログラミング Hive
                                              • データエンジニアリング関連ソフトウェアの障害対応事例 - LINE ENGINEERING

                                                上記の通り、フェイルオーバー発生直前には RegistryAdminService という名前の thread が、全 thread 数のほとんど (97.6 %) を占めていたことがわかりました。 1-8. RegistryAdminService Thread 今度は、「この RegistryAdminService thread はどのようなものであるのか」を確認することにしました。この名前の thread は RMRegistryService クラスにおいて、以下のいずれかのイベントハンドリング処理で生成されることがわかりました。 RMStateStore への Application 情報の登録時( eventType = RMStateStoreEventType.STORE_APP のイベント発生時)に、 RegistryAdminService thread を生成して、

                                                  データエンジニアリング関連ソフトウェアの障害対応事例 - LINE ENGINEERING
                                                • GitHub - facebookarchive/scribe: Scribe is a server for aggregating log data streamed in real time from a large number of servers.

                                                  Archived Repo ============= This is an archived project and is no longer supported or updated by Facebook. Please do not file issues or pull-requests against this repo. If you wish to continue to develop this code yourself, we recommend you fork it. ------------- Introduction ============ Scribe is a server for aggregating log data that's streamed in real time from clients. It is designed to be sc

                                                    GitHub - facebookarchive/scribe: Scribe is a server for aggregating log data streamed in real time from a large number of servers.
                                                  • Norikra meetup #2 に参加してきた - 絶品ゆどうふのタレ

                                                    https://atnd.org/events/65969 Norikraをつかいたいなーという気持ちを主張するためにとりあえずmeetupに参加してきた。 画面黄色かった だいたいみんな監視系で使ってた だいたいみんなSPOFで困ってた Gunosyさんは処理量もあってか冗長化してたもよう やっぱ便利そう 使いたい AWS Summitからのはしごだったのでさすがに疲れた。。。 メルカリでのNorikraの活用、Mackerelを添えて メルカリでのNorikraの活用、 Mackerelを添えて from Masahiro Nagano kazeburoさん Mercari いかに早くスムーズにサイクルを回すか Zabb....? いいことはいっぱい 煩雑だしめんどくさい DevとOpsで情報を共有 MetricsをDevと共有 これを何とかするのに、fluentd経由でkibana

                                                      Norikra meetup #2 に参加してきた - 絶品ゆどうふのタレ
                                                    • HBase論争に釣られてみる - 科学と非科学の迷宮

                                                      HBaseコミッター達による、NoSQLの記事への反論が面白かったので翻訳してみました。 著者の許諾取得済み。Thanks Stack and the other authors! 本文 原題: Taking the Bait Information Weekは先日、「HBase はNoSQL を支配するのか?」という記事を掲載した。MapR の Michael Hausenblas は HBase の事例に「賛成」の論陣を張っており、Apache Cassandra の Jonathan Ellis とベンダーである DataStax は「反対」の側だった。 この「ディベート」をベンダーのセールストークとして却下し、Apache HBase に立ち戻り、HBase を使用し、改善していくのは、簡単な話である。しかし、この記事は特別に問題のある例だった。記事では、「賛成」と「反対」の双方と

                                                        HBase論争に釣られてみる - 科学と非科学の迷宮
                                                      • 4台構成のHadoopを100分で試してみる(CentOS + Cloudera)

                                                        (参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの ・CentOS5.4のLinux環境4台(CentOSの他バージョンや、Fedora、Redhat等でも大丈夫だと思います) ・インターネット接続 ・Sun社Javaパッケージ(パッケージファイルをインターネットから取得) ・Cloudera社のCDH3のHadoopパッケージ(yumでインターネットからインストール) 構成 4台のHadoopクラスターです。 ・マスター1台: nm01 ・スレーブ3台: ns10, ns11, ns12 作業手順 0. 準備 0-0. サーバー名 ここで利用するサーバー/サーバー名は以下の4つです。 nm01 ns10 ns11 ns12 すべてのサーバー(nm01, ns10, ns11, ns12)と作業クライア

                                                        • LINEのAIサービスの音声認識技術を支えるチームを紹介します

                                                          LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINEの提供するAI関連のソリューションやプロダクトに実装されている、音声認識技術の開発を担当しているチームを紹介します。 Speechチームの木田祐介、坂本渚、芦川博人に話を聞きました。 Speechチームの皆さん まず、自己紹介をお願いします。 木田:AIカンパニーにて音声認識技術の開発を行っているSpeechチームのマネージャーをしています。1年ほど前にエンジニアとしてSpeechチームにジョインして、今年の1月からマネージャーを務め

                                                            LINEのAIサービスの音声認識技術を支えるチームを紹介します
                                                          • Cloudera Distribution for Hadoopのインストール方法 - moratorium

                                                            Cloudera Distribution for Hadoopのインストール方法 2009-11-03 (Tue) 1:08 Hadoop 昔色々と記事を書きましたが、1年半経って、もはや内容が古くなって来ました。 Hadoopのインストールは、最近はCloudera Distribution for Hadoopを使用するのが一般的なようなので、こちらでのインストール方法を紹介します。 まずはEC2で2インスタンス立ち上げます。一つがNameNode/JobTracker用、もう一つがDataNode/TaskTracker用です。仮に、ホスト名をmaster, slaveとしておきます。OSはCentOSが推奨されています。 次にCloudera Configuratorにアクセスし、使用するクラスタの構成などを入力します。それらの情報(例:ノードのコア数・メモリ容量・台数など)から

                                                            • A Comparison of Approaches to Large-Scale Data Analysis - MapReduce vs. DBMS Benchmarks

                                                              A Comparison of Approaches to Large-Scale Data Analysis: MapReduce vs. DBMS Benchmarks Overview 04/14/2009 - SIGMOD 2009 Paper The following information is meant to provide documentation on how others can recreate the benchmark trials used in our SIGMOD 2009 paper. Our experiments were conducted on a 100-node cluster at the University of Wisconsin-Madison; each node had a single 2.40 GHz Intel Cor

                                                              • HBase 0.96 で導入される新しいコンパクション「Exploring Compaction」 - 科学と非科学の迷宮

                                                                Hadoopアドベントカレンダー2013、3日目を担当する @shiumachi です。 今回は HBase 0.96 の新機能を一つ紹介します。 要約 HBase 0.96 は賢くなったのでみんな使おう。 コンパクションのおさらい HBase では、Log Structured-Merge tree (LSM-tree) というデータ構造を使っています。 LSM-tree を簡単に説明すると、入力されたデータをログとメモリ上のデータストア(Memstore、メモリストア) に書き込みます。 メモリストアがいっぱいになると、まとめてディスクにフラッシュし、新しいストアファイルを生成します。 このストアファイルがたまってきたときに、少しづつ一まとめにしてなるべくファイル数を少なくするようにします。これがコンパクションです。 コンパクションを実行することにより、ファイルは一つにまとまります。こ

                                                                  HBase 0.96 で導入される新しいコンパクション「Exploring Compaction」 - 科学と非科学の迷宮
                                                                • Embulk(エンバルク)プラグインのまとめ - Qiita

                                                                  embulk gem search embulk-filter -r 2015-05-30 18:20:50.064 +0900: Embulk v0.6.10 *** REMOTE GEMS *** embulk-filter-eval (0.1.0) embulk-filter-speedometer (0.2.2) Inputプラグイン RDBMS & NoSQL Embulk(エンバルク) データベースプラグイン覚書も参照ください。 embulk-input-mysql MySQLのテーブルからデータを取得するJDBCプラグイン embulk-input-postgresql PostgreSQLのテーブルからデータを取得するJDBCプラグイン embulk-input-jdbc JDBC用プラグイン Oracleなど接続用 Oracleは使えるはずDB2は要書き換え。 SQLit

                                                                    Embulk(エンバルク)プラグインのまとめ - Qiita
                                                                  • Hadoop 調査報告書

                                                                    Hadoop 調査報告書 エヌ・ティ・ティ レゾナント株式会社 株式会社 Preferred Infrastructure 平成 20 年 8 月 25 日 • 免責条項 本報告書はエヌ・ティ・ティ レゾナント株式会社 (以下「NTT レゾナント」)と株式会社 Preferred Infras- tructure(以下「Preferred Infrastructure」) が作成したものですが、報告書の内容及び情報の正確性、完全性、 有用性について、NTT レゾナント及び Preferred Infrastructure は保証を行なっておらず、また、いかなる責 任を持つものでもありません。 本報告書の著作権は NTT レゾナントに帰属します。 本報告書の「プリントアウト」「コピー」「無料配布」は可能ですが、変更、改変、加工、切除、部分利用、要 約、翻訳、変形、脚色、翻案などは禁止します

                                                                    • AWS re:Invent2013参加レポート #13 AWS Storage and Database Architecture Best Practices | DevelopersIO

                                                                      AWS re:Invent2013参加レポート #13 AWS Storage and Database Architecture Best Practices AWSのエンタープライズソリューションアーキテクトである、Siva Raghupathyさんによる「AWS Storage and Database Architecture Best Practices」に参加してきました。 各ストレージ、データベースの向き不向きとベストプラクティスを網羅的に紹介する内容でした。 AWSはデータベースだけでも沢山のサービスがあるので、どのサービスを利用するのが一番いいのか迷うことがよくあります。 以下は発表内容の直訳ですが、それぞれのサービスの特性を押さえておくことで、より確かな選定をするための一助になればと思います。 英語が分からなくて、訳せていない部分があります。 自信が無いところは元の英語

                                                                        AWS re:Invent2013参加レポート #13 AWS Storage and Database Architecture Best Practices | DevelopersIO
                                                                      • ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る

                                                                        ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る:イベントリポート ログ、アクセス解析、インフラ運用 2014年1月23日、アイティメディアにて@ITが新たに企画した「@特勉」(@IT 特集連動勉強会)が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」。濃厚なセッションをかいつまんで紹介する。 2014年1月23日、アイティメディアにて@ITが新たに企画した「@特勉」(@IT 特集連動勉強会)が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」として、ログ収集が行える「Fluentd」やオープンソースのHadoopディストリビューション「CDH」の最新情報や、ソーシャルゲームやWebアクセスにおけるデータ解析手法など、@ITならではの濃いセッションが多数行われた。その様子を2回に分けて紹介しよう。 セッション1:Fluentdの次期バージ

                                                                          ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る
                                                                        • Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較

                                                                          著者/Author: Zbigniew Branowski (Cern) 原文/Original:http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。 このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。 トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー

                                                                            Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
                                                                          • Hypertable のリード開発者が Hadoop と分散データベースを語る

                                                                            最近、データベース関連の話題が盛り上がっている。IBM はこのほど(source)、Amazon EC2 上で動作するクラウドエディションをサポートする EnterpriseDB (source)に出資したし、Amazon は去年の終わりごろに独自のクラウドデータベースをリリースした。Google の BigTable(source) も、オープンソースではないにもかかわらず、コミュニティによる学習や研究の対象となっている。このような流れの中(source)、ふたつのオープンソースプロジェクト HBase(source) と Hypertable (source)が、 BigTable にインスパイアされたスケーラブルなデータベースを実装するために Map/Reduce プラットフォームである Hadoop (source)を活用している。InfoQ は Hypertable 産みの親で、

                                                                              Hypertable のリード開発者が Hadoop と分散データベースを語る
                                                                            • 米Microsoftも魅了した「R」強化版、「Revolution R」の実力とは?

                                                                              関連キーワード Hadoop | Microsoft(マイクロソフト) | OSS | オープンソース | 統計解析 Revolution AnalyticsのWebサイト 米Microsoftの完全子会社である米Revolution Analyticsは、統計用ソフトウェア「Revolution R」を開発している。Revolution Rは、統計用のオープンソースソフトウェア(OSS)である「R」のエンタープライズ版で、データサイエンティスト、統計学者、大学教授によって使用されている。 Revolution Analyticsは、「Revolution R Open」「Revolution R Enterprise」という2つの製品を展開している。前者はオープンソースだが、後者は商用だ。 併せて読みたいお薦め記事 データサイエンティストに支持される「R」 「R」だけじゃない、使えるオー

                                                                                米Microsoftも魅了した「R」強化版、「Revolution R」の実力とは?
                                                                              • Distributed Stream Processing on Fluentd / #fluentd

                                                                                This document discusses NHN Japan's use of Fluentd for log collection, conversion, and analysis. It summarizes their architecture which involves collecting logs from servers using Scribeline, delivering them to Fluentd processes, converting the logs to a structured format using Fluentd plugins, writing the structured data to HDFS, and performing analysis and reporting with Hive. Key aspects discus

                                                                                  Distributed Stream Processing on Fluentd / #fluentd
                                                                                • 分散システムについて語らせてくれ | ドクセル

                                                                                  目次 分散システムを作る際に気をつけて欲しい事 1.分散自体を目的にしない事 2.論文を読んでそのまま実装しない事 3.Two Phase Commitを使わない事 4.手を動かす事 Copyright©2016 NTT Corp. All Rights Reserved. 2 分散自体を目的にしない事 • よくわかってない人でもCloudera Managerをダウンロードして1時間後 には巨大なHadoopクラスタを立ち上げてYARN, HDFS, Spark, HBase などで遊ぶ事ができる。 • 世の中では分散システムが必要以上に喧伝されている • 「コンピュータ1台よりも2台の方が高速」という直感に対して反論するの は意外と難しい • あなたのそのシステム、本当に分散システムじゃないとダメ? Copyright©2016 NTT Corp. All Rights Reserve

                                                                                    分散システムについて語らせてくれ | ドクセル