はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特許文書を誰もが見やすい形で見ることもできます。また、約480万のキーワードを収録し、キーワード経由の訪問は全体の約4割を占めています。 技術ページにはキーワードのリンクがちりばめられ、綺羅星のごとく旅人をやさしく見守っています。 アスタミューゼでは、Hadoopクラスタを運用しており、HBaseをはじめ、YARN上でのMapReduceやSparkなどを使い、語彙の抽出、XML文書の解析・変換、ドキュメントのインデクシング、画像の変換などを行っています。 これらのデータ処理において、私たちはスループットを重視してい