showyouのブックマーク - はてなブックマーク

第3回　KVMのネットワーク構成 | gihyo.jp

仮想ネットワークの全体像今回はKVMの仮想ネットワークについて解説します。KVMではホスト Linuxの仮想ブリッジ機能を利用して仮想ネットワークを構成します。仮想ブリッジは、ホスト Linux上に仮想的なL2スイッチを構成する機能です。複数の仮想ブリッジを構成することも可能です。図1は、仮想NICと仮想ブリッジの接続を表します。図1　KVM仮想ネットワークの構成仮想NICは、ホスト Linux内部のTAPデバイスを経由して仮想ブリッジに接続されます。TAPデバイスは、Linuxがユーザプロセスと通信するための仮想的なNICを提供する機能です。KVMの環境では、ホスト Linuxと仮想マシン・プロセスが通信するためのインターフェースとして機能します。ゲストOSが仮想NICで送受信するパケットは、ホスト Linux側のTAPデバイスから送受信されることになります。同じ仮想ブリッジに接続された仮

showyou 2019/04/30

図が参考になりそう

リンク

Apache Kafkaにも注目 ―Hadoop, Spark、分散処理フレームワークをめぐる2019年 | gihyo.jp

新春特別企画 Apache Kafkaにも注目 ―Hadoop, Spark、分散処理フレームワークをめぐる2019年あけましておめでとうございます。今年も大規模データ向けの分散処理フレームワークの展望についてご紹介します。例年Apache HadoopとApache Sparkを中心にお届けしておりましたが、今年はこれらに加えて、2018年に活用が広がりが認知された分散メッセージシステムのApache Kafkaについても同様に取り上げたいと思います。今年は、NTTデータに所属するエンジニアの中でも特にHadoop、Spark、Kafkaなどに深く取り組んでいる岩崎正剛（Hadoopコミッタ⁠）⁠、猿田浩輔（Sparkコミッタ⁠）⁠、都築正宜（Sparkコントリビューター⁠）⁠、吉田耕陽、佐々木徹（Kafkaコントリビューター⁠）⁠、酒井遼平、田中正浩（Hadoopコントリビュ

showyou 2019/01/08

hadoop

リンク

前処理大全［データ分析のためのSQL/R/Python実践テクニック］

この本の概要データサイエンスの現場において，その業務は「前処理」と呼ばれるデータの整形に多くの時間を費やすと言われています。「前処理」を効率よくこなすことで，予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。ほとんどの問題についてR，Python，SQLを用いた実装方法を紹介しますので，複数のプロジェクトに関わるようなデータサイエンスの現場で重宝するでしょう。はじめに 0-1 本書の目的 0-2 対象読者 0-3 本書の構成 Part1 入門前処理第1章前処理とは 1-1 データ 1-2 前処理の役割 1-3 前処理の流れ 1-4 3つのプログラミング言語 1-5 パッケージ／ライブラリ 1-6 データセット 1

showyou 2018/04/13

リンク

第15回　計算機クラスタのためのリソース管理基盤 Hadoop YARN | gihyo.jp

はじめに前回は、MapReduceとその実装であるApache Hadoopの概要について説明しました。今回は、Apache Hadoopにおいて計算機クラスタのリソース管理を行うYARNについて解説します。多種多様な処理系の登場 Hadoopの登場を1つの契機として、コモディティな計算機を複数台用いた計算機クラスタ上でデータ処理を行うことが広く普及しつつあります。たとえば、Hadoop MapReduceと比べてアプリケーションの記述性が柔軟であり、より高効率な実行が可能であるApache Spark、Apache Tez、Apache Flinkをはじめとし、低い遅延で実行可能なApache Impala、Facebook Presto、Apache Drill、また、大量のストリームデータを低い遅延で処理可能なデータ処理系であるApache Storm、Twitter Heron

showyou 2016/01/26

読んだ

リンク

#1　PyCon APAC 2014開催の台湾へ、そしてイベント1日目の模様 | gihyo.jp

日本からの参加メンバー今回のPyCon APAC 2014には、日本からは個人、団体での参加を含め10数名程度が参加していました。各自の都合もあり、全員が集う機会はありませんでしたが、それぞれ交流して非常に有意義な時間を過ごすことができました。イベント前日関根です。イベント前日の台湾までの移動や、台北市内での交通、またMozila Taiwanの方々との夕食について紹介します。飛行機での移動私は次のようなルートで台湾と日本を往復しました。往路：羽田空港 → 松山空港復路：松山空港 → 羽田空港松山空港、羽田空港ともに都心から近く、とても便利でした。平日の昼間に移動したこともあり、羽田空港はとても空いていて、スムーズに手続きを行うことができました。現地での移動現地での移動には、主にMRT（地下鉄）とタクシーを利用しました。地下鉄台湾の地下鉄では悠遊卡（EasyCard

showyou 2014/06/11

python

リンク

第3回　Mahoutの環境構築とFP-Growthによるマーケットバスケット分析 | gihyo.jp

HadoopとMahoutをインストールする Hadoopのバージョンに注意前回はマーケットバスケット分析の理論編として、アソシエーション分析とアプリオリアルゴリズムについて解説しました。今回は実践編として、Mahoutが実装しているアプリオリアルゴリズムを改良したFP-Growthを用いて、実際にマーケットバスケット分析を行ってみましょう。そのための準備として、まずMahoutとHadoopをインストールする必要がありますが、その際1つ注意する点があります。現在のMahoutの最新バージョンである0.7は、利用するHadoopのバージョンが0.20系である必要があります。しかし、Apacheの公式サイトからはすでにHadoopのバージョン0.20をダウンロードすることはできません。 Hadoopのバージョン0.20をお持ちでない方は、Cloudera社のページからダウンロードするこ

showyou 2013/04/05

リンク

ニコニコ生放送に見る Redis 活用ノウハウ記事一覧 | gihyo.jp

showyou 2012/01/02

*あとで読む

リンク

第1回　レコメンドシステムと集合知 | gihyo.jp

はじめに今回から9回に渡り、Hadoopを使ったレコメンドシステムの実装について紹介させていただくことになりました。レコメンドシステムを構築した方は少ないと思いますが、レコメンドのサービスに触れている方は多いと思います。今回の連載で、読者の皆様にレコメンドシステムの可能性とその実装の面白さをお伝えできればと思います。よろしくお願い申し上げます。連載の予定は次の通りです。レコメンドシステムと集合知（今回）レコメンドシステムの実装と課題協調フィルタリング（前・後編）コンテンツベースレコメンド（前・後編）今回の記事のポイントは以下の通りです。レコメンドシステムの目的は気付きと驚きを与えること理想のレコメンドはソムリエのお薦めレコメンドシステムに必要なのは嗜好と専門性では、早速はじめましょう。レコメンドシステムとは？レコメンドシステムは情報フィルタリングの一種で、大量の

showyou 2011/11/30

記事

リンク

第2回　国内におけるHadoop活用事例（国立国会図書館サーチ） | gihyo.jp

今回と次回は、Hadoopがどのようなシーンで活用されているのか、具体的な事例を基に見ていきます。今回は、国内での活用事例として、国立国会図書館でHadoopを検索インデックスの生成に活用している事例を紹介します。国立国会図書館サーチ（NDLサーチ）におけるHadoopの活用事例 NDLサーチ[1]とは国立国会図書館が公開している検索サービスです。国立国会図書館をはじめ全国の公立図書館、公文書館、美術館や学術研究機関など、複数の機関が所蔵する著作物の検索が可能で、検索した著作を所蔵している機関の表示や、関連する著作物を検索結果に表示させることができます。図　NDLサーチ公式サイト NDLサーチでは、Hadoopを検索インデックスの生成に利用しています。検索インデックスを生成するために、日本全国の機関からデータ収集します。このため処理すべきデータ量は膨大です。NDLサーチにおける検索イン

showyou 2011/06/23

hadoop

リンク

第34回　Redmineプラグイン開発（1） | gihyo.jp

はじめに RedmineはRuby on Railsで実装されたプロジェクト管理ツールです。競合のツールとしてTracが有名ですが、Tracと比較して開発速度が早く、ここ数年で急激にユーザを増やしています。Tracには標準で用意されていない機能として、ガントチャートの表示や複数プロジェクトの管理、チケットの種別ごとのワークフローのカスタマイズ機能に加え、最新の0.9系ではTracに比べて唯一貧弱だったチケットのレポーティング機能がほぼ同等レベルまで強化されました。これにより今年から本格的にRedmineへの移行が始まっていくと思われます。既に2009年の9月にはオープンソースのSNSエンジンであるOpenPNEの開発チームがTracからRedmineに移行したことや、Googleトレンドの検索数でRedmineがTracを追い抜いたというニュースもあります。今回は、Redmineのプラ

showyou 2011/01/15

redmine

リンク

Amazon Elastic MapReduceの使い方─Hadoopより手軽にはじめる大規模計算記事一覧 | gihyo.jp

第8回Amazon Elastic MapReduceのパフォーマンスをモニタリングする小林隆 2011-05-12

showyou 2011/01/15

あとで読む

リンク

NIPS2010における発表論文に見る、機械学習最前線 | gihyo.jp

なお、劣モジュラー性についてさらに知りたい方は、チュートリアル［3］が参考になります。昨年のNIPSでの動向それでは、昨年のNIPSでの動向を見てみましょう。 Bach［4］は、L∞ノルムが劣モジュラー関数のロヴァース拡張から導出できることを示すことにより, 劣モジュラー性とスパース性との関係を示しました。さらに, この洞察から教師あり学習で用いることができる新しい3つのノルムを提案しました。また、勾配法や近接法が劣モジュラー関数最適化に使えることを示し, 実験によりL1,とL2ノルムを用いるより精度が良いことを示しました。 Stobbe and Krause［5］は、劣モジュラー関数を凹関数の和として分解できる新しいクラス（decomposable submodular function）を定義し, カット問題, マルコフ確率場の最適化, 集合被覆問題などがその新しいクラスの最小化問

showyou 2011/01/15

リンク

第1回　memcachedの起動オプションを把握しよう | gihyo.jp

1.4系で新しく追加された主な機能してはバイナリプロトコルの導入マルチスレッドの標準化統計の強化などが上げられます。この1.4系の機能の詳細については前坂徹氏の連載「memcached 1.4の到来」が参考となります。ここではバージョン1.2.5と最新の1.4.5の起動オプションを比較しながら、新しく追加された機能や実際の運用で用いられる起動オプションについて説明します。 1.2系と1.4系の起動オプションの違いまず、memcachedの起動オプションの一覧（ヘルプ）を確認しましょう。memcachedのヘルプを出力するには、「⁠-h」オプションを使います。 $ memcached -h memcached 1.x.x -p <num> TCP port number to listen on (default: 11211) -U <num> UDP port number t

showyou 2010/08/17

リンク

第2回　ロボットAPI | gihyo.jp

先日横浜みなとみらいのパシフィコ横浜においてGoogle Developer Day 2009（GDD）が開催されました。会場に足を運び、実際にGoogle Waveが動作する様子を目にした方も多いのではないでしょうか。嬉しいことにその基調講演の中でGDD参加者には数週間以内にGoogle Waveのアカウントが発行されるという発表がありました。GDDに参加してもうしばらくすればアカウントが手に入るという予定の方は、ぜひこの連載で予習して数週間後に備えていただければ幸いです。また、残念ながらGDDに参加できずGoogle Waveアカウントの発行が遅れそうな方も、この連載でWave API利用の雰囲気だけでも感じて頂ければと思います。ロボットとは Google Waveでいう「ロボット」とは、Wave内で参加者と同じように振る舞えるWebサーバー上で動くプログラムのことです。ロボッ

showyou 2009/10/18

gae
python

リンク

第5回 N-gramのしくみ | gihyo.jp

前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字：ユニグラム 2文字：バイグラム 3文字：トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS

showyou 2009/03/19

リンク

第1回　連載を始めるにあたって | gihyo.jp

ニコニコ動画：https://www.nicovideo.jp/watch/sm2195306 はじめまして、和田卓人（わだたくと）といいます。このたびgihyo.jpにて、テスト駆動開発（TDD）の連載をすることになりました。筆者は『WEB+DB PRESS Vol.35』の特集1「実演！テスト駆動開発」と、『WEB+DB PRESS Vol.37』の特集1「実演！リファクタリング」を執筆させていただいた際に、同時に動画企画を行わせていただきました。おかげさまで「実演！テスト駆動開発」と「実演！リファクタリング」は、本誌および特設サイトの企画として、たいへん多くの方にご覧いただき、多数のご意見をいただきました。頂いたご意見の中には、以下のような意見がありました。もう少し初心者にもわかりやすくもっと突っ込んだ内容をもう少し詳しくもう少し実践的に特集をお読みくださった方