タグ

ブックマーク / gihyo.jp (11)

  • 検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏

    2014年9月25日紙版発売 2014年9月25日電子版発売 山田浩之,末永匡 著 A5判/224ページ 定価2,948円(体2,680円+税10%) ISBN 978-4-7741-6753-4 ただいま弊社在庫はございません。 Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle 楽天kobo honto 書のサポートページサンプルファイルのダウンロードや正誤表など このの概要 まいにち使っている検索エンジンがどうやって動いているか,知っていますか? 書では,小さな検索エンジンを作りながら,ソースコードレベルで検索エンジンのしくみを解説。 Yahoo!Japanの検索エンジン開発チームを経て2008年度上期未踏IT人材発掘・育成事業において高性能分散型検索エンジンの開発によりスーパークリエータに認定さ

    検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏
    tomity
    tomity 2014/09/18
  • 第2回 「締め切りは絶対に守るもの」と考えると世界が変わる | gihyo.jp

    「締め切りを守ること」の大切さ 今までたくさんの日米のエンジニア仕事をしてきた。その中には私よりも明らかに「賢いエンジニア」もいたし、ものすごい生産性でプログラムを作ってくれる「馬力(ばりき)のあるエンジニア」もいた。しかし、そんな中でも、私がものを作るうえで最も大切だと考えている「あること」をキチンとこなせる人は100人に1人もいなかった。その「あること」とは、「⁠常に締め切りを守れるように仕事をすること」である。 チームで仕事をする場合、どうしてもお互いが担当するタスク(=作業)の間に依存関係が生じる。そんなときに、どれか一つのタスクの完了の遅れが、ほかのタスクの完了に波及し、それがタスク間の競合を引き起こして全体のスケジュールがさらに遅れる、という事態はソフトウェア開発の現場ではよく見られる。そんな状況をできるだけ回避するには、プロジェクトに関わる人全員が、自分に割り当てられたタス

    第2回 「締め切りは絶対に守るもの」と考えると世界が変わる | gihyo.jp
    tomity
    tomity 2014/07/02
  • Twitter、分散リアルタイム処理システム「Storm」公開 | gihyo.jp

    2011年9月18日、Twitterは分散リアルタイム処理システム「Storm」をオープンソースで公開しました。より正確に言うと、2011年7月に買収されたBackTypeのメンバーが買収以前より開発を進めていたものです。BackTypeはTwitterのつぶやきを解析するシステムを開発していたスタートアップ企業でHadoopのヘビーユーザでもありましたが、リアルタイム性の問題点を解消すべくStormの開発に至ったようです。ちなみに同じオープンソースの分散リアルタイム処理システムとして米Yahoo! が「S4」を公開していますが、Stormはデータを処理する信頼性の高さやAPIのシンプルさに違いがあります。 StormのアーキテクチャはHadoopと似通っており、クラスタはMaster-Workerパターンに基づいています。Masterノードには「Nimbus⁠」⁠、Workerノードには

    Twitter、分散リアルタイム処理システム「Storm」公開 | gihyo.jp
    tomity
    tomity 2012/05/25
  • NIPS2010における発表論文に見る、機械学習最前線 | gihyo.jp

    なお、劣モジュラー性についてさらに知りたい方は、チュートリアル[3]が参考になります。 昨年のNIPSでの動向 それでは、昨年のNIPSでの動向を見てみましょう。 Bach[4]は、L∞ノルムが劣モジュラー関数のロヴァース拡張から導出できることを示すことにより, 劣モジュラー性とスパース性との関係を示しました。さらに, この洞察から教師あり学習で用いることができる新しい3つのノルムを提案しました。また、勾配法や近接法が劣モジュラー関数最適化に使えることを示し, 実験によりL1,とL2ノルムを用いるより精度が良いことを示しました。 Stobbe and Krause[5]は、劣モジュラー関数を凹関数の和として分解できる新しいクラス(decomposable submodular function)を定義し, カット問題, マルコフ確率場の最適化, 集合被覆問題などがその新しいクラスの最小化問

    NIPS2010における発表論文に見る、機械学習最前線 | gihyo.jp
    tomity
    tomity 2012/03/12
  • [レポート]LinuxCon Japan 2011開幕 Linus Torvalds氏が基調講演「20年間の開発者の労力の先に今がある」 | gihyo.jp

    LinuxCon Japan 2011 Preview [レポート]LinuxCon Japan 2011開幕 Linus Torvalds氏が基調講演「20年間の開発者の労力の先に今がある」 6月1日~3日、パシフィコ横浜にて開催される「LinuxCon Japan 2011」が開幕した。初日最初の基調講演はLinux生みの親Linus Torvalds氏が登壇。「⁠20 Years of Linux」(⁠Linuxの20年)と題し, Greg Kroah-Hartman氏との対談形式でキーノートが進められた。 開会の挨拶に立ったのはLinux Foundation ジャパンディレクタの福安徳晃氏。東日大震災の影響から、一時はLinuxCon中止も検討されたが、開催を願う励ましの声やスポンサー、関係者の協力を得て開催に至ったことを明かした。そして、電力消費量が逼迫する中、開会中の電力の

    [レポート]LinuxCon Japan 2011開幕 Linus Torvalds氏が基調講演「20年間の開発者の労力の先に今がある」 | gihyo.jp
    tomity
    tomity 2011/06/03
    必読
  • 第30回 RubyとHadoopで分散処理 Hadoop Streamingで外部データを読み込む | gihyo.jp

    前回のおさらい 第28回ではHadoop Streamingの仕組みについて説明しました。今回は、実際にHadoop Streamingを利用してデータ解析したときの具体的な話や、利用してみて困った(ハマった)Hadoop Streaming特有の問題とその解決法について紹介していきます。 実際に利用してみて困った(ハマった)こと さて、第28回でも紹介しましたが今回Hadoopを利用したのはopen('http://tabemiru.com/2009'); return false;">たべみるのデータ解析のためです。たべみるのデータ解析では、材名や地域名といった特定の値ごとにデータをまとめる処理が多く、またその処理速度が遅いのが問題だったのですが、このような処理はHadoop上(Ruby)でも比較的簡単に実装することができました。 それで最初は「これはスムーズにHadoop上に処理を

    第30回 RubyとHadoopで分散処理 Hadoop Streamingで外部データを読み込む | gihyo.jp
    tomity
    tomity 2011/06/01
  • 見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp

    見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 8月4日、六木ミッドタウンのヤフー株式会社にて、今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。 Hadoop(ハドゥープ)は、いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。 このように注目を集めているHadoopだが、実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで、今回の「Hadoop Hack Night Vol.2」は「ケーススタディ

    見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp
    tomity
    tomity 2011/05/19
  • 第2回 階層的クラスタリングによる特徴抽出 | gihyo.jp

    はじめに 前回は、情報可視化の基的な考え方について、HatenarMapsなどの実例を示しながら説明しました。第2回以降は、Java言語を使用して実際にプログラムを作成することで、情報可視化の実践例を示していきたいと思います。 目標 連載では、はてなブックマークの人気エントリーのデータを可視化することを最終的な目標にします。可視化にあたっては、統計学的観点から「階層的クラスタリング⁠」⁠、視覚的観点から「ツリーマップ」の手法をそれぞれ用いることにします。 Java開発環境のセットアップ 手元にJavaの開発環境がなく、連載のプログラムを試したい場合には、Sun Microsystemsが提供している統合開発環境、NetBeansの導入をおすすめします。 NetBeansはオールインワン型のIDEですので、インストールするだけで特別な設定の必要もなく、一通りの開発環境を整えることができ

    第2回 階層的クラスタリングによる特徴抽出 | gihyo.jp
    tomity
    tomity 2011/02/28
  • 第31回 RubyistのためのMongoDB入門(1) | gihyo.jp

    はじめに ここ最近、NoSQLというキーワードが注目を集めています。 リレーショナルデータベースは、一般的にスケールアウト(サーバの台数を増やして性能向上を図る手法)が難しく、特に大規模サービスにおいてパフォーマンス上のボトルネックとなりえます。また、タグやグラフ構造のようなデータは関係モデルに馴染みにくいため、それらを扱う際にはアプリケーションコードもぎこちないものになりがちです。 これらの問題を背景に、何にでもリレーショナルデータベースを使うのではなく、用途に応じてKVSなど他のデータストアを選択する流れが広まりつつあります。このムーブメントがNoSQL(Not Only SQL)と呼ばれているものです。 今回は、NoSQLなデータベースの1つであるMongoDBをご紹介します。 MongoDBとは MongoDBは高いパフォーマンスとスケーラビリティを特徴とするドキュメント指向型デー

    第31回 RubyistのためのMongoDB入門(1) | gihyo.jp
    tomity
    tomity 2011/02/11
  • 機械学習 はじめよう 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    機械学習 はじめよう 記事一覧 | gihyo.jp
    tomity
    tomity 2011/02/02
  • 第1回 memcachedの基本 | gihyo.jp

    株式会社ミクシィ 開発部 システム運用グループの長野です。普段はミクシィのアプリケーション運用を担当しております。今回から数回にわたり、最近Webアプリケーションのスケーラビリティの分野で話題になっているmemcachedについて、弊社開発部 研究開発グループの前坂とともに、使い方や内部構造、運用について解説させて頂きます。 memcachedとは memcachedは、LiveJournalを運営していたDanga Interactive社で、Brad Fitzpatrick氏が中心となって開発されたソフトウェアです。現在ではmixiやはてな、Facebook、Vox、LiveJournalなど、さまざまなサービスでWebアプリケーションのスケーラビリティを向上させる重要な要素になっています。 多くのWebアプリケーションは、RDBMSにデータを格納し、アプリケーションサーバでそのデータ

    第1回 memcachedの基本 | gihyo.jp
    tomity
    tomity 2010/07/21
  • 1