tomityのブックマーク - はてなブックマーク

検索エンジン自作入門　～手を動かしながら見渡す検索の舞台裏

2014年9月25日紙版発売 2014年9月25日電子版発売山田浩之，末永匡　著 A5判／224ページ定価2,948円（本体2,680円＋税10%） ISBN 978-4-7741-6753-4 ただいま弊社在庫はございません。 Amazon 楽天ブックスヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表などこの本の概要まいにち使っている検索エンジンがどうやって動いているか，知っていますか？本書では，小さな検索エンジンを作りながら，ソースコードレベルで検索エンジンのしくみを解説。 Yahoo!Japanの検索エンジン開発チームを経て2008年度上期未踏IT人材発掘・育成事業において高性能分散型検索エンジンの開発によりスーパークリエータに認定さ

tomity 2014/09/18

リンク

第2回　「締め切りは絶対に守るもの」と考えると世界が変わる | gihyo.jp

「締め切りを守ること」の大切さ今までたくさんの日米のエンジニアと仕事をしてきた。その中には私よりも明らかに「賢いエンジニア」もいたし、ものすごい生産性でプログラムを作ってくれる「馬力（ばりき）のあるエンジニア」もいた。しかし、そんな中でも、私がものを作るうえで最も大切だと考えている「あること」をキチンとこなせる人は100人に1人もいなかった。その「あること」とは、「⁠常に締め切りを守れるように仕事をすること」である。チームで仕事をする場合、どうしてもお互いが担当するタスク（＝作業）の間に依存関係が生じる。そんなときに、どれか一つのタスクの完了の遅れが、ほかのタスクの完了に波及し、それがタスク間の競合を引き起こして全体のスケジュールがさらに遅れる、という事態はソフトウェア開発の現場ではよく見られる。そんな状況をできるだけ回避するには、プロジェクトに関わる人全員が、自分に割り当てられたタス

tomity 2014/07/02

リンク

Twitter、分散リアルタイム処理システム「Storm」公開 | gihyo.jp

2011年9月18日、Twitterは分散リアルタイム処理システム「Storm」をオープンソースで公開しました。より正確に言うと、2011年7月に買収されたBackTypeのメンバーが買収以前より開発を進めていたものです。BackTypeはTwitterのつぶやきを解析するシステムを開発していたスタートアップ企業でHadoopのヘビーユーザでもありましたが、リアルタイム性の問題点を解消すべくStormの開発に至ったようです。ちなみに同じオープンソースの分散リアルタイム処理システムとして米Yahoo! が「S4」を公開していますが、Stormはデータを処理する信頼性の高さやAPIのシンプルさに違いがあります。 StormのアーキテクチャはHadoopと似通っており、クラスタはMaster-Workerパターンに基づいています。Masterノードには「Nimbus⁠」⁠、Workerノードには

tomity 2012/05/25

リンク

NIPS2010における発表論文に見る、機械学習最前線 | gihyo.jp

なお、劣モジュラー性についてさらに知りたい方は、チュートリアル［3］が参考になります。昨年のNIPSでの動向それでは、昨年のNIPSでの動向を見てみましょう。 Bach［4］は、L∞ノルムが劣モジュラー関数のロヴァース拡張から導出できることを示すことにより, 劣モジュラー性とスパース性との関係を示しました。さらに, この洞察から教師あり学習で用いることができる新しい3つのノルムを提案しました。また、勾配法や近接法が劣モジュラー関数最適化に使えることを示し, 実験によりL1,とL2ノルムを用いるより精度が良いことを示しました。 Stobbe and Krause［5］は、劣モジュラー関数を凹関数の和として分解できる新しいクラス（decomposable submodular function）を定義し, カット問題, マルコフ確率場の最適化, 集合被覆問題などがその新しいクラスの最小化問

tomity 2012/03/12

リンク

［レポート］LinuxCon Japan 2011開幕 Linus Torvalds氏が基調講演「20年間の開発者の労力の先に今がある」 | gihyo.jp

LinuxCon Japan 2011 Preview ［レポート］LinuxCon Japan 2011開幕 Linus Torvalds氏が基調講演「20年間の開発者の労力の先に今がある」 6月1日～3日、パシフィコ横浜にて開催される「LinuxCon Japan 2011」が開幕した。初日最初の基調講演はLinux生みの親Linus Torvalds氏が登壇。「⁠20 Years of Linux」（⁠Linuxの20年）と題し, Greg Kroah-Hartman氏との対談形式でキーノートが進められた。開会の挨拶に立ったのはLinux Foundation ジャパンディレクタの福安徳晃氏。東日本大震災の影響から、一時はLinuxCon中止も検討されたが、開催を願う励ましの声やスポンサー、関係者の協力を得て開催に至ったことを明かした。そして、電力消費量が逼迫する中、開会中の電力の

tomity 2011/06/03

必読

リンク

第30回　RubyとHadoopで分散処理　Hadoop Streamingで外部データを読み込む | gihyo.jp

前回のおさらい第28回ではHadoop Streamingの仕組みについて説明しました。今回は、実際にHadoop Streamingを利用してデータ解析したときの具体的な話や、利用してみて困った（ハマった）Hadoop Streaming特有の問題とその解決法について紹介していきます。実際に利用してみて困った（ハマった）ことさて、第28回でも紹介しましたが今回Hadoopを利用したのはopen('http://tabemiru.com/2009'); return false;">たべみるのデータ解析のためです。たべみるのデータ解析では、食材名や地域名といった特定の値ごとにデータをまとめる処理が多く、またその処理速度が遅いのが問題だったのですが、このような処理はHadoop上（Ruby）でも比較的簡単に実装することができました。それで最初は「これはスムーズにHadoop上に処理を

tomity 2011/06/01

リンク

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 | gihyo.jp

見えてきたHadoopの“使いどころ”─「Hadoop Hack Night Vol.2」開催 8月4日、六本木ミッドタウンのヤフー株式会社にて、今回で2回目となるHadoopをテーマにしたイベント「Hadoop Hack Night Vol.2」が開催された。 Hadoop（ハドゥープ）は、いま注目のクラウドコンピューティングなどに利用されているMapReduce技術が使えるオープンソースソフトウェア。大規模なデータの解析処理などに分散システムを利用したい場合に大きな力を発揮する。このように注目を集めているHadoopだが、実際に数テラバイト以上といった大容量のデータを処理しなければならないケースはまだそれほど多くない。大きな期待を集めながら「生きた実例」に乏しいのもHadoopをめぐる1つの状況だろう。そこで、今回の「Hadoop Hack Night Vol.2」は「ケーススタディ

tomity 2011/05/19

リンク

第2回　階層的クラスタリングによる特徴抽出 | gihyo.jp

はじめに前回は、情報可視化の基本的な考え方について、HatenarMapsなどの実例を示しながら説明しました。第2回以降は、Java言語を使用して実際にプログラムを作成することで、情報可視化の実践例を示していきたいと思います。目標本連載では、はてなブックマークの人気エントリーのデータを可視化することを最終的な目標にします。可視化にあたっては、統計学的観点から「階層的クラスタリング⁠」⁠、視覚的観点から「ツリーマップ」の手法をそれぞれ用いることにします。 Java開発環境のセットアップ手元にJavaの開発環境がなく、本連載のプログラムを試したい場合には、Sun Microsystemsが提供している統合開発環境、NetBeansの導入をおすすめします。 NetBeansはオールインワン型のIDEですので、インストールするだけで特別な設定の必要もなく、一通りの開発環境を整えることができ

tomity 2011/02/28

リンク

第31回　RubyistのためのMongoDB入門（1） | gihyo.jp

はじめにここ最近、NoSQLというキーワードが注目を集めています。リレーショナルデータベースは、一般的にスケールアウト（サーバの台数を増やして性能向上を図る手法）が難しく、特に大規模サービスにおいてパフォーマンス上のボトルネックとなりえます。また、タグやグラフ構造のようなデータは関係モデルに馴染みにくいため、それらを扱う際にはアプリケーションコードもぎこちないものになりがちです。これらの問題を背景に、何にでもリレーショナルデータベースを使うのではなく、用途に応じてKVSなど他のデータストアを選択する流れが広まりつつあります。このムーブメントがNoSQL（Not Only SQL）と呼ばれているものです。今回は、NoSQLなデータベースの1つであるMongo DBをご紹介します。 Mongo DBとは Mongo DBは高いパフォーマンスとスケーラビリティを特徴とするドキュメント指向型デー

tomity 2011/02/11

リンク

機械学習はじめよう記事一覧 | gihyo.jp

tomity 2011/02/02

リンク

第1回　memcachedの基本 | gihyo.jp

株式会社ミクシィ開発部システム運用グループの長野です。普段はミクシィのアプリケーション運用を担当しております。今回から数回にわたり、最近Webアプリケーションのスケーラビリティの分野で話題になっているmemcachedについて、弊社開発部研究開発グループの前坂とともに、使い方や内部構造、運用について解説させて頂きます。 memcachedとは memcachedは、LiveJournalを運営していたDanga Interactive社で、Brad Fitzpatrick氏が中心となって開発されたソフトウェアです。現在ではmixiやはてな、Facebook、Vox、LiveJournalなど、さまざまなサービスでWebアプリケーションのスケーラビリティを向上させる重要な要素になっています。多くのWebアプリケーションは、RDBMSにデータを格納し、アプリケーションサーバでそのデータ

tomity 2010/07/21

リンク

はてなブックマーク

タグ

ブックマーク / gihyo.jp (11)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス