タグ

2009年6月1日のブックマーク (54件)

  • HBase MapReduce 101 - Part I

    In this and the following posts I would like to take the opportunity to go into detail about the MapReduce process as provided by Hadoop but more importantly how it applies to HBase. MapReduce MapReduce as a process was designed to solve the problem of processing in excess of terabytes of data in a scalable way. There should be a way to design such a system that increases in performance linearly w

    HBase MapReduce 101 - Part I
    rawwell
    rawwell 2009/06/01
    "To Map or Reduce or Not Map or Reduce This is now a crucial point we are at deciding on how to process tables stored in HBase. From the above it seems that we simply use a TableInputFormat to feed through a s TableMap and TableReduce to eventually persist the data with a TableOutputFormat. But this
  • Race-free Multithreading

    rawwell
    rawwell 2009/06/01
    "Towards this goal, I’ll present a series of posts in which I’m going to develop a threading model for that hypothetical language. The model is based on several papers that I reviewed in my previous blogs posts. My own contribution is putting the best of those ideas together into one package. I
  • PGCon2009:

  • GREE Engineering

    404 お探しのページは見つかりません GREE Engineering トップへ戻る

    GREE Engineering
    rawwell
    rawwell 2009/06/01
    "Flare is distributed, and persistent key-value storage compatible w/ memcached, and has more features (as follows): * persistent storage (you can use flare as persistent memcached) * pluggable storage (currently only Tokyo Cabinet is available, though:) * data replication (synchronous o
  • Webscraping with Python and BeautifulSoup | Alain M. Lafon

    "As soon as you have made a thought, laugh at it." [Lao Tzu] Recently my life has been a hype; partly due to my upcoming Python addiction. There’s simply no way around it; so I should better confess it in public. I’m in love with Python. It’s not only mature, businessproof and performant, but also benefits from sleekness, great performance and is just so much fun to write. It’s as if I were in Sta

    Webscraping with Python and BeautifulSoup | Alain M. Lafon
    rawwell
    rawwell 2009/06/01
    "In this short tutorial, I’m going to show you how to scrape a website with the 3rd party html-parsing module BeautifulSoup in a practical example. We will search the wonderful translation engine dict.cc, which holds the key to over 700k translations from English to German and vice versa. Note tha
  • Generator for permutations, combinations, selections of a sequence « Python recipes « ActiveState Code

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 #!/usr/bin/env python __version__ = "1.0" """xpermutations.py Generators for calculating a) the permutations of a sequence and b) the combinations and selections of a number of elements from a sequence. Uses Python 2.2 gene

    rawwell
    rawwell 2009/06/01
    "This recipe provides both combinations and permutations and lazily generates them. You can do arbitrary calculations on the permutation/combination items not just print them. If you require the complete list of permutations, just use the built-in list() operator. Note that the resulting list can be
  • Secrets of the "Secrets of the Framework Creators"

    rawwell
    rawwell 2009/06/01
    "there are links to the four sections covered: Frame Hacks, Decorators, Metaclasses and Magic Methods"
  • 日本のWebは「残念」 梅田望夫さんに聞く(前編) (1/3) - ITmedia News

    2006年2月、梅田望夫さんが著した「ウェブ進化論」(ちくま新書)は、インターネットの可能性やGoogleの力をポジティブに語り、国内の「Web 2.0」ブームに火を付けた。 その後も「フューチャリスト宣言」(新潮新書)、「ウェブ時代をゆく」(ちくま新書)などWeb関連のを立て続けに出版。テレビやネット媒体、新聞などの取材にも精力的に答えていた。 だがここ最近は、Webについて語ることは少なく、昨年11月にはTwitterに書き込んだコメントが炎上するという“事件”も起きた。 一方、今年5月には、最新刊「シリコンバレーから将棋を観る」(中央公論新社)を出版。その名の通り、将棋観戦の魅力を語ったで、帯にはこうある。 「わたしが当に書きたかったのはこのでした」 同書で彼は、“指さない将棋ファン”として将棋を語り、羽生善治さんなど第一線の棋士の努力と天才性を「シリコンバレーの技術者と通じ

    日本のWebは「残念」 梅田望夫さんに聞く(前編) (1/3) - ITmedia News
    rawwell
    rawwell 2009/06/01
    "、「おまえたちが制度設計し、日本語圏のネット空間が良くなるようにすればいいんだろう」と言われればその通りだ"
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    rawwell
    rawwell 2009/06/01
    "高次元ベクトルであらわされるようなデータがあって、しかもインスタンス数が半端じゃなくたくさんある場合に、類似検索であったりMemory Based Learningをしようとすると、非常にコストが高い。 そこで、近いインスタンス
  • Search Result Re-ranking by Feedback Control Adjustment for Time-Sensitive Query | Yahoo! Research

    Source: North American Chapter of the Association for Computational Linguistics - Human Language Technologies (NAACL HLT) (2009) Abstract: We propose a new method to rank a special category of time-sensitive queries that are year qualified. The method adjusts the retrieval scores of a base ranking function according to time-stamps of web documents so that the freshest documents are ranked higher.

    rawwell
    rawwell 2009/06/01
    "we use a simple but effective method to extract year qualified queries by mining query logs and a time-stamp recognition method that considers titles and urls of web documents."
  • ITニュース|ニフティニュース

    ITニュースの記事一覧です。iPhoneAndroidゲームSNSの話題や、IT業界テクノロジーなど、新聞・通信社が配信する最新記事のほか、動画ニュースや雑誌記事まで、話題のITニュースをまとめてお届けします。

    ITニュース|ニフティニュース
    rawwell
    rawwell 2009/06/01
    "Google App Engineは「Jetty」というライトウェイトなOSSのHTTPサーバ、アプリケーションサーバを使っている。てっきり私はWaveもそうなのかと思ったのだが、ラスムセン氏に聞いたところ、Waveのサーバは完全にスクラッチから書
  • Google Wave雑感 — ありえるえりあ

    Recent entries Apache2.4のリリース予定は来年(2011年)初め(あくまで予定) inoue 2010-12-23 Herokuの発音 inoue 2010-12-20 雑誌記事「ソフトウェア・テストPRESS Vol.9」の原稿公開 inoue 2010-12-18 IPA未踏のニュース inoue 2010-12-15 労基法とチキンゲーム inoue 2010-12-06 フロントエンドエンジニア inoue 2010-12-03 ASCII.technologies誌にMapReduceの記事を書きました inoue 2010-11-25 技術評論社パーフェクトシリーズ絶賛発売中 inoue 2010-11-24 雑誌連載「Emacsのトラノマキ」の原稿(part8)公開 inoue 2010-11-22 RESTの当惑 inoue 2010-11-22 「プ

    rawwell
    rawwell 2009/06/01
    "第一印象は、Grooveそっくりだな、というものです。技術的には、XMPPを使う超シンプルなGrooveです。 * http://www.waveprotocol.org/whitepapers/google-wave-architecture Comet(HTTPで同期通信)を使わずにXMPPを使うのは理にかなっています。Come
  • PyCon 2008 Notes

    rawwell
    rawwell 2009/06/01
    "Jim Baker - More Iterators in Action My notes say the slides are at http://zyasoft.com/, but that page strangely describes Zyasoft consulting services and software development but provides no links or contact information. The slides are attached to http://us.pycon.org/2008/conference/schedule/event
  • A Curious Course on Coroutines and Concurrency

    rawwell
    rawwell 2009/06/01
    "# generators (and coroutines) are "far more powerful than most people realize" # they have decent performance # but he's not convinced that it's worth using coroutines for general multitasking # it is "critically important" not to mix the three main uses of yield toegether: # iteration # receiving
  • :A Curious Course on Coroutines and Concurrency

    Copyright (C) 2009, All Rights Reserved David Beazley http://www.dabeaz.com Presented at PyCon 2009, March 25, 2009. Related Tutorials Generator Tricks for Systems Programmers. Presented at PyCon 2008 (Chicago). Generators: The Final Frontier. Presented at PyCon 2014 (Montreal). Introduction This tutorial is a practical exploration of using Python coroutines (extended generators) for solving probl

    rawwell
    rawwell 2009/06/01
    "This tutorial is a practical exploration of using Python coroutines (extended generators) for solving problems in data processing, event handling, and concurrent programming. The material starts off with generators and builds to writing a complete multitasking environment that can run thousands of
  • MySQLのEXPLAINを徹底解説!!

    以前、MySQLを高速化する10の方法という投稿で「EXPLAINの見方についてはいずれ解説しようと思う」と書いてしまったので、今日はその公約?を果たそうと思う。 MySQLのチューニングで最も大切なのは、クエリとスキーマの最適化である。スキーマの設計は一度決めてしまうとそのテーブルを利用する全てのクエリに影響してしまうためなかなか変更することは出来ないが、クエリはそのクエリだけを書き直せば良いので変更の敷居は低い。そして遅いクエリをなくすことは、性能を大幅に向上させるための最も有効な手段である。従って、アプリケーションの性能を向上させたいなら、まず最初にクエリのチューニングを検討するべきなのである。 最適化するべきクエリはスロークエリログやクエリアナライザで見付けられるが、ではそのようなクエリが見つかった場合にはどのように最適化すればいいのか?そのためにはまず現在どのようにクエリが実行さ

    MySQLのEXPLAINを徹底解説!!
    rawwell
    rawwell 2009/06/01
    "EXPLAINコマンドの各フィールドの詳細を説明したが、実際にEXPLAINコマンドを使ってクエリの実行計画を見る際には次のようなステップを踏むといいだろう。 1. id/select_type/tableフィールドを見て、どのテーブルがどの順序で
  • http://www.mysqlpracticewiki.com/index.php/Extra_field

    rawwell
    rawwell 2009/06/01
    "ExtraフィールドはEXPLAINで一番右に表示されるフィールドで、オプティマイザがどのような最適化手法を利用したかということについてヒントを与えてくれる。Extraという名前でありながら、実は最も大事な大事な項目かも知
  • オトコのソートテクニック2008

    今日は仕事納めだったので、一年の締めくくりとしてMySQLにおけるソートの話でもしようと思う。 インデックスを利用しないクエリで最もよく見かけるもののひとつは、ORDER BYを用いたソート処理だろう。もし、ソート処理においてインデックスを用いることが出来れば、MySQLは結果を抽出してから結果行をソートするのではなく、インデックス順に行を取り出せば良いので高速にソート処理することが可能になる。特に、LIMIT句やWHERE句を用いて行の絞り込みを行う場合は効果が絶大である。しかし、ひとたびインデックスを利用できない状況に直面すると、たちまちテーブルスキャンが発生して性能が劣化してしまう。 例えば、100万行のレコードを格納したt1というテーブルがあるとする。そのテーブルに対して以下のようなクエリを実行した場合を考えよう。 mysql> SELECT col1, col2 ... colx

    オトコのソートテクニック2008
    rawwell
    rawwell 2009/06/01
    "インデックスを利用しないクエリで最もよく見かけるもののひとつは、ORDER BYを用いたソート処理だろう。もし、ソート処理においてインデックスを用いることが出来れば、MySQLは結果を抽出してから結果行をソートするの
  • MySQL Clusterへの接続方法

    どうやってたくさんあるSQLノードに接続すればいいんだ? ロードバランスは? フェイルオーバーは? ということがあると思う。このテーマを扱ったドキュメントはありそうだちょうど良いものが見あたらない。おそらくこの点が明確でないために「よし、最近サイトのトラフィックも増えてきたことだし、いっちょMySQL Clusterを試してみようか!」という気にならず、多くの人が利用を躊躇ってしまっているのではないだろうか?なので今日はこの点について5パターンのソリューションを紹介したいと思う。 その前に、「MySQL Clusterって何だ?シラネーヨ!」って人は、MySQL Clusterの特徴やセットアップ方法などを以前にThinkITへ投稿したのでそちらを参照して貰いたい。 http://www.thinkit.co.jp/article/95/ では題。 1. mysqldをアプリと共存恐らく

    MySQL Clusterへの接続方法
    rawwell
    rawwell 2009/06/01
    "MySQL Clusterは高可用性・負荷分散を行うための非常に手軽なソリューションである。参照系の処理だけでなく、更新系の処理も負荷分散させることが出来るのが特徴的である。さらにMySQL Cluster自身がフェイルオーバー機能を
  • 高速SSDの落とし穴。データベースで利用するときはご注意を!

    今年はSSDの台頭がめざましい。価格の低下、大容量化、そして高速化、さらには低電力化まで期待できるというからもうHDDの出番はなくなるんじゃないだろうかというぐらいの勢いである。しかしそんなSSDもデータベースで利用する時には気をつけてもらいたい。 MySQL Performance Blogでインテル製SSDを使って検証した結果がレポートされている。 インテル製SSDはめっぽう早い。彼らのテストでは一秒間に5250回もの書き込みが出来たそうだ。しかしそれはライトバックキャッシュが有効になっているときの話であって、ライトバックキャッシュを無効にすると書き込みは秒間1200回まで低下したらしい。(それでも高速だが。) で、このインテル製SSDのライトバックキャッシュはくせ者で、バッテリー等で保護されていない。つまり、ライトバックキャッシュにダーティな(まだディスクへの書き出しが完了していない

    高速SSDの落とし穴。データベースで利用するときはご注意を!
    rawwell
    rawwell 2009/06/01
    "で、このインテル製SSDのライトバックキャッシュはくせ者で、バッテリー等で保護されていない。つまり、ライトバックキャッシュにダーティな(まだディスクへの書き出しが完了していない)データが残っていると、ホ
  • MySQLのプロンプトを変更する。

    MySQLのCLI(コマンドラインインターフェイス)を利用しているとおなじみの mysql> というプロンプトがあるが、実はこれは変更が可能である。MySQL CLIを利用している最中なら、promptコマンドを実行すれば良い。例えば次のように。 mysql> prompt \U [\d] >\_ PROMPT set to '\U [\d] >\_' mikiya@localhost [test] > \Uや\dはそれぞれ意味が決まっていて、それらを組み合わせることで任意の情報をプロンプトに表示できるわけである。見易いように > やスペース、括弧などを組み合わせるといいだろう。例えば何かの作業をするときには mysql> prompt 作業1 [\D]>\_ PROMPT set to '作業1 [\D]>\_' 作業1 [Tue Mar 17 07:39:28 2009]> などとする

    MySQLのプロンプトを変更する。
    rawwell
    rawwell 2009/06/01
    "なお、プロンプトで指定できるシーケンスの意味は次の通り。 \c ・・・コマンド何回実行したかを数えるカウンタ。 \D ・・・日時 \d ・・・利用中のデフォルトデータベース \h ・・・接続先ホスト(サーバ) \l ・・・デリ
  • Using filesort

    去年ソートに関する記事を書いたが、今日はその続きである。 MySQLでEXPLAIN SELECT...を実行するとExtraフィールドでよく見かける「Using filesort」という文字列。Filesortって一体なんだろう?と思ったことはないだろうか。単刀直入に言ってFilesortの正体はクイックソートである。 クエリにORDER BYが含まれる場合、MySQLはある程度の大きさまでは全てメモリ内でクイックソートを処理する。ある程度の大きさとはsort_buffer_sizeであり、これはセッションごとに変更可能である。ソートに必要なメモリがsort_buffer_sizeより大きくなると、テンポラリファイル(テンポラリテーブルではない)が作成され、メモリとファイルを併用してクイックソートが実行される。 Filesortは全てのソート処理において実行されるわけではない。前回の記事

    Using filesort
    rawwell
    rawwell 2009/06/01
    "# Filesortとはクイックソートのことである。 # JOINにおいてORDER BYが指定されているとき、ソートが行われるタイミングは3種類ある。 # Using filesortがEXPLAINに出ていないときはインデックスを用いてソートが行われている。(最
  • MySQLレプリケーションを安全に利用するための10のテクニック

    MySQLのレプリケーションは非常に簡単に使える割には応用の幅が広いので非常に人気のある機能の一つである。レプリケーションの応用分野は例えば、 バックアップ 参照系の負荷分散 HA(高可用性) ディザスタリカバリ(サイト間レプリケーション) BI(レポーティングetc) という風にとても多くのバリエーションがある。このブログを読んで頂いている皆さんの中にもレプリケーションを使っている方は多いのではないだろうか。ご覧の通りMySQLのレプリケーション機能はミッションクリティカル分野でも利用されているが、レプリケーションの使い方が適切でないとシステムの安定稼働に支障を来してしまってDBAやシステム管理者の肉体的、精神的負担が増大してしまう。逆にレプリケーションを堅牢に運用することが出来ればマクラを高くして眠れるというものだ。レプリケーションはMySQLの代表的な機能であるので、レプリケーション

    MySQLレプリケーションを安全に利用するための10のテクニック
    rawwell
    rawwell 2009/06/01
    "1. マルチマスターレプリケーションを利用しない 非常によくある誤解なのだが、HAにしたいからといってマルチマスター構成にしているユーザをたまに見かける。マルチマスターとは2台のMySQLサーバで構成するトポロジの
  • やってはいけない!!MySQLに悲鳴をあげさせる10の方法

    いつも「MySQLを使うときはこうするべき」という観点から記事を書いているが、今日は逆に犯してはいけない過ちをリストアップしようと思う。 1. 全てのカラムにインデックスをつけるデータベース初心者がもっともやってしまいがちな間違いはコレではないだろうか。インデックスはいい。検索がとても速くなるから。しかし、それと引き替えにインデックスは更新するときにコストがかかるし、その分多くのディスクスペースを消費する。特に更新にかかるコストは時に甚大で、該当するインデックスのページがキャッシュ上にない場合はディスクからいったんそのページを読み込まなければいけない。ディスクアクセスは動作にとても時間がかかるので、インデックスが多数、例えば全てのカラムに付いていたりすると「あれ?固まったか?」というような状態になってしまうことがあるだろう。インデックスは必要なカラムにだけつけるようにテーブルを設計しよう。

    やってはいけない!!MySQLに悲鳴をあげさせる10の方法
    rawwell
    rawwell 2009/06/01
    "8. 同時接続数が多すぎる MySQLは同時接続数が増えても軽快に動作する・・・ということはない。数千の接続が同時にアクティブな状態では、ロックの競合が多発してスラッシングが起きてしまう。適切な接続数を見極めよ
  • MySQL

    rawwell
    rawwell 2009/06/01
    "The current DTrace support should be improved based on suggestions and patches from Mikael Ronstrm, Martin Brown, Alexey Kopytov and others. The goal is to fix some build issues with the current code (for example, bugs #36403 and #37584), extend the current set of probes and their arguments to incr
  • MySQL for the Oracle DBA Resources

    rawwell
    rawwell 2009/06/01
    "The announcement last month of Oracle to acquire Sun continues to warrant a lot of discussion over exactly what Oracle will do with MySQL. Only time will tell what will happen with the official product, however it is important to remember that MySQL is GPL, there will always be a free version of My
  • Announcing Drizzle on EC2

    I have published the very first sharable Drizzle Amazon Machine Image (AMI) for AWS EC2, based on the good feedback from my discussion at the Drizzle Developer Day on what options we should try. This first version is a 32bit Developer instance, showcasing Drizzle and all necessary developer tools to build Drizzle from source. What you will find on drizzle-ami/intrepid-dev32 – ami-b858bfd1 Ubuntu 8

    rawwell
    rawwell 2009/06/01
    "I have published the very first sharable Drizzle Amazon Machine Image (AMI) for AWS EC2, based on the good feedback from my discussion at the Drizzle Developer Day on what options we should try."
  • More Basic MySQL Security

    rawwell
    rawwell 2009/06/01
    "Never store the MySQL ‘root’ user password in a ~root/.my.cnf file."
  • Basic OS/MySQL Security

    rawwell
    rawwell 2009/06/01
    "This will stop any brute force attack on your server by automated bots and password generators."
  • Transcending Technology Specific Boundaries

    rawwell
    rawwell 2009/06/01
    "Performance is easy if you stop guessing where your code is slow. A few best practice tips are: * You have to insist on seeing where time goes for any task you think is important * You need to look at the sequence diagram of the task * What individual part takes the most time, then look
  • Drizzle now available on Mosso

    rawwell
    rawwell 2009/06/01
    "Mosso the Rackspace Cloud now has a Drizzle developer image much like the first Drizzle AMI on EC2."
  • One advantage of Oracle/Sun/MySQL

    rawwell
    rawwell 2009/06/01
    "In addition to many years of providing MySQL for the Oracle DBA Resources I have with the recent closure of call for papers submitted two sessions for consideration."
  • Compiling libdrizzle

    rawwell
    rawwell 2009/06/01
    "Compiling libdrizzle is a rather trivial task. The following are the steps I undertook on Ubuntu 8.10 Intrepid 32 bit."
  • Adding a Drizzle Plugin

    rawwell
    rawwell 2009/06/01
    "In addition to a number of presentations and various group discussions most of my individual hacking time was under the guidance of Drizzle team developer Stewart Smith were Patrick Galbraith and myself started the porting of Patrick’s memcached UDF functions for MySQL. Leveraging some existing D
  • MySQL Monitoring 101

    At the 2009 MySQL Conference and Expo I presented to a full room on MySQL Monitoring 101. This presentation focused on the following four goals. Know what to monitor Know how you can monitor Learn practices to diagnose problems Have a foundation of historical information

    rawwell
    rawwell 2009/06/01
    "At the 2009 MySQL Conference and Expo I presented to a full room on MySQL Monitoring 101."
  • Setting up MySQL on Amazon Web Services (AWS) Presentation

    rawwell
    rawwell 2009/06/01
    "On Tuesday at the MySQL Camp 2009 in Santa Clara I presented Setting up MySQL on Amazon Web Services (AWS)."
  • What's happening with InnoDB

    rawwell
    rawwell 2009/06/01
    "The InnoDB plugin available in 5.1 has a number of new benefits. * fast index creation * table compression * info schema tables * new row storage format * file format management"
  • Search at Craigslist

    I am now sitting in on MySQL and Search at Craigslist by Jeremy Zawodny at MySQL Users Conference Some of the technical difficulties that required addressing. High churn rate half life can be very short Growth Traffic Need to archive postings, e.g. 100M but be searchable Internationalization and UTF-8 Some of the Craigslist Goals Open Source Easy and approachable be green with energy use A review

    rawwell
    rawwell 2009/06/01
    "A review of the Internals server configuration * Load Balancer (perlbal like) * Read Proxy Array (perl+memcached) * Web Read Array (apache 1.3 + mod_perl) * Object Cache (Perl + memcached) * Read DB Cluster (MySQL 5.0.x) * Search Cluster (Sphinx)"
  • A beginners look at Drizzle – SQL_MODE

    rawwell
    rawwell 2009/06/01
    "A new feature to MySQL Version 5 was the introduction of SQL_MODE to support STRICT… or TRADITIONAL values. This feature enabled a closer compatibility to other RDBMS products. MySQL by default performs a number of silent data changes which do not help in providing a level of data integrity if yo
  • Identifying resource bottlenecks – Memory

    rawwell
    rawwell 2009/06/01
    "In auditing, I start with the ‘free’ command, the already used ‘vmstat’ command, the /proc/meminfo and /proc/sys/vm/swappiness files to get an indication of memory and swap resources. While we are looking at the Memory, the configuration of Swap is also very important. I will discuss this i
  • A beginners look at Drizzle – Datatypes and Tables

    rawwell
    rawwell 2009/06/01
    "Storage Engines A key difference in Drizzle is the default storage engine. This defaults to InnoDB, rather then MyISAM. MyISAM is still currently packaged with Drizzle, however I hope that Maria becomes it’s replacement. The MERGE and FEDERATED storage engines are not supported. BLACKHOLE by defa
  • Free MySQL Book giveway – Current Progress

    rawwell
    rawwell 2009/06/01
    "I’ve decided to give people two more days for a chance to win a free MySQL Book — Sheeri Carbal’s MySQL Administrators Bible. I have had five people so far provide recommendations for a simple MySQL configuration question as stated in For MySQL DBA fame and glory. Prize included. Shlomi Noach
  • MySQL Server Blog | News from the MySQL Server Team

    rawwell
    rawwell 2009/06/01
    "* DTrace. [sic -- with a capital T!] The worklog task description “Improved DTrace support in server” (WL#4541) explains that this is about adding instrumentation in the SQL code for routines that aren’t system calls (system calls are handled without us having to add instrumentation). The WL#
  • Computer Language Trends in 2009 – Armed and Dangerous

    Armed and Dangerous Sex, software, politics, and firearms. Life's simple pleasures… Six years ago, in The Art of Unix Programming, I observed some interesting trends in the deployment of programming languages. One Christer Nyfält mailed me this morning reporting that he had followed up by collecting the analogous statistics from SourceForge for present time. Here’s what he said (lightly copy-edit

    Computer Language Trends in 2009 – Armed and Dangerous
    rawwell
    rawwell 2009/06/01
    "1. Ruby is probably the biggest disruptor since 2003. For a while there I thought it might do to Python what Python did to Perl, but it didn’t sustain its initial growth surge and seems to be having trouble getting design wins nowadays outside a small community of very hard-core supporters. I’m
  • 論文での情報収集 - Loud Minority

    毎年、年度頭の挨拶でも書いた方が良いかとおもうのですが、形式張ったのもどうかとおもうし、研究室に新入生も入って慣れてくるころなので、何か自分のスキルから学生に役立ちそうなものを書いてみることにしています(昨年と今年)。 自分で公開するのも恥ずかしい、とんでもない駄文ですが、誰かの役に立てばと思い、研究室向けに公開した文章をこちらにも掲載します。今年は、論文の情報収集の話にしてみました。ちなみに、昨年は、インターネットの情報収集の話をしました。1年経って状況も変わったので、アップデートしてあります。http://d.hatena.ne.jp/sesejun/20080404/p1 - この文章では、個人的には、なんだか当たり前の事を書いています。書いて公開するのを躊躇する位のレベルです。しかし、「この論文読んでみて?」とか「この章読んでみて?」とお願いした時や、輪講の時、その論文やで参照さ

    論文での情報収集 - Loud Minority
    rawwell
    rawwell 2009/06/01
    "英語の、そして世界で戦う論文を書くには * 人工知能学会誌23巻3号(2008/5)の松尾先生がまとめられた「国際会議に通すための英語論文執筆」という特集 * Tips for Writing Technical Papers http://infolab.stanford.edu/~widom/paper-writing.ht
  • ACL-IJCNLP 2009 に short paper として採択されました - 武蔵野日記

    まだ手許には査読結果が返ってきていないのだが、今年はシンガポールで開催される自然言語処理の最大級の国際会議、ACL-IJCNLP 2009 の List of accepted short papers が発表されているようだ(@sassano さん経由)。 EMNLP 2009 の authors' response は渋い結果だったので期待していなかったが、こちらに出した論文はもっとフォーカスを絞って書いたし通ってくれるかなとは思っていたので、無事アクセプトされていてほっとした。 ちなみに short paper というのは普通の論文(full paper)と比べて短いが速報性が高い内容や、あまり結果が芳しくなかった実験、もしくは実験はまだでもこういうことをやりたいですよというような内容に加点されるもので、一般的には full paper よりは通りやすいと思う。自然言語処理分野の国際

    ACL-IJCNLP 2009 に short paper として採択されました - 武蔵野日記
    rawwell
    rawwell 2009/06/01
    おめでとうございます!
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
    rawwell
    rawwell 2009/06/01
    "MeCabはユーザーが辞書を更新することが出来ます。MeCab: 単語の追加方法を参考にはてなキーワードを追加します。"
  • A quick tour of DRBD | MySQL-dump

    Snapshot of the vmware config used (two running instances required for the example) This is a quick tour of DRBD and how it compares to local RAID and to MySQL replication. DRBD is short for "distributed raw block device", so what it does is essentially RAID-1 over a network cable. You will be able to have two copies of a block device on two different physical machines, one of them the primary, ac

    rawwell
    rawwell 2009/06/01
    "This is a quick tour of DRBD and how it compares to local RAID and to MySQL replication. DRBD is short for "distributed raw block device", so what it does is essentially RAID-1 over a network cable. You will be able to have two copies of a block device on two different physical machines, one of the
  • DBサーバのストレージをDRBDで冗長化するのは是か非か - (ひ)メモ

    LinuxにはDRBDというものがあります。 DRBDとは何か? 簡単にいうと、ミラーリングです。ミラーといっても、RAID-1のようにディスクtoディスクではなく、2つの異なるサーバ間のネットワーク越しのミラーリングです。 RAIDの場合は、ディスク故障の耐性は高まりますが、サーバのほかの部分(電源など)が壊れると元も子もありません。DRBDだと、そういった場合の障害にも対応できますね。 DRBDには普通のブロックデバイスとしてアクセスできます。つまり、mkfsしてmountしてフツーのディスクのように使えます。 で、 A quick tour of DRBD - MySQL-dump は、そのDRBDを使って、MySQLのストレージを冗長化するという話。(だと思う。ナナメ読みなので) しかーし、いくつか危険な点があるので、この構成はやらんほうがいいというのが個人的な意見。以下、その理由

    DBサーバのストレージをDRBDで冗長化するのは是か非か - (ひ)メモ
    rawwell
    rawwell 2009/06/01
    "* A quick tour of DRBD - MySQL-dump は、そのDRBDを使って、MySQLのストレージを冗長化するという話。(だと思う。ナナメ読みなので) しかーし、いくつか危険な点があるので、この構成はやらんほうがいいというのが個人的な意見
  • InnoDB: Designing and Configuring for Best Performance - (ひ)メモ

    資料 (PPT) 気になったところをメモ。 SHOW INNODB STATUS\G ディスクアクセスを減らすために innodb_log_file_sizeはinnodb_buffer_pool_sizeの25%ぐらいにする これは、以下を前提としてのお話 innodb_log_file_in_group = 2 innodb_log_file_size × innodb_log_file_in_group が4GB以下 テーブルの大きさを小さくしよう 小さくすればバッファに乗りやすい→ディスクI/Oが減る 5.0からCREATE TABLE ... ROW_FORMAT=COMPACTがデフォルトになったよ 4.1以前の古い形式はROW_FORMAT=REDUNDANTね 最大20%ぐらい小さくなるよ PRIMARY KEYは短くしようね 全てのセカンダリインデックスのレコードにも、プ

    InnoDB: Designing and Configuring for Best Performance - (ひ)メモ
    rawwell
    rawwell 2009/06/01
    "# SHOW INNODB STATUS\G # ディスクアクセスを減らすために * innodb_log_file_sizeはinnodb_buffer_pool_sizeの25%ぐらいにする * これは、以下を前提としてのお話 o innodb_log_file_in_group = 2 o innodb_log_file_size × innodb_log_file_in_gro
  • qemu - Etherboot/gPXE Wiki

    Type on the command line: qemu -fda gpxe.pdsk -net nic -net user -bootp http://etherboot.org/gtest/gtest.gpxe First make sure you have gpxe.pdsk or ns8390.pdsk. You can download them from ROM-o-matic.net or build them yourself. Here is how to boot over HTTP: qemu -bootp http://server/file gpxe.pdsk Or to boot using PXE: qemu -bootp tftp://10.0.2.2//pxefile -tftp /path/to/pxedir -fda gpxe.pdsk QEMU

    rawwell
    rawwell 2009/06/01
    "Here is how to boot over HTTP: qemu -bootp http://server/file gpxe.pdsk Or to boot using PXE: qemu -bootp tftp://10.0.2.2//pxefile -tftp /path/to/pxedir -fda gpxe.pdsk"
  • 第16回 『モバイルスタジオ』 : 技術者が語る新製品開発の裏側 | NEC

    Please note that JavaScript and style sheet are used in this website, Due to unadaptability of the style sheet with the browser used in your computer, pages may not look as original. Even in such a case, however, the contents can be used safely.

    rawwell
    rawwell 2009/06/01
    "ちなみに、以前(2003年秋)にこのシリーズでも紹介した渡辺純子らのテキストマイニングツール「TopicScope」も、コアになっているのは、研究所の山西らが開発したSurveyAnalyzerとよばれるエンジンである。彼らの技術体系全
  • mysqlでいちいちshow databasesとか打つのがめんどい→readlineのマクロで解決 - (ひ)メモ

    MySQLでいちいちshow tables;とか打つのがだるい。\tみたいなalias設定できないのかなぁ http://twitter.com/weboo/status/1658300902 おぉ、readlineのマクロを使えばいいのかー http://twitter.com/weboo/status/1658314333 なるほ!ってことでちょっと設定してみました。 # ~/.inputrc $if mysql "\C-xd": "show databases;" "\C-xt": "show tables;" "\C-xu": "select user,host,password from mysql.user order by user,host;" "\C-xb": "select user,host,db from mysql.db order by user,host;"

    mysqlでいちいちshow databasesとか打つのがめんどい→readlineのマクロで解決 - (ひ)メモ
    rawwell
    rawwell 2009/06/01
    "MySQLでいちいちshow tables;とか打つのがだるい。\tみたいなalias設定できないのかなぁ Twitter / Weboo!: MySQLでいちいちshow tables;とか打つ ... おぉ、readlineのマクロを使えばいいのかー Twitter / Weboo!: おぉ、readlineのマクロを
  • Geekなぺーじ : 「インターネットの形」を探るための基礎データ集

    「インターネット全体の形」は誰も知りません。 どこがどのように繋がっていて、全ての組織を網羅した「網の地図」はどんな形になるのか?、一番遠い所同士の「直径」はどれぐらいになるんだろうか?、当はどれぐらいの組織が繋がっているのか?、どれぐらいのデータが流れているのだろうか?などの疑問に正確に回答できる人は、恐らく一人もいません。 しかし、それらを推測するような研究を人々が行えるように基礎データを公開している団体がいくつかあります。 今回は、「インターネットの形」を探るための基礎データとなり得る情報を公開しているサイトを紹介したいと思います。 routeviews アメリカオレゴン大学が公開しているBGP(Border Gateway Protocol)経路情報です。 フルルートデータが公開されています。 AS(Autonomous System,自律システム) Pathなどのデータを組み合

    rawwell
    rawwell 2009/06/01