タグ

ブックマーク / d.hatena.ne.jp/nokuno (20)

  • Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記

    以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。 はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は!?私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります:誰もがその命令を理解できると

    tomity
    tomity 2013/02/04
  • Hadoopのダークサイド - nokunoの日記

    BackTypeという会社の技術ブログで、Hadoopのダークサイドについての記事がありました。面白かったので紹介したいと思います。The dark side of Hadoop - BackType Technologyこの記事では以下のようなHadoopの弱点が述べられています。Hadoopを使っている人にとっては、心当たりがあるのではないでしょうか。 重要な設定が全然文書化されていない メモリ消費量がひどい ゾンビプロセスが残ってしまう詳細は元エントリ(英語)をご参照ください。ツイートする

    tomity
    tomity 2013/02/04
  • marisa-trieを使ってみた - nokunoの日記

    id:s-yata さんの新作trieライブラリが公開されていたので使ってみました。環境はMac OS Xです。やた@はてな日記 marisa-trie - Project Hosting on Google Code インストール普通にGoogle Codeからダウンロードしてインストールします。 $ wget http://marisa-trie.googlecode.com/files/marisa-0.0.1.tar.gz $ tar xfz marisa-0.0.1.tar.gz $ cd marisa-0.0.1/ $ ./configure $ make $ sudo make install 動作確認Wikipedia N-gram(nokunoの日記)よりbigramを格納し、marisa-predictによって前方一致検索を行いました。 $ cat bigram.txt

    tomity
    tomity 2012/06/01
  • オープンソースのTrieライブラリまとめ - nokunoの日記

    最近、趣味で開発しているStaKKのためにTrieライブラリを書いているのですが、参考にするためオープンソースのTrieライブラリについて調べました。簡潔データ構造を用いたものが中心です。 @hillbig氏によるもの tx LOUDSによる圧縮でメモリ使用量を削減したTrieライブラリ。 関連記事:Tx: Succinct Trie Data Structure Engineering the LOUDS Succinct Tree Representation - 射撃しつつ前転ux txの改良版。tailの圧縮によりtxの1/2くらいのサイズになるらしい。要チェック。 関連記事:ux... - ny23の日記id:s-yata 氏によるもの taiju LOUDSを含む簡潔データ構造を用いた大規模Trieライブラリ。sumire-triesインメモリの簡潔データ構造を実装した大規模T

    tomity
    tomity 2012/06/01
  • Facebookの新しいリアルタイム解析システムとは? - nokunoの日記

    Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

    tomity
    tomity 2012/05/17
  • 自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

    Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあるから スクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるから また,機械学習のライブラリを言語別にまとめた質問もありました.こちらもJava, Python, Rが多いですね.Which programming language has the best repository of ma

    tomity
    tomity 2012/03/28
  • 第2回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記

    第2回 データ構造と情報検索と言語処理勉強会 #DSIRNLP - [PARTAKE] 自然言語処理はじめました by @phylloさん自然言語処理はじめました - Ngramを数え上げまくるDSIRNLPで発表させていただきました - Negative/Positive Thinking 自己紹介:Negative/Positive Thinking 今日の概要:いろんな方法でN-gram頻度を数える N-gramとは? 隣り合うN個の塊のこと 単語n-gramや文字n-gramがある ナイーブな方法 ハッシュに入れて数える 問題:大規模テキストやNを大きくしたら? N-gramの異なり数はNに対して指数的に爆発する 解決法:N-gramをメモリに保存しない! Suffix Arrayを使った方法 入力文のSuffix Arrayを使った方法 メモリの節約になってる?:3*N+4byt

    tomity
    tomity 2011/12/23
  • 日本語入力におけるN文節最長一致とはなんなのか - nokunoの日記

    Googleの工藤さんとPFIの徳永さんがN文節最長一致法について議論している記事を見つけました.日本語入力におけるN文節最長一致とはなんなのか興味深かったので引用しておきます.Taku Kudo徳永さんののレビューをやりつつ、N文節最長一致について少しコメントを書きました。N文節最長一致についてはさんざんな言われようで、うまくいく原理はよくわからないとか、たまたまうまくいっているみたいな認識を持っている方が多いと思います。Mozcの開発を通じ、その心がわかったし、よくできてるんだなと感心しました。N文節最長一致は、ユーザの入力単位が文節であるという仮定を強く意識した手法です。換言すると、ユーザは自分の入力が常に1文節になることを期待しながら入力しているという仮定です。実はこれはあながち間違っていなくて、多くのユーザは無意識のうちに文節単位で入力しています。この仮定が常に正しのであれば、

    tomity
    tomity 2011/12/23
  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

    tomity
    tomity 2011/06/17
  • Evernoteのアーキテクチャ概要 - nokunoの日記

    みなさん、Evernoteは使っていますか? Evernoteは「全てを記憶する」が合言葉のメモアプリで、クラウド上にデータを保存してWin/Mac/iPhone/Webから共通のデータにアクセスしたり同期したりできるのが特徴の便利なサービスです。開発元はシリコンバレーの会社ですが、日人のユーザも非常に多いそうで、Evernoteの使い方についての記事は日語でも星の数ほどありますのでここでは触れません。 今回は、そのEvernoteの裏側のシステム概要を解説する記事が今月開設されたばかりの技術ブログに公開されていましたので、翻訳してみました。Architectural Digest | Evernote Tech Blog はじめにこのブログの手始めとして、Evernoteの構築について大雑把な概要を述べる。ここではそれぞれのコンポーネントの詳細に踏み込むことはしない。それらについての

    tomity
    tomity 2011/05/29
  • 言語処理学会3日目 #nlp2011 - nokunoの日記

    というわけで(自分にとっての)最終日。 D3-1 階層的モデルを用いた機械翻訳のためのフレーズアライメント (pp.794-797) ○Neubig, Graham (京大/NICT), 渡辺太郎, 隅田英一郎 (NICT), 森信介, 河原達也 (京大) 複数の粒度でフレーズアライメントを行う教師なしモデルを提案 ITG(Inversion Transduction Grammar)のみではフレーズの粒度が最小フレーズのみ ノンパラメトリック階層ベイズモデルで再帰的にフレーズテーブルを構築ヒューリスティックなフレーズ抽出が不要 精度は同程度 D3-2 直訳調の訳を生成する機械翻訳 (pp.798-801) ○後藤功雄, 隅田英一郎 (NICT) 格構造を使って直訳調の約を生成する手法を提案 特許文書で中程度の長さの文を対象とした日英翻訳で階層フレーズベースSMTと同程度の精度 D3-3

    tomity
    tomity 2011/03/10
    すごい知りたい研究が続々
  • Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

    というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Barr) Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

    tomity
    tomity 2011/02/23
  • Quoraを支える技術 - nokunoの日記

    勉強になる記事を見つけたので気になったところを翻訳してみました。Quora’s Technology Examined | Phil Whelan's Blog はじめにQuoraはハイテク起業家の世界を体現しており、問題を見つけるのが難しいほどなめらかなシステムを提供している。この巧妙なシステムは回答者と質問者だけに支えられているわけではなく、よく練られたバックエンドシステムによっても支えられている。それは共同創業者がFacebookで磨きをかけた技術でもある。さほど驚くべきことでもなく、賢い人々は良く考えられたたくさんの賢い道具を使う。NoSQL信者たちはこう言って頭をかかえる:「なぜQuoraはCassandraやMongoDBやCouchDBのようなNoSQLではなく、MySQLをデータストアとして使うのか?」このエントリではQuoraについての技術的な情報をまとめ、考察を行う。彼

    tomity
    tomity 2011/02/17
  • 次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

    Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

    tomity
    tomity 2011/02/16
  • 過学習を避けるにはどうすればいいか? - nokunoの日記

    この前のエントリに関連してQuoraで質問したところ、非常に質の高い回答が集まったので翻訳したいと思います。 オーバーフィットについて考える - nokunoの日記How can I avoid overfitting? - Quora 回答1まず自分のデータをランダムに訓練集合とテスト集合に分割します。テスト集合は評価のためだけに使い、訓練に使ってはいけません。もし訓練セットに対する性能が向上しても、テスト集合に対してはそうでない場合は過学習を起こしています。そのためそうなる前に訓練を止める必要があります。 回答2過学習は信号に対するノイズに誤って適応することで引き起こされます。線形回帰の文脈なら、AIC(赤池情報量規準)をチェックして下さい。それは適用するのが非常に簡単なテストです。モデルの推定に最尤推定を用いるなら、BIC(ベイズ情報量規準)が好まれます。それはShwartz基準とも

    tomity
    tomity 2011/02/15
  • その数学が戦略を決める - nokunoの日記

    前から気になっていたのですが、文庫が出ていたので読んでみました。このは、ワインの品質をデータに基づいて予測する話から始まります。ワインの品質 = 12.145 + 0.0017 * 冬の降雨 + 0.0615 * 育成期平均気温 - 0.00386 * 収穫期降雨ワインの品質は伝統的に専門家による批評が行われてきましたが、試飲が可能になるまで結果がわからない、評価の信頼性についての指標がないといった問題点がありました。データに基づく予測では、専門家の批判を受けましたが、概ね良い結果を残しました。このでは先ほどのような回帰分析と無作為抽出テストを道具として、政治や医療といった各分野で、データ解析がどう活かされているかを説明しています。後半では標準偏差の説明やベイズの定理についても触れられており、確率や統計を全く知らない経営者の人が読むとしては良いのではないかと思いました。最終章では単

    tomity
    tomity 2011/02/03
  • 第9回 データマイニング+WEB 勉強会@東京に参加してきた - nokunoの日記

    というわけで行ってきました。第9回 データマイニング+WEB 勉強会@東京 ( TokyoWebmining 9)?1st Week? 大規模解析・機械学習・クオンツ 祭り? : ATNDFirst Weekって。■大規模解析:1. Mahout Canopy Clustering (講師:@hamadakoichi)(発表30分+議論60分) Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離 離れたクラスタ算出を実現する。 Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含めお話しします2. 機械学習=機械の代わりに人間が学習 (講師:@shuyo))(発表20分+議論40分) Gihyo.jp でも機械学習の連載し裾野を広げる活動をされている @shuyo さん。 今回、機械学習歴史や専門外

    tomity
    tomity 2011/01/16
    早いw
  • ウェブ系エンジニアがおさえておきたい技術ブログまとめ(海外編) - nokunoの日記

    こんな記事を見かけたので、海外編を考えてみました。ウェブ系エンジニアがおさえておきたい技術ブログまとめ - Meltdown Countdown例によって特定の分野に趣味嗜好が偏っている可能性があります。あと企業ブログに限りません。あとウェブ系に限りません。っておいおい。 企業系 Official Google BlogOfficial Google Research BlogThe Twitter Engineering BlogFacebook Engineeringさんのノート | FacebookYahoo! Hadoop BlogBlog « Cloudera » Apache Hadoop for the Enterprise クラウド・データマイニング系 myNoSQLRevolutionsmloss | Page not foundData Center Knowledge

  • Baidu不自然言語処理コンテストに参加しました - nokunoの日記

    大変申し訳ありませんでした。Baidu unlpView more presentations from nokuno.

    tomity
    tomity 2010/07/28
    [for:@twitter]
  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

    tomity
    tomity 2010/07/21
    エロいと言ったのは俺。この流れ作った俺エロい http://twitter.com/tomity/status/16759869370
  • 1