タグ

ブックマーク / d.hatena.ne.jp/nokuno (28)

  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

  • Clouderaカンファレンス Doug Cutting 講演会 "The Future of Hadoop" #dougjp - nokunoの日記

    Clouderaカンファレンスということで,Hadoopの生みの親Doug Cutting氏の講演会に参加しました.Cloudera カンファレンス Doug Cutting 講演会(仮) on ZusaarHadoopの名づけ元となった象のぬいぐるみもいました! 意外と細いんですね〜 The Future of Hadoop Context Data: 1.8ZB in 2011 Hadoop: Solution for Big Data HDFS and MapReduce: Hadoop Core Hive, Pig, Hbase, Mahout, and many components.. Dependency between components is big problem! Bigtop: package manager of Hadoop Apache Bigtop Big

  • Pythonによる日本語自然言語処理 #pyconjp - nokunoの日記

    日PyConJP 2011で発表します.PyCon JP 2011Pythonによる日語自然言語処理 #pyconjp View more presentations from nokuno 内容は予定通り,NLTKの12章をベースにしたものです.Python による日語自然言語処理 よろしくお願いします.ツイートする

  • PyConJP 2011に参加しました #pyconjp - nokunoの日記

    PyConJP 2011に参加および発表してきました.場所は品川シーサイドの産業技術大学院大学です.PyCon JP 2011 Keynote by @tarek_ziade How do I define dependencies? What's setup.py role? Example setup.cfg What's installed? How to uninstall?? Different formats: distutils, easy_install, pip You should used pip! "easy_remove" can't be implemented. Database on installed project $ sudo pysetup3 install What about version scheme? Too long version na

  • 自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

    Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあるから スクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるから また,機械学習のライブラリを言語別にまとめた質問もありました.こちらもJava, Python, Rが多いですね.Which programming language has the best repository of ma

  • Pigを試してみた - nokunoの日記

  • Hadoopアンカンファレンス - nokunoの日記

    はい,id:shiumachiさん主催のHadoopアンカンファレンスに参加してきました.Hadoop Unconference Tokyo #1 at EC-ONE on Zusaar自分のところではテーマとして MapReduce データマイニング 最適化あたりについて議論しました.最初MapRのことをMapReduceだと勘違いしていて恥ずかしい思いをしましたが後半があってよかったですw データマイニング 集計:平均・分散・カウントクラスタリング 教師あり学習 レコメンデーション データ アクセスログ(PV・クリック)→集計(Daily, Hourly, Monthly,..) 検索クエリログ・クロールデータ 広告・求人 出会い系のマッチング(eHarmony) センサーデータ(ケータイ,地震,電力?) スマートグリッド:各家庭に端末をつける 医療データ(レセプト) 交通(道路・電車

  • Hadoopを使ってTwitterやFacebook上での「影響力」を数値化するには - nokunoの日記

    Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています(@shiumachiさん、ありがとうございます!) Using Hadoop to Measure Influence | Apache Hadoop for the Enterprise | Cloudera ソーシャルメディア上の影響力測定サービス「Klout」とはKlout | The Standard for InfluenceKloutのゴールは影響力の数値化の分野でのスタンダードになることだ。近年のソーシャルメディアの普及により、多くの測定可能な友達関係に関する情報が手に入るようになってきている。Facebookユーザには、平均して130人の友達がいる

  • 第1回HBase勉強会に参加しました #hbaseworkshop - nokunoの日記

    というわけでHBase勉強会に参加してきました。今回が第1回目で、全6回の予定らしいです。Hbase勉強会(第一回) on ZusaarTogetter - 「# hbaseworkshop HBase勉強会(第一回)」 アプリケーション設計1 by @tatsuya6502さん 自己紹介 2009年からHBaseを評価 5年間は金融系のソフトウェアエンジニア 20年前はデザイナーとか HBaseエバンジェリスト 近況 転職しました:ジェミナイ・モバイル・テクノロジーズ HBaseドキュメントが日語訳されました アンケート HBaseをプロダクションで使っている人は少数 試している人はちらほら HBaseの特徴 柔軟なテーブル構造 強い一貫性:古いデータが見えることがない 大規模データ向け:自動シャーディング、高可用性 数十億件を超えてからが領発揮 2次インデックスを持たない(主キーへ

  • シリコンバレーカンファレンスの感想まとめ - nokunoの日記

    シリコンバレーカンファレンスから約1ヶ月。4月に入って地震による自粛ムードも薄れてきたのか、参加者のブログが一定数たまってきたようなのでまとめてみます。シリコンバレーカンファレンス 2011 感想 - ikeyasukiの日記シリコンバレーからのお便り: JTPA カンファレンス 2011:Overview シリコンバレー企業と人材 〜IDEO、GoogleApple、Facebook、Twitter等を訪問して〜 - ほぼ週刊 MBA留学ノート と シリコンバレー企業に見る企業の成長ステージ 〜TwitterからFacebook、そしてGoogleへ - ほぼ週刊 MBA留学ノートSVC2011いってくるぜ - ユメモヤ7SVC2011 シリコンバレーから その1 - hat-tunの日記 から SVC2011 シリコンバレーから その11 - hat-tunの日記までLike a S

  • Facebookの新しいリアルタイム解析システムとは? - nokunoの日記

    Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

  • サンフランシスコを巡ってきました - nokunoの日記

    日曜日は企業も開いていないので、サンフランシスコあたりを巡ってきました。 朝。 Mountain Viewでodessayさん(仮)を拾ってサンフランシスコへ。ゴールデンゲートブリッジを半分だけ渡ってきました。 中華街ランチ。 Japantownを見物。外人始点の日文化、面白い。 おすすめされたTypeStationという店で肉をべる。 日は地震で大変そうですが、こちらにいてできることは寄付とサーバーの電源を切ることと情報の収集くらいです。ツイートする

    shiumachi
    shiumachi 2011/03/14
    こうやって日常の空気を伝えてくれることも支援活動と思う。ご飯おいしそう
  • 決定木を用いた単語抽出 - nokunoの日記

    決定木を使って辞書なしで単語を抽出する手法に関する論文を読みました。Automatic Corpus-Based Thai Word Extraction with the C4.5 Learning Algorithm はじめに日語と同じく、単語の分かち書きがされない言語にタイ語があります。従来は人手による辞書の整備が行われていましたが、網羅性に限界があるのとコストがかかるので自動化したいというニーズがあります。 アプローチ日語の形態素解析では系列ラベリングとして定式化されることが多いですが、この論文ではコーパス中の全部分文字列を考え、ある部分文字列が単語か非単語かを二値分類するというアプローチをとっています。このことは、前後の文脈によって単語区切りが異なることがないという前提が置かれていることになります。実際に使うときは抽出した単語を辞書として最長一致するのかな。 決定木単語と非単

    shiumachi
    shiumachi 2011/03/03
    "エントロピーやPMIを用いることで辞書中の単語以外にも適用できるようになるという点が面白いと思いました。未知語に強そうな手法"
  • Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

    というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Barr) Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

    shiumachi
    shiumachi 2011/02/23
    早い。もう昨日のうちにアップしてたのか
  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

  • 次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

    Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

    shiumachi
    shiumachi 2011/02/16
    Y!の記事の翻訳。素晴らしい
  • Googleのエンジニアに必要とされるスキルセットは何か? - nokunoの日記

    以下のQuoraの翻訳です。この質問に対して、秘密主義で知られるGooglerたちが答えているのがいいですね。What are the skill-sets needed to be a Google Engineer? - QuoraGoogleエンジニアに必要とされるスキルセットは何か? 回答1ほとんどのプログラマはブラックボックスを使用しています。データベースはブラックボックスです:SQLを与えると、答えが返ってきます。コンパイラもまたブラックボックスです:ソースコードを与えると、実行バイナリ(またはエラーメッセージ)が返ってきます。たくさんのプログラマがこれらのブラックボックスを所与のものとして扱うことでハッピーになります。よりよいプログラマは、そのなかで何が起こっているのかを不思議に思い、中身を開けてみてみるのです。私が言いたいのは、Googleエンジニアに必要とされているス

    shiumachi
    shiumachi 2011/02/10
    "「抽象化レイヤーを乗りこなす」能力です。あなたは抽象化レイヤーについて理解する必要があると同時に、その抽象化がどうやって提供されているのかを知るために実装を調べる能力を必要とします"
  • TopCoderはじめました(SRM 496 Div2) - nokunoの日記

    こんなエントリを読んでしまい、TopCoderを始めたくなってしまったので始めました。Story of Your Life » Blog Archive » 社会人からのTopCoder SRM参加のススメTopCoder,Inc.事前に過去問をやって練習していたこともあり、順調に200点問題と500点問題を解いて、残り50分もあったので1000点問題に挑戦したのですが、解き方がわからないままあえなく時間切れとなりました。 200点問題アナグラムになった文字列の集合が与えられるので、文字の入れ替えによって同じ文字列にできないような入力の部分集合の数を求める問題。たとえばこんな具合。入力0: {"abcd","abdc","dabc","bacd"}出力0:1("abcd"の2種類) 入力1: {"abcd","abac","aabc","bacd"}出力1:2("abcd", "aabc"

    shiumachi
    shiumachi 2011/02/02
    今までGCJオンリーだったけどそろそろ手を出そうかと考え中
  • HadoopがJavaではなくC/C++で実装されていたらどう違っていたか? - nokunoの日記

    Quoraでこんな質問を見つけたので適当に翻訳してみました。Would Hadoop be different if it were coded in C/C++ instead of Java? How? - Quora 回答1実際のところ難しいけど、考えてみるのは楽しいね。 実行時間は速くなると思うけど、それが決定的な違いになるかどうかはわからない。 セキュリティやいくつかの機能は実装しやすくなるかもしれない 他のプログラミング言語への対応はしやすくなる。Java/Pipes/Streamingを選ぶ代わりに、コンパイルしてリンクすればいい。 コード量は非常に大きくなる。エラーチェックのためにね。 コードベースが大きくなれば、開発スピードは遅くなる。Hadoopが今のように成長したかどうかわからない。 Pigは登場しただろうか? 私にはそうは思えない。回答2は略 回答3C/C++とJa

    shiumachi
    shiumachi 2011/02/01
    "コードベースが大きくなれば、開発スピードは遅くなる。Hadoopが今のように成長したかどうかわからない"
  • 自然言語処理・データマイニング系のQuoraまとめ - nokunoの日記

    最近、Q&AコミュニティのQuoraが流行っていますね。Quoraそこで、個人的に興味のある分野のQAについてまとめておきます。 自然言語処理・機械学習系 What is the best way to analyze a corpus of text to determine the most popular phrases? - QuoraWhat is the best open source C++ implementation of a trie? - QuoraMachine Learning: What papers have shown that for machine learning, data set size is more important than the model being trained? - QuoraNatural Language Process