shiumachiのブックマーク - はてなブックマーク

テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

個人的にテキストファイルを処理することが多いのですが，簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります．今回はそんななかでもちょっとマニアックなTIPSをまとめてみました． sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ．sortコマンドでタブ区切りのファイルを指定したいときは，Ctrl+v Tabでタブ文字を入力していたのですが，$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます． 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは，perlでワンライナーを書くのが速いようです．$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

shiumachi 2012/01/24

linux
Shell

リンク

Clouderaカンファレンス Doug Cutting 講演会 "The Future of Hadoop" #dougjp - nokunoの日記

Clouderaカンファレンスということで，Hadoopの生みの親Doug Cutting氏の講演会に参加しました．Cloudera カンファレンス Doug Cutting 講演会(仮) on ZusaarHadoopの名づけ元となった象のぬいぐるみもいました！意外と細いんですね〜 The Future of Hadoop Context Data: 1.8ZB in 2011 Hadoop: Solution for Big Data HDFS and MapReduce: Hadoop Core Hive, Pig, Hbase, Mahout, and many components.. Dependency between components is big probl em! Bigtop: package manager of Hadoop Apache Bigtop Big

shiumachi 2011/09/01

リンク

Pythonによる日本語自然言語処理 #pyconjp - nokunoの日記

本日PyConJP 2011で発表します．PyCon JP 2011Pythonによる日本語自然言語処理 #pyconjp View more presentations from nokuno 内容は予定通り，NLTK本の12章をベースにしたものです．Python による日本語自然言語処理よろしくお願いします．ツイートする

shiumachi 2011/08/29

リンク

PyConJP 2011に参加しました #pyconjp - nokunoの日記

PyConJP 2011に参加および発表してきました．場所は品川シーサイドの産業技術大学院大学です．PyCon JP 2011 Keynote by @tarek_ziade How do I define dependencies? What's setup.py role? Example setup.cfg What's installed? How to uninstall?? Different formats: distutils, easy_install, pip You should used pip! "easy_remove" can't be implemented. Database on installed project $ sudo pysetup3 install What about version scheme? Too long version na

shiumachi 2011/08/29

python

リンク

自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

Quoraで「自然言語処理に適したプログラミング言語はどれか？」という質問をしたところ，やっぱりPythonが一番人気のようです．What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ（re）が強力だからnumpyとscipyがあるからスクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるからまた，機械学習のライブラリを言語別にまとめた質問もありました．こちらもJava, Python, Rが多いですね．Which programming language has the best repository of ma

shiumachi 2011/08/20

リンク

Pigを試してみた - nokunoの日記

shiumachi 2011/08/08

リンク

Hadoopアンカンファレンス - nokunoの日記

はい，id:shiumachiさん主催のHadoopアンカンファレンスに参加してきました．Hadoop Unconference Tokyo #1 at EC-ONE on Zusaar自分のところではテーマとして MapReduce データマイニング最適化あたりについて議論しました．最初MapRのことをMapReduceだと勘違いしていて恥ずかしい思いをしましたが後半があってよかったですｗデータマイニング集計：平均・分散・カウントクラスタリング教師あり学習レコメンデーションデータアクセスログ（PV・クリック）→集計（Daily, Hourly, Monthly,..) 検索クエリログ・クロールデータ広告・求人出会い系のマッチング(eHarmony) センサーデータ（ケータイ，地震，電力？）スマートグリッド：各家庭に端末をつける医療データ（レセプト）交通（道路・電車

shiumachi 2011/07/21

Hadoop

リンク

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化するには - nokunoの日記

Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています（@shiumachiさん、ありがとうございます！） Using Hadoop to Measure Influence | Apache Hadoop for the Enterprise | Cloudera ソーシャルメディア上の影響力測定サービス「Klout」とはKlout | The Standard for InfluenceKloutのゴールは影響力の数値化の分野でのスタンダードになることだ。近年のソーシャルメディアの普及により、多くの測定可能な友達関係に関する情報が手に入るようになってきている。Facebookユーザには、平均して130人の友達がいる

shiumachi 2011/05/22

リンク

第1回HBase勉強会に参加しました #hbaseworkshop - nokunoの日記

というわけでHBase勉強会に参加してきました。今回が第1回目で、全6回の予定らしいです。Hbase勉強会（第一回） on ZusaarTogetter - 「# hbaseworkshop HBase勉強会(第一回)」アプリケーション設計1 by @tatsuya6502さん自己紹介 2009年からHBaseを評価 5年間は金融系のソフトウェアエンジニア 20年前はデザイナーとか HBaseエバンジェリスト近況転職しました：ジェミナイ・モバイル・テクノロジーズ HBaseドキュメントが日本語訳されましたアンケート HBaseをプロダクションで使っている人は少数試している人はちらほら HBaseの特徴柔軟なテーブル構造強い一貫性：古いデータが見えることがない大規模データ向け：自動シャーディング、高可用性数十億件を超えてからが本領発揮 2次インデックスを持たない（主キーへ

shiumachi 2011/05/21

HBase

リンク

シリコンバレーカンファレンスの感想まとめ - nokunoの日記

シリコンバレーカンファレンスから約1ヶ月。4月に入って地震による自粛ムードも薄れてきたのか、参加者のブログが一定数たまってきたようなのでまとめてみます。シリコンバレーカンファレンス 2011 感想 - ikeyasukiの日記シリコンバレーからのお便り: JTPA カンファレンス 2011:Overview シリコンバレー企業と人材〜IDEO、Google、Apple、Facebook、Twitter等を訪問して〜 - ほぼ週刊 MBA留学ノートとシリコンバレー企業に見る企業の成長ステージ　〜TwitterからFacebook、そしてGoogleへ - ほぼ週刊 MBA留学ノートSVC2011いってくるぜ - ユメモヤ7SVC2011 シリコンバレーから　その1 - hat-tunの日記から SVC2011 シリコンバレーから　その11 - hat-tunの日記までLike a S

shiumachi 2011/04/05

リンク

Facebookの新しいリアルタイム解析システムとは？ - nokunoの日記

Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

shiumachi 2011/03/25

リンク

サンフランシスコを巡ってきました - nokunoの日記

日曜日は企業も開いていないので、サンフランシスコあたりを巡ってきました。朝食。 Mountain Viewでodessayさん（仮）を拾ってサンフランシスコへ。ゴールデンゲートブリッジを半分だけ渡ってきました。中華街でランチ。 Japantownを見物。外人始点の日本文化、面白い。おすすめされたTypeStationという店で肉を食べる。日本は地震で大変そうですが、こちらにいてできることは寄付とサーバーの電源を切ることと情報の収集くらいです。ツイートする

shiumachi 2011/03/14

こうやって日常の空気を伝えてくれることも支援活動と思う。ご飯おいしそう

リンク

決定木を用いた単語抽出 - nokunoの日記

決定木を使って辞書なしで単語を抽出する手法に関する論文を読みました。Automatic Corpus-Based Thai Word Extraction with the C4.5 Learning Algorithm はじめに日本語と同じく、単語の分かち書きがされない言語にタイ語があります。従来は人手による辞書の整備が行われていましたが、網羅性に限界があるのとコストがかかるので自動化したいというニーズがあります。アプローチ日本語の形態素解析では系列ラベリングとして定式化されることが多いですが、この論文ではコーパス中の全部分文字列を考え、ある部分文字列が単語か非単語かを二値分類するというアプローチをとっています。このことは、前後の文脈によって単語区切りが異なることがないという前提が置かれていることになります。実際に使うときは抽出した単語を辞書として最長一致するのかな。決定木単語と非単

shiumachi 2011/03/03

"エントロピーやPMIを用いることで辞書中の単語以外にも適用できるようになるという点が面白いと思いました。未知語に強そうな手法"

リンク

Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ本社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。『Hadoop on クラウド / Amazon Elastic MapReduceの真価』（Amazon Web Services, Jeff Barr） Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

shiumachi 2011/02/23

早い。もう昨日のうちにアップしてたのか

Hadoop

リンク

第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

というわけで参加してきました。第1回にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました（入るまでが大変でしたが‥）。Python Hack-a-thon 201

shiumachi 2011/02/19

リンク

次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

shiumachi 2011/02/16

Y!の記事の翻訳。素晴らしい

リンク

Googleのエンジニアに必要とされるスキルセットは何か？ - nokunoの日記

以下のQuoraの翻訳です。この質問に対して、秘密主義で知られるGooglerたちが答えているのがいいですね。What are the skill-sets needed to be a Google Engineer? - QuoraGoogleのエンジニアに必要とされるスキルセットは何か？回答1ほとんどのプログラマはブラックボックスを使用しています。データベースはブラックボックスです：SQLを与えると、答えが返ってきます。コンパイラもまたブラックボックスです：ソースコードを与えると、実行バイナリ（またはエラーメッセージ）が返ってきます。たくさんのプログラマがこれらのブラックボックスを所与のものとして扱うことでハッピーになります。よりよいプログラマは、そのなかで何が起こっているのかを不思議に思い、中身を開けてみてみるのです。私が言いたいのは、Googleのエンジニアに必要とされているス

shiumachi 2011/02/10

"「抽象化レイヤーを乗りこなす」能力です。あなたは抽象化レイヤーについて理解する必要があると同時に、その抽象化がどうやって提供されているのかを知るために実装を調べる能力を必要とします"

リンク

TopCoderはじめました（SRM 496 Div2） - nokunoの日記

こんなエントリを読んでしまい、TopCoderを始めたくなってしまったので始めました。Story of Your Life » Blog Archive » 社会人からのTopCoder SRM参加のススメTopCoder,Inc.事前に過去問をやって練習していたこともあり、順調に200点問題と500点問題を解いて、残り50分もあったので1000点問題に挑戦したのですが、解き方がわからないままあえなく時間切れとなりました。 200点問題アナグラムになった文字列の集合が与えられるので、文字の入れ替えによって同じ文字列にできないような入力の部分集合の数を求める問題。たとえばこんな具合。入力0： {"abcd","abdc","dabc","bacd"}出力0：1（"abcd"の２種類）入力1： {"abcd","abac","aabc","bacd"}出力1：2（"abcd", "aabc"

shiumachi 2011/02/02

今までGCJオンリーだったけどそろそろ手を出そうかと考え中

リンク

HadoopがJavaではなくC/C++で実装されていたらどう違っていたか？ - nokunoの日記

Quoraでこんな質問を見つけたので適当に翻訳してみました。Would Hadoop be different if it were coded in C/C++ instead of Java? How? - Quora 回答1実際のところ難しいけど、考えてみるのは楽しいね。実行時間は速くなると思うけど、それが決定的な違いになるかどうかはわからない。セキュリティやいくつかの機能は実装しやすくなるかもしれない他のプログラミング言語への対応はしやすくなる。Java/Pipes/Streamingを選ぶ代わりに、コンパイルしてリンクすればいい。コード量は非常に大きくなる。エラーチェックのためにね。コードベースが大きくなれば、開発スピードは遅くなる。Hadoopが今のように成長したかどうかわからない。 Pigは登場しただろうか？　私にはそうは思えない。回答2は略回答3C/C++とJa

shiumachi 2011/02/01

"コードベースが大きくなれば、開発スピードは遅くなる。Hadoopが今のように成長したかどうかわからない"

Hadoop

リンク

自然言語処理・データマイニング系のQuoraまとめ - nokunoの日記

最近、Q&AコミュニティのQuoraが流行っていますね。Quoraそこで、個人的に興味のある分野のQAについてまとめておきます。自然言語処理・機械学習系 What is the best way to analyze a corpus of text to determine the most popular phrases? - QuoraWhat is the best open source C++ implementation of a trie? - QuoraMachine Learning: What papers have shown that for machine learning, data set size is more important than the model being trained? - QuoraNatural Language Process

shiumachi 2011/01/26

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (28)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス