タグ

ブックマーク / d.hatena.ne.jp/nokuno (6)

  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

  • 全文検索エンジンgroongaを囲む夕べ2 #groonga - nokunoの日記

    groongaのイベントでVOYAGE GROUPさんに行って来ました!全文検索エンジンgroongaを囲む夕べ 2 #groonga : ATND「検索エンジンはなぜ見つけるのか」と著者の森大二郎さんのサインいただきました!Amazon.co.jp: 検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識: 森大二郎: groonga村 須藤さん 最新版リリースされました 今日の内容 もう使っていいのか知りたい 最新情報を知りたい アルゴリズムを知りたい 困っていることがある 安定してるの? してます! 実績あり groongaのほうがよいこと 即時更新 データをDBMSで一元管理できる 普通のSQLで使える 他との違い あとでベンチマーク結果を紹介 使い方の違い 質問タイムは懇親会で groonga 全文検索エンジンライブラリ 連携相手:MySQLなど libgr

  • 第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記

    第5回 さくさくテキストマイニング勉強会 : ATND データクリーニング入門 〜精度は細部に宿る〜 by toilet_lunch様 掃除は大事です!! Unicode正規化 フィルタリング 第2水準の漢字は捨てる 短いツイートは捨てる URLは捨てる あなたの質問に答えてみた 〜疑問に対する応答〜 by gepuroさん イカ娘の記事から答えをマイニング Cabochaを使って係り受け解析 質問文から疑問詞を取り出す 当に気持ちのいい全文検索〜Lucene/Solr入門〜 by AntiBayesianさん 検索エンジン入門 転置インデックス 適合率と再現率とF値 TF-IDF Lucene/Solr入門 Solrのインストール Schema設定:typesとfields gosenで形態素解析 ツイートをCSVで登録 まとめ 検索は大規模データ時代には必須 全文検索,転置インデック

  • Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

    というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。 『Hadoop on クラウド / Amazon Elastic MapReduceの真価』(Amazon Web Services, Jeff Barr) Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

  • nokunoの日記

    nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.

  • Social IMEをオープンソース化しました - nokunoの日記

    Social IMEのソースコードを公開しました。現在はサーバーサイドのみですが、クライアントサイドや古いバージョンも順次追加していきたいと思います。 social-ime - Project Hosting on Google CodeSocial IMEは、ユーザー参加型の新しい日本語入力ソフトウェアです。 みんなで単語や正しい変換結果を覚えさせることで、どんどん賢くなっていきます。このページは、日本語入力システムの開発に興味がある開発者・研究者向けのプロジェクトページです。Social IMEを構成する要素のうち、再配布可能なソースコードの公開を行っています。現在のところサーバーサイドの統計的かな漢字変換エンジンの公開を行っていますが、動作にはGoogle N-gram相当のデータが必要となります。 OSS化の経緯について私は、3年前に未踏に採択されてからWeb時代の日本語入力という

    nekomori
    nekomori 2010/03/16
  • 1