タグ

ブックマーク / d.hatena.ne.jp/nokuno (5)

  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

  • 第2回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記

    第2回 データ構造と情報検索と言語処理勉強会 #DSIRNLP - [PARTAKE] 自然言語処理はじめました by @phylloさん自然言語処理はじめました - Ngramを数え上げまくるDSIRNLPで発表させていただきました - Negative/Positive Thinking 自己紹介:Negative/Positive Thinking 今日の概要:いろんな方法でN-gram頻度を数える N-gramとは? 隣り合うN個の塊のこと 単語n-gramや文字n-gramがある ナイーブな方法 ハッシュに入れて数える 問題:大規模テキストやNを大きくしたら? N-gramの異なり数はNに対して指数的に爆発する 解決法:N-gramをメモリに保存しない! Suffix Arrayを使った方法 入力文のSuffix Arrayを使った方法 メモリの節約になってる?:3*N+4byt

  • 全文検索エンジンgroongaを囲む夕べ2 #groonga - nokunoの日記

    groongaのイベントでVOYAGE GROUPさんに行って来ました!全文検索エンジンgroongaを囲む夕べ 2 #groonga : ATND「検索エンジンはなぜ見つけるのか」と著者の森大二郎さんのサインいただきました!Amazon.co.jp: 検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識: 森大二郎: groonga村 須藤さん 最新版リリースされました 今日の内容 もう使っていいのか知りたい 最新情報を知りたい アルゴリズムを知りたい 困っていることがある 安定してるの? してます! 実績あり groongaのほうがよいこと 即時更新 データをDBMSで一元管理できる 普通のSQLで使える 他との違い あとでベンチマーク結果を紹介 使い方の違い 質問タイムは懇親会で groonga 全文検索エンジンライブラリ 連携相手:MySQLなど libgr

  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

  • Evernoteのアーキテクチャ概要 - nokunoの日記

    みなさん、Evernoteは使っていますか? Evernoteは「全てを記憶する」が合言葉のメモアプリで、クラウド上にデータを保存してWin/Mac/iPhone/Webから共通のデータにアクセスしたり同期したりできるのが特徴の便利なサービスです。開発元はシリコンバレーの会社ですが、日人のユーザも非常に多いそうで、Evernoteの使い方についての記事は日語でも星の数ほどありますのでここでは触れません。 今回は、そのEvernoteの裏側のシステム概要を解説する記事が今月開設されたばかりの技術ブログに公開されていましたので、翻訳してみました。Architectural Digest | Evernote Tech Blog はじめにこのブログの手始めとして、Evernoteの構築について大雑把な概要を述べる。ここではそれぞれのコンポーネントの詳細に踏み込むことはしない。それらについての

  • 1