タグ

ブックマーク / d.hatena.ne.jp/nokuno (7)

  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

    labunix
    labunix 2012/01/21
  • 米スタンフォード大が機械学習と人工知能に続き,自然言語処理と確率モデルの講義を一般公開 - nokunoの日記

    表題の通り,米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです.Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は,この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者でもあります.これは必見ですね. なお,以前から公開されていて既に講義や課題が始まっている機械学習人工知能の講義はこちら.Machine LearningIntro to AI - Introduction to Artificial Intelligence - Oct-Dec 2011 スタンフォード大学のオンライン講義 - nokunoの日記ツイートする

    labunix
    labunix 2011/11/19
  • ACL2011読み会を開催しました #aclreading - nokunoの日記

    ACL2011読み会を開催しました.ご参加頂いた皆様,会場をお貸しいただいた@shuyoさんとサイボウズ・ラボさんに感謝!ACL HLT 2011ACL Anthology » P11 Unsupervised Word Alignment with Arbitrary Features by @nokunohttp://www.cs.cmu.edu/~jhclark/pubs/alignment.pdfUnsupervised Word Alignment with Arbitrary Features #aclreading View more presentations from nokuno Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections by @niamさんhttp://stat

    labunix
    labunix 2011/09/04
  • ちょっと高度なgitの使い方 - nokunoの日記

    gitを使っていて,よく使うコマンドには以下のようなものがあります. git add git commit git diff git log git clone git init git push git pull git status git branch git merge今回は基的な使い方に加えて,最近使い出したちょっと高度な使い方を紹介したいと思います. git commit --amendgit commit --amendと打つと,直前のコミットメッセージを変更することができます. git resetgit reset --soft HEAD^と打つと,1つ前のコミットを取り消すことができます.ワーキングディレクトリにはその変更は残ります.残したくない場合は--hardを使います. git log --statログを確認するときに,コミットメッセージだけだと分からない・思いだ

    labunix
    labunix 2011/07/18
    ちょっと高度なgitの使い方 - nokunoの日記 (id:nokuno / @nokuno)
  • 自然言語処理分野で世界最大の国際会議ACL-HLT 2011の論文が公開されました - nokunoの日記

    自然言語処理分野で世界最大の国際会議ACL-HLT 2011の論文が公開されました。ACL Anthology » P11 この分野の研究者や開発者なら、興味のある論文の1つや2つは見つかると思います。英語論文を読むのに慣れていない人は、この機会にぜひ慣れていただくと今後の役に立つし、なにより楽しいと思います。以下、ちょっと気になったタイトルを挙げてみます(未読)。 Language Model関係 Faster and Smaller N-Gram Language Models Enhancing Language Models in Statistical Machine Translation with Backward N-grams and Mutual Information Triggers Integrating history-length interpolation

    labunix
    labunix 2011/06/15
    自然言語処理分野で世界最大の国際会議ACL-HLT 2011の論文が公開されました - nokunoの日記:
  • プログラミングコンテストチャレンジブックを読みながらダイクストラ法を実装したよ - nokunoの日記

    前回のベルマンフォード法から時間があいてしまいましたが、プログラミングコンテストチャレンジブック(通称アリ)を読みながらグラフの最短経路を求めるためのアルゴリズム、ダイクストラ法を実装しました。 ベルマンフォード法 - nokunoの日記ダイクストラ法 - Wikipedia ダイクストラ法ではグラフ中のノードを次の3つに分類します。 未探索 探索済み 次の探索候補この「次の探索候補」の中から最もコストの小さいノードを選んで探索済みとし、その隣接ノードのコストを更新するというのがダイクストラ法の根のアルゴリズムとなります。 最初の実装それでは実装を見ていきましょう。まず最初の実装では次に探索済みとなる要素を線形探索しているためあまり効率的ではありません。 #include using namespace std; #define MAX_E 20 #define MAX_V 7 #d

    labunix
    labunix 2011/04/15
    プログラミングコンテストチャレンジブックを読みながらダイクストラ法を実装したよ - nokunoの日記
  • 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)−1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - nokunoの日記

    第10回#TokyoWebminingに参加してきました。第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)?1st... - Eventbrite オープニング @hamadakoichihamadaさんの話はHadoopカンファレンスからの抜粋を含んでいたのですが、いつもの双方向の進行により議論が進み、時間が伸びるというパターンで安心しましたw 1. 「エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで」 (講師: @jazzyslide)(発表:30分 + 議論30分)大規模配信•解析技術によるターゲティング技術、オーディエンス(ユーザー)データによる配信などで近年話題になっているアドテクノロジーの全体観を、アドエクスチェンジやReal-Time-Biddingなどの概念を交えつつ、基礎からエン

    labunix
    labunix 2011/02/27
    第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)-1st Week-広告ネットワーク・グラフ解析・並列機械学習 祭り
  • 1