ブックマーク / d.hatena.ne.jp/nokuno (12)

  • 大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C

  • 情報系の学生がやっておくべき10000のこと - nokunoの日記

    「情報系の学生がやっておくべき10000のこと」というタイトルの記事があったので、何事かと思いました。10000 things all ICS students should do before graduating | Tagide10000個もあるのか…とびっくりしましたが、よく読むと2進数で書かれていて、16個という意味でした。内容もとても良いことを言っていると思うので、簡単に紹介してみます。 0000 – 自分のドメインを買う 0001 – Apacheをインストールして設定をいじる(複数ドメイン対応とか) 0010 – WordPressをインストールしてブログを書く。文章スキルも大事。 0011 – 自分のウェブサイトを運営する 0100 – LAMPでウェブアプリを書く。少なくとも1つ、できればPHPPythonで。 0101 – 自分のサーバー(物理orクラウド)を持つ

  • IBM Model 1による読み推定 - nokunoの日記

    ここまでに、IBM Model 1は翻訳確率とアライメントの同時学習を行わないため、拡張が容易であるということが分かりました。 IBM Model 1の拡張 - nokunoの日記 IBM Model 1の実装 - nokunoの日記 IBM Model 1を試してみた - nokunoの日記 そこで、mpalignerが行っているような読み推定に適用できないか試してみました。 未知語の読み推定のためのアライメントツールmpalignerを試してみた - nokunoの日記 まずは、以下のような「対訳コーパス」をmozcの辞書から作ります。head data/word.txt謹 賀見 せ か け幹 章共 栄 学 園 短 期 大 学キ ー アス ゴ淳 広飽 き っ ぽ か らき む づ か し いセ リ ナhead data/read.txtき ん がみ せ か けと も あ きき ょ う

  • 冠詞と限定詞、aとthe、加算と不可算 - nokunoの日記

    自分用のメモです。冠詞 - Wikipedia限定詞 - Wikipedia可算名詞 - Wikipedia英語の冠詞(a と the)と複数形についての説明英語の数え方  英語と日語の「数え方」の違いが図解で分かるページ。可算・不可算名詞と、量をあらわす英単語のニュアンスなど ツイートする

  • 超簡単な半教師ありナイーブベイズ - nokunoの日記

    ICMLにこんなの通るんだ、と思った論文。Large Scale Text Classi¯cation using Semi-supervised Multinomial Naive Bayes ナイーブベイズでP(c|d)∝P(c)Π_i P(w_i|c)を求めるときに、もう一回ベイズの定理を適用してP(w_i|c)=P(w_i)P(c|w_i)/正規化項 と変形してやってP(w_i)はラベル無しデータで、P(c|w_i)はラベルありデータで推定するというシンプルな手法 ラベル付きデータが64〜512個と極端に少ない 識別モデルと比較していない でもGoogle N-gramなどの汎用の言語モデルが使えるので実用上は便利そう 教師ありNBやEMアルゴリズムによる半教師あり学習より大幅に精度向上参考:ICML2011気になった論文リスト - kisa12012の日記ツイートする

  • 2011-05-30 - nokunoの日記

    これはよいチュートリアル、ということでやってみました。 LIBLINEARを用いた機械学習入門(単語分割) 注意点として文字コードがUTF-8の場合、以下のように指定する必要があります。 #!/usr/bin/env ruby -Ku 後は手順通りに、コーパスをダウンロードしてスクリプトを実行すればOKです。 # nkfで文字コードを変換する for i in `ls sjis/`; do nkf -w sjis/$i > utf8/$i; done; cd utf8 ruby word2lkytea.rb MPT.lkytea ruby lkytea2feature.rb MPT.feat train MPT.liblin predict MPT.liblin MPT.liblin.model MPT.closed Accuracy = 97.7298% (12226/12510) 他の

    caesar_wanya
    caesar_wanya 2011/05/30
    .@nokunoさんが取り上げて下さいました。任意のテキスト用の分類器を作ったり特徴量を選んだりところまではやく公開したいとおもいます。
  • 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

    これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。 その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

    caesar_wanya
    caesar_wanya 2011/04/20
    津波でTwitter落ちなかった裏にはこんなことがあったのか
  • NHKのラジオ英語番組がすごい - nokunoの日記

    NHKのラジオ英語番組がすごい。2009年から無料でサイト上でのストリーミング配信を行っています。NHK語学番組ストリーミングに対応している番組は以下のようなものがあります。NHK語学番組 | 基礎英語1 |NHK語学番組 | 基礎英語2 |NHK語学番組 | 基礎英語3 |NHK語学番組 | 英語5分間トレーニング |NHK語学番組 | ラジオ英会話 |NHK語学番組 | 入門ビジネス英語 |NHK語学番組 | 実践ビジネス英語 | 検索するといろいろな人がおすすめしていました。NHKラジオ英語講座でTOEICスコアアップ!TOEIC950点突破とその先へ 2011年度NHKラジオ英語講座このサイトのことは知っていたのですが、今までPodcastやradikoのようにiPhoneで聞く手段が分かりませんでした。Twitterで教えてもらったのですが、以下のツールを使うとダウンロードしたm

  • NIPS 2010論文まとめのまとめ - nokunoの日記

    機械学習の分野で有名な学会にNIPS(Neural Information Processing System)があります。名前のとおりもとはニューラルネットワークの学会ですが、最近はやや脳科学から離れているとか。NIPS : NIPSそのNIPSの論文を読む会「NIPS2010読む会」がT-PRIMALの方々によって開催されたようです。平日だったので私はいかなかったのですが、スライドが公開されているので読んでみようと思います。【T-PRIMAL公開勉強会】NIPS2010読む会 個人的には岡野原さんのスライドが興味深かったです。LCCC2010:Learning on Cores, Clusters and Cloudsの解説併設された並列処理に関するワークショップから論文を紹介していて、非常に実用的です。 LCCC - NIPS 2010 Workshop on Learning on

  • 2011-02-03 - nokunoの日記

  • TopCoderはじめました(SRM 496 Div2) - nokunoの日記

    こんなエントリを読んでしまい、TopCoderを始めたくなってしまったので始めました。Story of Your Life » Blog Archive » 社会人からのTopCoder SRM参加のススメTopCoder,Inc.事前に過去問をやって練習していたこともあり、順調に200点問題と500点問題を解いて、残り50分もあったので1000点問題に挑戦したのですが、解き方がわからないままあえなく時間切れとなりました。 200点問題アナグラムになった文字列の集合が与えられるので、文字の入れ替えによって同じ文字列にできないような入力の部分集合の数を求める問題。たとえばこんな具合。入力0: {"abcd","abdc","dabc","bacd"}出力0:1("abcd"の2種類) 入力1: {"abcd","abac","aabc","bacd"}出力1:2("abcd", "aabc"

  • nokunoの日記

    引き続き東大の「創造情報学連携講義VII」より賀沢さんの課題1でもある、IBMモデル1の実装を行いました。創造情報学連携講座IBMモデル1のEMアルゴリズムを実装してサンプルデータで結果を確認せよという問題です。 #!/usr/bin/env python from collections import defaultdict def train(corpus): pair = defaultdict(float) for english, forein in corpus: for e in english.split(" "): for f in forein.split(" "): pair[(e,f)] += 1. print 'pair:', pair t = defaultdict(float) for e,f in pair.keys(): t[(e,f)] = 0.25 f

  • 1