caesar_wanyaのブックマーク - はてなブックマーク

大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ（コーパス）に興味のあるところです。大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記タグ付きコーパス（ツリーバンク）Penn Tree bankWSJ C

caesar_wanya 2013/09/21

リンク

情報系の学生がやっておくべき10000のこと - nokunoの日記

「情報系の学生がやっておくべき10000のこと」というタイトルの記事があったので、何事かと思いました。10000 things all ICS students should do before graduating | Tagide10000個もあるのか…とびっくりしましたが、よく読むと2進数で書かれていて、16個という意味でした。内容もとても良いことを言っていると思うので、簡単に紹介してみます。 0000 – 自分のドメインを買う 0001 – Apacheをインストールして設定をいじる（複数ドメイン対応とか） 0010 – WordPressをインストールしてブログを書く。文章スキルも大事。 0011 – 自分のウェブサイトを運営する 0100 – LAMPでウェブアプリを書く。少なくとも1つ、できればPHPとPythonで。 0101 – 自分のサーバー（物理orクラウド）を持つ

caesar_wanya 2011/07/07

リンク

IBM Model 1による読み推定 - nokunoの日記

ここまでに、IBM Model 1は翻訳確率とアライメントの同時学習を行わないため、拡張が容易であるということが分かりました。 IBM Model 1の拡張 - nokunoの日記 IBM Model 1の実装 - nokunoの日記 IBM Model 1を試してみた - nokunoの日記そこで、mpalignerが行っているような読み推定に適用できないか試してみました。未知語の読み推定のためのアライメントツールmpalignerを試してみた - nokunoの日記まずは、以下のような「対訳コーパス」をmozcの辞書から作ります。head data/word.txt謹賀見せかけ幹章共栄学園短期大学キーアスゴ淳広飽きっぽからきむづかしいセリナhead data/read.txtきんがみせかけともあききょう

caesar_wanya 2011/07/07

リンク

冠詞と限定詞、aとthe、加算と不可算 - nokunoの日記

自分用のメモです。冠詞 - Wikipedia限定詞 - Wikipedia可算名詞 - Wikipedia 英語の冠詞(a と the）と複数形についての説明英語の数え方英語と日本語の「数え方」の違いが図解で分かるページ。可算・不可算名詞と、量をあらわす英単語のニュアンスなどツイートする

caesar_wanya 2011/06/13

リンク

超簡単な半教師ありナイーブベイズ - nokunoの日記

ICMLにこんなの通るんだ、と思った論文。Large Scale Text Classi¯cation using Semi-supervised Multinomial Naive Bayes ナイーブベイズでP(c|d)∝P(c)Π_i P(w_i|c)を求めるときに、もう一回ベイズの定理を適用してP(w_i|c)=P(w_i)P(c|w_i)/正規化項と変形してやってP(w_i)はラベル無しデータで、P(c|w_i)はラベルありデータで推定するというシンプルな手法ラベル付きデータが64〜512個と極端に少ない識別モデルと比較していないでもGoogle N-gramなどの汎用の言語モデルが使えるので実用上は便利そう教師ありNBやEMアルゴリズムによる半教師あり学習より大幅に精度向上参考：ICML2011気になった論文リスト - kisa12012の日記ツイートする

caesar_wanya 2011/05/30

リンク

2011-05-30 - nokunoの日記

これはよいチュートリアル、ということでやってみました。 LIBLINEARを用いた機械学習入門(単語分割) 注意点として文字コードがUTF-8の場合、以下のように指定する必要があります。 #!/usr/bin/env ruby -Ku 後は手順通りに、コーパスをダウンロードしてスクリプトを実行すればOKです。 # nkfで文字コードを変換する for i in `ls sjis/`; do nkf -w sjis/$i > utf8/$i; done; cd utf8 ruby word2lkytea.rb MPT.lkytea ruby lkytea2feature.rb MPT.feat train MPT.liblin predict MPT.liblin MPT.liblin.model MPT.closed Accuracy = 97.7298% (12226/12510) 他の

caesar_wanya 2011/05/30

.@nokunoさんが取り上げて下さいました。任意のテキスト用の分類器を作ったり特徴量を選んだりところまではやく公開したいとおもいます。

リンク

【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

これはすごい！というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

caesar_wanya 2011/04/20

津波でTwitter落ちなかった裏にはこんなことがあったのか

リンク

NHKのラジオ英語番組がすごい - nokunoの日記

caesar_wanya 2011/04/04

リンク

NIPS 2010論文まとめのまとめ - nokunoの日記

機械学習の分野で有名な学会にNIPS(Neural Information Processing System)があります。名前のとおりもとはニューラルネットワークの学会ですが、最近はやや脳科学から離れているとか。NIPS : NIPSそのNIPSの論文を読む会「NIPS2010読む会」がT-PRIMALの方々によって開催されたようです。平日だったので私はいかなかったのですが、スライドが公開されているので読んでみようと思います。【T-PRIMAL公開勉強会】NIPS2010読む会個人的には岡野原さんのスライドが興味深かったです。LCCC2010:Learning on Cores, Clusters and Cloudsの解説併設された並列処理に関するワークショップから論文を紹介していて、非常に実用的です。 LCCC - NIPS 2010 Workshop on Learning on

caesar_wanya 2011/02/18

リンク

2011-02-03 - nokunoの日記

caesar_wanya 2011/02/04

リンク

TopCoderはじめました（SRM 496 Div2） - nokunoの日記

こんなエントリを読んでしまい、TopCoderを始めたくなってしまったので始めました。Story of Your Life » Blog Archive » 社会人からのTopCoder SRM参加のススメTopCoder,Inc.事前に過去問をやって練習していたこともあり、順調に200点問題と500点問題を解いて、残り50分もあったので1000点問題に挑戦したのですが、解き方がわからないままあえなく時間切れとなりました。 200点問題アナグラムになった文字列の集合が与えられるので、文字の入れ替えによって同じ文字列にできないような入力の部分集合の数を求める問題。たとえばこんな具合。入力0： {"abcd","abdc","dabc","bacd"}出力0：1（"abcd"の２種類）入力1： {"abcd","abac","aabc","bacd"}出力1：2（"abcd", "aabc"

caesar_wanya 2011/02/02

リンク

nokunoの日記

引き続き東大の「創造情報学連携講義VII」より賀沢さんの課題1でもある、IBMモデル1の実装を行いました。創造情報学連携講座IBMモデル1のEMアルゴリズムを実装してサンプルデータで結果を確認せよという問題です。 #!/usr/bin/env python from collections import defaultdict def train(corpus): pair = defaultdict(float) for english, forein in corpus: for e in english.split(" "): for f in forein.split(" "): pair[(e,f)] += 1. print 'pair:', pair t = defaultdict(float) for e,f in pair.keys(): t[(e,f)] = 0.25 f

caesar_wanya 2011/01/20

リンク

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス