ブログに関するjnlpのブックマーク (16)

  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

  • 機械学習や自然言語処理分野のエンジニアを募集しているベンチャー企業一覧 - nokunoの日記

    Quoraでこんな質問がありました.What startups are hiring engineers with strengths in machine learning/NLP? - Quora Foursquare: foursquare :: Jobs Findnotice: Findnotice | A Platform for Public Notices TheFind: TheFind - Shopped & Found TellApart: Page not found » TellApart Nowmov.com: Message Fahd Butt Fahd Butt - Quora Wavii: Message Erik Frey Erik Frey - Quora BloomReach: Message Joshua Levy Joshua Levy - Quo

  • NLPに関する良質なブログリスト - nokunoの日記

    TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です.例によって順不同です.生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ!射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyhの日記 Preferred Research 糞ネット弁慶あしたからがんばる ―椀屋舗unnonounouchiumi logBLOG::broomie.net蝉々亭Overlasting::Lifeやた@はてな日記aito の日記 睡眠不足?!gologo13の日記murawaki の雑記 - rekkenグループmots quotidiens.tb_yasuの日記y_tagの日記アスペ日記人

  • TwitterにいるNLPのすごい人リスト - nokunoの日記

    便乗です。TwitterにいるPHPのすごい人リスト - Shin x blogNLP(と機械学習)方面で個人的に尊敬している人を中心にまとめてみました。敬称略・アルファベット順です。 @a_bicky @caesar_wanya @combinational @echizen_tm @hillbig @hitoshi_ni @issei_sato @kashi_pong @kimuras @kisa12012 @klmquasi @llamerada @machy @mamoruk @mhagiwara @murawaki @neubig @niam @norizm @overlast @penguinana_ @s5yata @shima__shima @shuyo @sla @sleepy_yoshi @smly @syou6162 @takeda25 @taku910 @tkng

  • Most cited papers of the ACL (1990-2009) | Graham's Research Blog

    I was wondering what papers had the most influence on the field of computational linguistics and natural language processing, so I tried making a list of the most cited papers from the annual meeting of the ACL (Association for Computational Linguistics) for the past twenty years. All citation counts are from Google scholar as of today, so take them with a grain of salt, but here goes: 1990: Steed

  • ソフトな推論Markov Logic Networkの紹介 - Preferred Networks Research & Development

    予約したもののインフォバーを手に入れられない海野です. 人間の高度な知的処理の一つが、推論処理です.今日はその推論を、述語論理と機械学習の組み合わせで模倣したMarkov Logic Networkという手法と、そのOSS実装であるAlchemyの紹介です. 鳥とはなんですか?という質問に対してどう答えるでしょうか.大雑把には、以下のように考えるでしょう. 鳥とは、空を飛ぶ動物です. この回答に対して、「ペンギンは飛ばないよ」と反論する人がいるかも知れません. 鳥とは、くちばしを持った動物です. すると、「カモノハシは鳥じゃないよ」と言われるでしょう.人間は初めて見た生き物が鳥かそうじゃないか判断するとき、どうしているのでしょうか.思うに、少数の規則(飛ぶかどうか.くちばしをもつか)から総合的に判断しているように思われます.人間の推論というのは概ね以下のような特徴を持っているのではないかと

    ソフトな推論Markov Logic Networkの紹介 - Preferred Networks Research & Development
  • ACL 2011 で公開された自然言語処理(言い換え系)データ

    先週オレゴン州ポートランドで行われたACL2011という国際会議で発表されたデータのうち、すぐにダウンロードして面白い実験ができそうな言い換え系のデータを5つを紹介します。(他にもいろいろ面白い発表はあったのですが、テーマを絞ってみました。このブログの読者にどれだけ需要あるかわかりませんが・・・。) 【1】 Session 1-E - Collecting Highly Parallel Data for Paraphrase Evaluation David Chen1 and William Dolan2 1The University of Texas at Austin, 2Microsoft Research 複数のメカニカルターカーが同じ動画に付けた注釈をパラレルコーパスにしたもの。(動画だと画像より解釈のブレが減るとか。)言い換えのみならず同じ事柄の違う解釈を含むため、ぱっと

    ACL 2011 で公開された自然言語処理(言い換え系)データ
  • http://blog.yuku-t.com/entry/20110623/1308810518

    http://blog.yuku-t.com/entry/20110623/1308810518
  • nozyhの日記

    ベイズ法などで用いるサンプリング法のなかで,スライスサンプリングというのがあります.原論文は以下になります. SLICE SAMPLING (Neal, Annals of Statistics 2003) サンプリング法で代表的なのはMetropolis-HastingやGibbs Samplingですが,これらにはそれぞれ問題点があります.例えばMetropolis法の問題点として,実際の問題に適応する場合,どのような提案分布を選んだら良いのか分からない,ということが挙げられます.よく使われるのは,現在のサンプル点を中心としたGauss分布ですが,分散をどう選べば良いか,ということなど,自明ではありません.提案分布が適切でない場合,サンプルの棄却率が高くなり,アルゴリズムの効率が落ちます.一方,この分散を小さくしすぎると,一度のサンプルで動く距離が小さくなり,これも効率の低下につながり

    nozyhの日記
  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

  • SVMの定番入門書「サポートベクターマシン入門(赤本)」の読み方 - EchizenBlog-Zwei

    SVMを学びたい人にとっては「サポートベクターマシン入門」通称「赤」は最適な入門書であるといえる。理論から実践までバランスよく解説されており、書を読むだけでSVMの実装が可能になる。 しかし書はSF小説を彷彿とさせる独特な翻訳の文体のため機械学習に不慣れな読者にとっては読みこなすのは苦しい戦いとなる。来なら原書をオススメしたいところだが、そうはいっても英語はちょっとという人も多いはず。 そこで記事では赤のオススメな読み方を紹介してみる。 1.「わかパタ」で準備運動をしよう 泳ぎのうまい人でもいきなり水に飛び込むのは危険。まずは準備運動をして体を温める。これには「わかりやすいパターン認識」がオススメ。とりあえず2章まで、余裕があれば3章まで読んでおけば充分。 2.赤を枕元において一晩寝よう さて準備運動が済んだら早速赤にトライ!したいところだが赤の放つ瘴気で心を蝕まれないよ

    SVMの定番入門書「サポートベクターマシン入門(赤本)」の読み方 - EchizenBlog-Zwei
  • グーグルがスパムに負けつつある - karasuyamatenguの日記

    最近HNにGoogle検索結果の質の低下を指摘するポストが目立つ。 Tumblrの元リードデベロッパー、Instapaperのファウンダー Marco Arment http://www.marco.org/2617546197 検索をいくつかのカテゴリに分類して分析している。 ナビゲーション(Address Bar): 行き先のページがわかっているがURLを知らない(打ち込むのが面倒な)場合 "オリンパス デジタルカメラ sp-600uz" --> オリンパスの公式製品ページ リファレンス: 明確な特定の質問に対する答 "顔検出AFとは" --> 「顔検出AF」の解説ページ。 wikipediaによって答えられるような質問。 ガイド: あるトピックに関する有益なページ "デジタル一眼カメラ 広角レンズ" --> ハウツーや解説ページ 買い物リサーチ: 商品に関する一般情報、レビュー、批評

    グーグルがスパムに負けつつある - karasuyamatenguの日記
  • Windows Phoneは自然言語理解を武器に戦う - 蝉々亭

    今日2011年5月29日日曜日の日経済新聞7面に米マイクロソフトCEOスティーブ・バルマー氏へのインタビューが掲載されています。主な論点はマイクロソフトのスマートフォン市場への取り組みに関するもので、ノキアとの提携、スカイプの買収についてや、競合するグーグルやアップルとの差別化についても言及されています。特に興味深いのは以下の部分で、引用します。 ——グーグルのアンドロイドやiPhoneに対しウィンドウズフォンは何を武器に戦うのか。 「類似性の高い両陣営とは全く別の利便性を提供する。人々の仕事や生活を直接助ける道具にする。たとえば端末に『どこどこの日レストランを予約できないかな』と言えば、電話をかけはじめる。『ANA26便の搭乗券を印刷』と言えば、部屋のプリンターに印刷させるという具合だ」 「カギはグーグル的な検索とはまったく違う角度から言葉の意味をとらえ、反応する新種の検索エンジン

    Windows Phoneは自然言語理解を武器に戦う - 蝉々亭
  • 自然言語処理関係のブログ

    自然言語処理に関係するブログのリストを作ってみました。

    自然言語処理関係のブログ
  • 武蔵野日記

    2022-12-07 水曜は休むと決めてスケジュール 12月以降は毎週水曜日は外せない予定が入っていなければ基的に有給休暇を取ることにしたので、有給休暇の日。3月まで全ての水曜日を休んで、ようやく今年度に付与された20日の有給休暇を全て使い切るくらいだし(そもそも年度末は会計の仕事やサーバ管理を… 2022-12-06 引率が必須になると手詰まりに 今日は出勤日。 午前中は基盤技術グループのミーティング。月最初の火曜日なので対面でやる回だが、そのせいか欠席者がいるような? 対面にすることで欠席になるなら、対面にしないでオンラインでやるし、対面でやる頻度が負担だという問題であれば、最初(… 2022-12-05 捨てる神あっても拾う神もいる 今日は必要があり出勤。 お昼休みの前後、論文紹介と研究会。研究会では4年生の進捗報告を聞く。あと D3 の学生が参加していた国際会議で最優秀論文賞をも

    武蔵野日記
    jnlp
    jnlp 2011/05/24
    奈良先端大 小町先生
  • 自然言語処理 on Mac

    Julia言語の最新版v0.5.0が公開されて、メジャーバージョンv1.0に向けて着実に進化しています。さっそくこちらのブログに変更点が日語でまとめられています: Julia言語の0.5の変更点 - りんごがでている ダウンロードページのディスクイメージでインストールした場合、ターミナルから起動するときは次のようにします: $ /Applications/Julia-0.5.app/Contents/Resources/julia/bin/julia julia> Julia機械学習など数理モデルの計算に向いている高速な処理系ですが、後発の言語ということもあって、豊富な資産がすでにあるRやPythonの機能を直接呼び出すパッケージも充実しています。 JuliaからRを使う - りんごがでている Python使いをJuliaに引き込むサンプル集 | mwSoft Pythonのsciki

    自然言語処理 on Mac
  • 1