タグ

ブックマーク / d.hatena.ne.jp/nokuno (62)

  • 統計的言語モデルとN-best探索を用いた日本語形態素解析法 - nokunoの日記

    今更ながら,NTT永田さんによる形態素解析のためのA*アルゴリズムを使ったN-best論文を読みました.というか,前にも読んで分かった気になっていたのだけど,忘れていたのでメモっておきます.統計的言語モデルとN-best探索を用いた日形態素解析法 そもそもA*アルゴリズムは最適解探索アルゴリズムであり,なぜこれでN-best探索ができるのか疑問でした.A* - Wikipedia論文の5ページ目には「最適解が得られたら,そのノードを取り除き,さらに探索を続けることにより次の最適解が得られる.」と書かれています.しかし,実際に擬似コード(図3)を読むとノードを削除するのではなくclosedリストに移しているだけで,しかもclosedリストに移されたノードは条件によってopenリストに戻される場合がある,というあたりがわかりづらかったです.これはラティス上では最適パスとそれ以下のパスがノー

  • Social IMEの共有辞書を公開しました - nokunoの日記

    表題の通り,Social IMEの共有辞書を公開しました.dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく,Wikipediaから括弧表現をマイニングしたものや,MS IMEのユーザ辞書をWebからクロールしたものを含んでいます.各辞書の単語数は以下のとおりです. 辞書 Social IME Wikipedia MS IME MS IME2 単語数 48k 137k 16k 86k Social IMEに登録される単語やWikipediaからのマイニングで得られる単語には,多くのノイズが含まれています.このノイズを取り除くために,特殊な方法で

  • Cracking the Coding Interview - nokunoの日記

    プログラミング面接について扱った名著Cracking the Coding Interviewの第5版が日Amazonに入荷された…と思ったらあっという間に在庫切れになっていました.Amazon.co.jp: Cracking the Coding Interview: 150 Programming InterviewQuestions and Solutions: Gayle Laakmann Mcdowell: 洋書 このは先日はてなブックマークで盛り上がっていたTwitter面接のエントリで紹介されていました.Twitter 社採用面接受験記 - elm200 のノマドで行こう! 同じ著者による書籍として,The Google Resumeがあります.Amazon.co.jp: The Google Resume: How to Prepare for a Career an

  • クエリログのない状況下でのクエリ補完 - nokunoの日記

    SIGIR2011勉強会に参加できないことがわかったので,腹いせにいくつかQuery Suggestion関係の論文を読んでみます.まず最初はこれ.Query Suggestions in the Absence of Query Logs 背景クエリログが手に入らない状況(デスクトップ検索や企業内検索など)でクエリ補完を行なうという論文.ここでいうクエリ補完とは,ユーザが入力中の不完全なクエリをリアルタイムに補完するGoogle Suggestのような機能を指しており,クエリ入力後の検索結果画面にクエリ候補を表示するクエリ推薦やクエリ訂正とは異なる.従来のWeb検索などではクエリ補完のために大量のクエリログを利用して高頻度なクエリを補完候補として提示する手法が一般的だった.それに対し論文では検索対象の文書コーパスからフレーズ抽出を行なうことで,クエリログが手に入らない状況でも利用可能な

  • Hadoop Conference Japan 2011 Fall #hcj11f - nokunoの日記

    Hadoop Conference Japan 2011 Fall - Eventbrite The role of the Distribution in the Apache Hadoop Ecosystem by Todd Lipcon Who is the presenter? Tod Lipcon Cloudera.Inc Machine Learning, Fraud detection, ... What is Apache Hadoop? Scalable (not stable) Fault torelant Open source Components: HDFS and MapReduce Why was Hadoop created? More data and more needs More users, data types, and more data min

  • Joined Bay Area Hadoop User Group - nokunoの日記

    Bay Area Hadoop User Group (HUG) September Meetup - Bay Area Hadoop Meetups (Sunnyvale, CA) - Meetup Place: Yahoo! Architecture of an Enterprise MapReduce Engine for Hadoop Deployments Scott Campbell, Platform ComputingEnterprise customers expect a solution that is easy to deploy and manage, integrates with IT security and management tools, guarantees high reliability and availability, and support

  • 自然言語処理にはやっぱりPythonがいちばん - nokunoの日記

    Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあるから スクレイピングにBeautifulSoupやScrape.pyが使えるから Django / Pylons / TornadoのようなWebフレームワークがあるから また,機械学習のライブラリを言語別にまとめた質問もありました.こちらもJava, Python, Rが多いですね.Which programming language has the best repository of ma

    gologo13
    gologo13 2011/08/21
    Python自体はどうでもいいが、発表するのがすごい。。。やっぱこいつは俺のもってないものを持っているリスペクトすべき存在。
  • ACL2011で気になった論文リスト - nokunoの日記

    ACL読み会の準備のため,どの論文を読むか検討しました. ACL読み会を行います - nokunoの日記 自然言語処理分野で世界最大の国際会議ACL-HLT 2011の論文が公開されました - nokunoの日記今回は,興味のある分野と,せっかく勉強しているので統計的機械翻訳に関するものを幾つかピックアップして軽く読んでみました.Unsupervised Word Alignment with Arbitrary Features 統計的機械翻訳における単語アライメントに識別モデルを適用して色々な素性を入れて精度向上しましたという話. 教師なし学習なので普通のlog-linearは適用できないが,隠れ変数を周辺化したり色々工夫して計算可能にしている. 素性の選び方やエラー解析も分かりやすく書かれていて,専門家でなくても安心して読める. 個人的には今のところ一番面白かった.ACL読み会ではこ

    gologo13
    gologo13 2011/08/20
  • 機械学習や自然言語処理分野のエンジニアを募集しているベンチャー企業一覧 - nokunoの日記

    Quoraでこんな質問がありました.What startups are hiring engineers with strengths in machine learning/NLP? - Quora Foursquare: foursquare :: Jobs Findnotice: Findnotice | A Platform for Public Notices TheFind: TheFind - Shopped & Found TellApart: Page not found » TellApart Nowmov.com: Message Fahd Butt Fahd Butt - Quora Wavii: Message Erik Frey Erik Frey - Quora BloomReach: Message Joshua Levy Joshua Levy - Quo

  • 対訳コーパスまとめ - nokunoの日記

    先日,日英中基文データ - KUROHASHI-KAWAHARA LABが公開されていました.対訳コーパスは機械翻訳のタスクで使われるコーパスで,例えば日語と英語など,複数の言語で文単位で対応がついているテキストデータです.最近の統計的機械翻訳の流行からか,色々な対訳コーパスが無料で使えるようになってきているようです.Wikipedia日英京都関連文書対訳コーパス日英中基文データ - KUROHASHI-KAWAHARA LABJapanese-English Parallel Corpus - 日英パラレルコーパス日英対訳文対応付けデータ大規模オープンソース日英対訳コーパスの構築The EMILLE CorpusEuroparl Parallel Corpus Extracting Multilingual Parallel Sentences from tatoeba.com (

  • 大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C

  • 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模データが公開されているサイトについて以下のQuoraでid:makimotoさんが質問していました。Data: Where can I get large datasets open to the public? - Quora以下、紹介されているサイトの一覧です。一部有料のものもあるようです。UCI Machine Learning RepositoryPublic Data Sets : Amazon Web ServicesCRAWDADno titleCity of Chicago | Data PortalGovLoop | Social Data Network for Governmentdata.gov.uk | Opening up governmentData.Medicare.GovData.Seattle.Gov | Seattle’s Data SiteOp

  • Twitter検索がパーソナライズ検索に対応 - nokunoの日記

    Twitter検索がパーソナライズ検索に対応しました。このエントリは、その背後にあるエンジニアリングについての記事を翻訳したものです。Twitter Engineering: The Engineering Behind Twitter’s New Search Experience以前のBlenderの記事も合わせて読むと良いかもしれません。 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記 Twitterの新しい検索体験を支える技術日(2011年5月31日)、Twitterはパーソナライズ検索をローンチし、ユーザは自分自身に関連のあるツイート、画像、動画を見つけることができるようになった。このプロダクトを開発するために、我々のインフラは2つの主な特徴をサポートする必要があった:検索結果の関連性フィルタと関連画像・動画の認識機能である。どちらの特徴も

  • C++を鍛え直す - nokunoの日記

    関数全体をtryで囲む int main() try { // 関数内のすべての例外をキャッチできる ... } catch () { ... } 無名名前空間C言語ではグローバル変数にstaticを付けるとファイル内変数になりましたが、C++では無名名前空間を使うことで同じ事を明示的に書くことができます。 namespace { // この中の変数は他のファイルから参照できない int i; } newのバリエーションデフォルトのnew演算子はメモリ確保に失敗するとstd::bad_alloc型の例外を投げるようになっていますが、std::nothrowを使うとNULLを返すようにできます。これは便利! int* p = new(std::nothrow) int; delete p; ※Effective C++によると、nothrow型のnewはメモリ確保に失敗しても例外を投げないも

    gologo13
    gologo13 2011/05/14
    tipsが載ってる感じ。
  • Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記

    以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。 はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は!?私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります:誰もがその命令を理解できると

  • 【書籍】Programming Interview Exposed - nokunoの日記

    というわけで書籍「Programming Interview Exposed」を3章まで読んだので紹介したいと思います。題名は直訳すると「プログラミング面接晒し」。著者らが就職活動で経験したプログラミング課題の解説をするという生々しい内容です。英語圏のテクノロジー企業ではプログラミング課題を行なうのが一般的なので、プログラマーとして就職するということはどういうことか?という疑問にプログラミング課題の説明を通して答えてくれます。 第1章ではプログラマーとしてやっていくために必要な一般的な事項が説明されています。このあたり、自分の就活のときに読みたかったなあ。 自己分析 得意なプログラムはフロントエンドかバックエンドか? ユーザーインターフェースデザインは得意か? デバッグやテストは得意か? プログラマーを続けてたいのか、いずれはマネージャを目指すのか? 大企業かベンチャーか? オープンソース

  • 第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記

    というわけでようやく第5回を開催しました!!第5回 自然言語処理勉強会 #TokyoNLP : ATND n-gramを小さくする話を調べてみた by @machyさんCompressed ngram View more presentations from Keigo Machinaga N-gramとは 今日の題材はn-gramインデックスではなくn-gram確率(言語モデル)の話 応用:音声認識、手書き文字認識、スペル訂正、かな漢字変換、機械翻訳 単語n-gramを題材とする P(晴れ | 天気 は) = 0.24 P(きっと | 天気 は) = 0.03 n-gramを小さくしたい クライアサイドで動作するアプリケーションのためとか サーバサイドでもオンメモリになるとうれしい 注目するのはメモリ使用量:ファイルサイズではない まずはデータを見てみます 大規模なn-gramを自分で用

  • スペル訂正エンジンについてのサーベイ #TokyoNLP - nokunoの日記

    というわけで第5回自然言語処理勉強会での発表資料「スペル訂正についてのサーベイ」を公開します。 第5回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記スペル訂正エンジンについてのサーベイ #TokyoNLP View more presentations from nokuno 紹介した論文A Spelling Correction Program Based on a Noisy Channel ModelAn Improved Error Model for Noisy Channel Spelling CorrectionLearning a Spelling Error Model from Search Query LogsImproving Query Spelling Correction Using Web Search ResultsA Lar

  • 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

    これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。 その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

  • TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記

    Twitterについては先日の記事でフロントエンドBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇(大学教授が長期の休みを取れる制度)でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitterエンジニアの@squarecogさんと