jnlpのブックマーク (226)

  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
  • Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

    タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。 これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。 また、単語数をWとしたとき、C++mapのような二分探索木を使ってもO(N

    Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
  • 第10回 ベイズ確率 | gihyo.jp

    これから前回の「線形回帰」を確率化した「ベイズ線形回帰」に進んでいく予定ですが、今回はその中で大活躍する「ベイズ確率」です(編注⁠)⁠。「⁠ベイズ確率」は連載の第2回で一度登場していますが、そのときは名前の紹介だけでした。 まずは「ベイズ確率」とは何で、なぜそれを使うのか、というところから見ていきましょう。 編注 来であればベータ分布を実践する回をお届けする予定でしたが、諸事情により、理論編のお話を先に進めさせていただきます。引き続き、ご愛読いただければ幸いです。 「確率」を求める 高校で確率の授業を受けたことがある人であれば、一度くらいは次のようなことを思ったことはありませんか? 「コインを投げたら表が出る確率は1/2とか、サイコロを振ったらそれぞれの目が出る確率が1/6とかよく言うけど、どうやってそれを確かめるの?」 「確率1/6といっても、6回振って各目が1回ずつ出たりしないし、

    第10回 ベイズ確率 | gihyo.jp
    jnlp
    jnlp 2011/06/05
  • ストップワードとは?

    ストップワードとは? 2008-01-20-2 [IIR][NLP] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.2に出てくるストップワード (stop word) の 話題をまとめました。 § ストップワード (stop word) とは、 検索にほとんど役に立たないためインデックス作成時に除外する 単語のことである。 検索対象文書に出現するすべての単語をインデックスとするのは 無駄な面が多い。 例えば、「て」「に」「を」「は」などの助詞や 英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。 そのため、 postings list が巨大になり格納スペースや処理時間に悪影響を与え、 その上、 検索結果も大量となり検索要求を満たす結果を得るのが困難となる。 そこで効率化のために

    ストップワードとは?
    jnlp
    jnlp 2011/06/05
  • 文書クラスタリングの技法ゼミ

    III. 文書クラスタリングの技法 A. 単一パスアルゴリズム 1. k-means 法の適用 2. Willett のアルゴリズム 3. 平均クラスタリング・アルゴリズム

  • 株式会社ウィリルモバイル

    株式会社ウィリルモバイルは株式会社アドインテに社名を変更しました。 5秒後に新しいサイトに移動します

    jnlp
    jnlp 2011/06/05
  • Windows Phoneは自然言語理解を武器に戦う - 蝉々亭

    今日2011年5月29日日曜日の日経済新聞7面に米マイクロソフトCEOスティーブ・バルマー氏へのインタビューが掲載されています。主な論点はマイクロソフトのスマートフォン市場への取り組みに関するもので、ノキアとの提携、スカイプの買収についてや、競合するグーグルやアップルとの差別化についても言及されています。特に興味深いのは以下の部分で、引用します。 ——グーグルのアンドロイドやiPhoneに対しウィンドウズフォンは何を武器に戦うのか。 「類似性の高い両陣営とは全く別の利便性を提供する。人々の仕事や生活を直接助ける道具にする。たとえば端末に『どこどこの日レストランを予約できないかな』と言えば、電話をかけはじめる。『ANA26便の搭乗券を印刷』と言えば、部屋のプリンターに印刷させるという具合だ」 「カギはグーグル的な検索とはまったく違う角度から言葉の意味をとらえ、反応する新種の検索エンジン

    Windows Phoneは自然言語理解を武器に戦う - 蝉々亭
  • .NETプログラミング研究 - DoboWiki

    DOBON.NET DOBON.NET プログラミング道 .NET Tips 最近1週間の人気の20件.NETプログラミング研究/93 ( 113 / 77 / 139529 ) ぱたうさ ( 94 / 66 / 31923 ) .NETプログラミング研究/76 ( 76 / 40 / 73306 ) free/kanaxsCSharp ( 72 / 32 / 30796 ) .NETプログラミング研究/111 ( 64 / 57 / 47632 ) .NETプログラミング研究/112 ( 62 / 60 / 37907 ) .NETプログラミング研究/94 ( 54 / 35 / 60613 ) .NETプログラミング研究/98 ( 46 / 49 / 42994 ) PukiWiki/Tips ( 45 / 37 / 13532 ) .NETプログラミング研究/85 ( 44 / 32

  • 松尾ぐみの論文の書き方 | 松尾 豊

    松尾ぐみの論文の書き方 論文を書くことは、研究を進める上で重要なプロセスのひとつです。 研究者の業績も論文によって評価されます。ここでは、松尾ぐみの学生と一緒に論文を書いていく中で、よく注意点として出てくることをまとめて整理してみました。なお、松尾ぐみのテーマに即していますので、違う分野の人は参考にならないかもしれません。 研究を論文にするということ 自分の研究をきれいな形に切り取る 論文は、自分の研究日記でも苦労日記でもありません。卒論や修論は、自分がやったことをできるだけ主張する、 苦労した点を伝えるという点で、 ある意味、研究日記でも構わないでしょう。しかし、ジャーナルの論文や国際会議の論文は違います。 こういった論文は、新しい知見を読者に伝えるためにあります。読者が必要としている情報、知りたい情報を、過不足なく書く必要があります。 自分の苦労話や、横道に入るような研究は書く必要はあ

  • 松尾ぐみの論文の書き方:英語論文 | 松尾 豊

    あー、やっぱりこの国際会議は難しいな。日人ほとんど通ってないしなぁ。結構頑張ったんだけどなぁ。でも査読者、なんか良く分からないことを言ってる。こいつ分かってないな。こんな査読者に当たるとは運が悪い。3人中1人はすごくいいコメントなのになぁ。ま、いいや、研究会論文でも書こう。 (※に戻る) 私も以前はこんな感じでした。主要な国際会議のレベルは高いと思ってました。今では、そうは思いません。何といっても、まずは完成度の問題です。 完成度を上げることの重要性 完成度を上げるとは、自分で修正するところがなくなるまで、修正を繰り返すことです。 上の例では、初稿の段階で投稿していますね。これで通せる人は誰もいません。ここで私がよく目安に使っている2つの経験則を紹介しましょう。 執筆時間の法則: 経験上、次のような法則があります。「書こう」と思ってから、初稿ができるまでの時間をa0とします。すると、第2

  • http://atnd.org/events/15873

    http://atnd.org/events/15873
  • COCONE(英語学習サイト)

  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

  • Machine learning classifier gallery

    Introduction Machine learning (ML) research with classifiers usually emphasizes quantitative evaluation, i.e. measuring accuracy, AUC or some other performance metric. But it's also useful to visualize what classifier algorithms do with different datasets. This is the index page of a "machine learning classifier gallery" which shows the results of numerous experiments on ML algorithms when applied

  • 日本語解析エンジン「なずき」 | NTTデータ

    「エモーションアナライザ」は、アンケートの自由記述回答や、コンタクトセンターに集まった問い合わせ、インターネット上のブログ等、様々なテキストデータの分析を行うことのできる分析パッケージツールです。テキストデータに含まれる単語や係り受けからだけでなく、表現やニュアンスに含まれる書き手の「気持ち」を理解し、文章中にある話題(対象)について「好き」「嫌い」などの評価情報(感性)を高い精度で抽出することができます。

  • 英語論文自己チェックリスト 後藤 祐一 ∗ gotoh@aise.ics.saitama-u.ac.jp 2010 年 10 月 15 日 概要 英語論文の第 0 稿から第 1 稿にする際に何をチェックすべきかをまとめた。このチェックリ ストにし

    英語論文自己チェックリスト 後藤 祐一 ∗ gotoh@aise.ics.saitama-u.ac.jp 2010 年 10 月 15 日 概要 英語論文の第 0 稿から第 1 稿にする際に何をチェックすべきかをまとめた。このチェックリ ストにしたがい論文の頭からお尻までチェックすることを 8 回繰り返せば、形式や内容におけ る論文の各種既定がある程度守られている論文になるようにしてある。 0 チェックリストの使い方 論文執筆の助言に「とにかく、どんなに粗末なものでも良いので頭からお尻まで論文を一通り書 き上げなさい」というものがある。この助言はとても有用なのだけれども、この「とりあえず書き 上げたもの」は、はっきりいって論文になっていない。これは論文の第 1 稿未満の第 0 稿だ。 第 0 稿の論文を指導してくれている先輩や教員に渡しても、有意義な助言や指導は受けられな い。なぜなら

  • Moses - Moses/MailingLists

  • Google to close Translation API service | thinq_

  • Wikipediaによるテキストマイニング入門

    Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Datamining04 textmining - Presentation Transcript Wikipediaによるテキストマイニング入門 @nokuno #TokyoWebmining 2010/05/16 アジェンダ 1. はじめに 2. テキストマイニング入門 3. Wikipediaデータの解析 4. まとめ 2 1. はじめに 3 自己紹介  Twitter: @nokuno  はてな:id:nokuno  Social IME開発者  自然言語処理とか  RとかP

  • copyright-jp

    お知らせ SIST(科学技術情報流通技術基準)事業は2011年度末に終了し、ウェブサイトは現在、公開は終了しています。 当サイトは、独立行政法人科学技術振興機構とは関係がありません。 国立国会図書館において、SIST(科学技術情報流通技術基準)事業のウェブサイトのコンテンツが保存され、公開されています。 SIST(科学技術情報流通技術基準)(国立国会図書館 保存) https://warp.ndl.go.jp/info:ndljp/pid/12003258/jipsti.jst.go.jp/sist/index.html 参照文献の書き方S I S T 0 2 - 2007 *1 *1 出典:「参考文献の役割と書き方 科学技術情報流通基準(SIST)の活用」科学技術振興機構(JST) https://jipsti.jst.go.jp/sist/pdf/SIST02-2007.pdf(PDF

    jnlp
    jnlp 2011/05/29
    参照文献の書き方