タグ

NLPに関するICHIROのブックマーク (34)

  • Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9

    [DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

    Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
    ICHIRO
    ICHIRO 2012/02/25
  • CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei

    機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい。 uchiumi log: 間違ってるかもしれないCRFの説明 また、実装方法については高村(言語処理のための機械学習入門)がとても詳しい。 さて、具体的な解説をしないなら何をするの?ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも

    CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei
    ICHIRO
    ICHIRO 2011/12/07
  • averaged stochastic gradient descentのご紹介 - Preferred Networks Research & Development

    そろそろ寒くなってきましたね。早速風邪を引きました。徳永です。 今日は私の使っている自作の足置き(制作費600円)の紹介でお茶を濁そうと思っていたのですが、途中で方向転換しました。今日は機械学習の話をします。 Léon Bottouという研究者(彼はまたDjVuというドキュメントフォーマットの開発者でもあります)が開発・公開しているsgdというソフトウェアのバージョン2.0が公開されました。sgd 2.0ではaveraged stochastic gradient descent(ASGD)という手法が実装され、これまでのSGDと比べて性能が向上しました。今日はこのASGDを紹介したいと思います。日語に訳すと平均化確率的勾配降下法でしょうか。漢字が多くて読みづらいので以下ではASGDと呼びます。 もともと、SGD(確率的勾配降下法)はNLPのような高次元かつスパースなタスクではうまく行く

    averaged stochastic gradient descentのご紹介 - Preferred Networks Research & Development
    ICHIRO
    ICHIRO 2011/10/21
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 統合情報検索プラットフォーム「Sedue」を国内最大級図書情報サービスWebcat Plusに導入 - 株式会社プリファードインフラストラクチャー

    統合情報検索プラットフォーム「Sedue」を国内最大級図書情報サービスWebcat Plusに導入 報道関係者各位 プレスリリース ======================================================== 株式会社Preferred Infrastructure(社:東京都文京区、代表:西川徹、以下PFI)は、2010年6月21日、国立情報学研究所(所長:坂内正夫)が提供する図書館情報サービス「Webcat Plus」の検索エンジンとして、PFIが開発・販売する統合情報検索プラットフォーム「Sedue」が採用されたことを発表いたします。 日、全面リニューアルされたWebcat Plusは、江戸期前から現代までの書物に記憶されている膨大な知識を、自由に探索できる思索空間として提供する情報サービスです。従来からの学術ユーザーはもちろん、広く一

  • Top-k文書列挙問題 - DO++

    いろいろとありまして去年読んだ論文で面白かったものランキングとか書けなかったのが残念ですが、もしあげるとしたら次の論文は入れると思います(知ったのは年明けだったけど)。 "Space-Efficient Framework for Top-k String Retrieval Problems", FOCS 2009, Wing Kai Hon, Rahul Shah and Jeffrey Scott Vitter (pdf) 扱っているのは次のような問題です(説明のため来のと言い換えています) n個の葉からなる木が入力として与えられ,各葉には色(1以上d以下の整数とします)が与えられています. この時、木中の任意の節点と正整数kがクエリとして与えられたときに、その節点の子孫の中で出現回数が大きい色を順にk個答えよという問題です。 簡単に思いつくのは,各節点に適当な個数(d)の答えをあ

    Top-k文書列挙問題 - DO++
  • PFI Christmas seminar 2009

    Loading... Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. PFI Christmas seminar 2009 - Presentation Transcript PFIセミナー 2009/12/24 研究開発チーム クリスマス・セミナー 岡野原 大輔 何はともあれ、まず Merry X’mas ! こんな日にセミナーを ルドルフ達 見てくれるのに大感謝だよ 投げやりな 僕でごめんね 僕はサンタじゃないよ 今回の発表 • 研究開発チームの活動紹介 • 今注目すべき研究を50分で俯瞰しよう! – オンライン学習の最前線 機械学習 • Multi-c

  • Thesis.dvi

    ISSN 0918-2802 Technical Report L 文字列索引法とその自然言語処理への応用 伊東 秀夫 TR00-0003 March Department of Computer Science Tokyo Institute of Technology ˆ Ookayama 2-12-1 Meguro Tokyo 152-8552, Japan http://www.cs.titech.ac.jp/ c The author(s) of this report reserves all the rights. 目次 第1章 序章 1 1 2 2 3 3 5 5 9 9 1.1 背景と目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 成果の概要 . . . . . . .

    ICHIRO
    ICHIRO 2009/10/23
    文字列索引法とその自然言語処理への応用
  • クラスタリングツール bayon がとてつもなく素晴らしいです!

    クラスタリングツール bayon がとてつもなく素晴らしいです! 2009-06-10-5 [Algorithm][Software] mixi の fujisawa さんによる、C++ で書かれたクラスタリングツール bayon がシンプルイナフで猛烈に素晴らしくてクールです。 - 軽量データクラスタリングツールbayon (mixi Engineers' Blog) http://alpha.mixi.co.jp/blog/?p=1049 - チュートリアル(Tutorial_ja - bayon) http://code.google.com/p/bayon/wiki/Tutorial_ja 詳細は上記URLを見てもらうとして、 たまたま手元に250万件のデータ(ラベル+特徴語リスト)があったのでさっそく試してみました。 ドキュメント数250万件。 各ドキュメントの特徴を現すキーの平

    クラスタリングツール bayon がとてつもなく素晴らしいです!
  • Keyword Tracker - 今の話題とトレンドをウオッチ

    このサイトについて 「Keyword Tracker」は、日々投稿されるブログ記事を用いて、その日の話題のワードや、ワードのトレンドを解析するアプリケーションです。 主な機能 ○日別の注目ワードランキング ・・・その日に話題となったワードを、独自のランキング集計ロジックにて算出します。 ○ワードのトレンド分析 ・・・ワードの出現数の推移と、そのワードにどんな感想・気持ちを持っているか、どんなワードと一緒に語られているかを分析します。 ○RSSの配信 ・・・ランキング情報ならびにワードのトレンド情報をRSSにて配信しています。 ランキング:http://kt.nd-ilab.jp/keyword/rss/ranking トレンド:http://kt.nd-ilab.jp/keyword/rss/word?word=[word] ※[word]はUTF-8でURLエンコーディングした

  • DO++

    2012年の個人的な総括を以下にまとめます。 子供が生まれました 無事子供が7月に生まれました。毎日子育てに翻弄していますが想像していたよりも大変で楽しい時間を過ごしています。 また、が実家に里帰り出産したため夏の間は、毎週末の実家に帰り車を運転して病院・お店に行くという、まるでの実家で生活して月〜金は東京で働いているような感覚で過ごしていました。 高速文字列を出しました 高速文字列の世界を12/27に出しました。 2012年の目標としてをだすということを考えていました。2010年夏頃からの話はいただいていましたが、結婚、会社(途中から経営陣に入ってさらに時間確保が困難に)、子育てと時間確保がどんどん困難になっていきずるずると伸びてしまっていました。 しかし、文字列解析の話は小さいころから扱っていた話(もう10歳ぐらいからの付き合い)で一度まとめてみたかったというのもありますし

    DO++
  • 生きあたりまったりブログ

    休学中の過ごし方…うつ状態で何してた?就活やバイトは?大学休学中おすすめの過ごし方、やめたほうがいいことを経験者が解説。

    生きあたりまったりブログ
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

  • http://rhythmixearch.net/

    ICHIRO
    ICHIRO 2009/03/24
    足して2で割る感覚を再現
  • http://twitter.com/just_do_quiz

    http://twitter.com/just_do_quiz
    ICHIRO
    ICHIRO 2009/03/09
    クイズをやるよ!bot
  • 東京大学 大学院 情報理工学系研究科

    Research on Research Program on IST 情報理工学系研究科・R2P/IST 1周年記念シンポジウム 新たなICT 産業創出に向けて ~情報理工によるイノベーション~ 【開催概要】 2009年3月9日(月)13:30~17:45(開場:13:00) 会場:東京大学 工学部11号館講堂(1階) 東京都文京区郷7-3-1  アクセスマップ  リーフレット (PDF, 1.2MB) 聴講無料・定員138名 【プログラム】 【第一部】新たなICT産業創出に向けた取組み 司会:情報理工学系研究科・教授 今井浩

  • やる夫はSVMを実装したようです やる夫で学ぶ非線形なSVM

    2乗誤差最小化を基礎におく線形識別器の欠点を克服する識別器の学習として有名なサポートベクターマシンについて、原理、学習アルゴリズムについて説明する。さらに回帰の応用したサポートベクター回帰についても説明する。

    やる夫はSVMを実装したようです やる夫で学ぶ非線形なSVM
  • やる夫で学ぶSVM with R

    [DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...

    やる夫で学ぶSVM with R
  • セマンティックウェブとオントロジー研究会

    【終了しました】第46回SWO研究会 発表募集 ■日時:2018年11月25日(日) 14:00-18:00 ■会場:淡路夢舞台国際会議場(地図) ■参加費:無料 ■発表申込しめきり:2018年10月22日(月) ■原稿提出しめきり:2018年11月19日(月) ■発表・参加募集:http://www.sigswo.org/papers/46cfp ■プログラム:http://www.sigswo.org/papers/46program

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知