mixi Engineers’ Seminar #3 : ATND 機械学習の基礎と評判分析 by 高村大也 自己紹介 東工大のすずかけ台キャンパスにいます! 「すずかけ台には良い教授がたくさんいる」はポジティブと評判分析 著書:Amazon.co.jp: 言語処理のための機械学習入門 (自然言語処理シリーズ): 高村 大也, 奥村 学: 本 概要 コンテンツを入手→前処理→分類器→出力 前処理:形態素解析→品詞フィルタ,ストップワード削除 「すずかけ台には良い教授がたくさんいる」→すずかけ台 良い 教授 たくさん 分類器 ポジティブかネガティブか ナイーブベイズ分類器 確率的生成モデル 140文字制限は無視 ツイートの長さを決める(単語数) ポジティブかネガティブか決める 単語を選ぶ作業を長さ分だけ繰り返す P(ツイート,ポジ) > P(ツイート,ネガ) ならポジティブ,逆ならネガティブ
先日,「全文検索エンジンgroongaを囲む夕べ 2」という勉強会でgroonga開発者の森大二郎さんから著書の「検索エンジンはなぜ見つけるのか」とそのサインを頂いたことをご報告しました. 全文検索エンジンgroongaを囲む夕べ2 #groonga - nokunoの日記Amazon.co.jp: 検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識: 森大二郎: 本 無料で貰うと書評を書かねばならないという@tasukuchanの言葉に怯え読まざるを得ない状況に追い込まれました(嘘です,本当は前から気になっていたのですが時間を取れずにいたところ今回を機に読んだ形になります).前評判通り,一般向けの分かりやすい言葉で説明しながら,内容は非常に濃い(というか本当に一般向けなのか疑わしい)本でした.比喩として図書館を持ち出しているあたりもうまいと思いました. 例えば2章は
以前,latticelmで教師なし形態素解析を試して,人間の単語分割基準とは異なることを確認しました. 教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記人間の単語分割基準に近づけるには半教師あり学習などの方法が考えられますが,ここでは既存の形態素解析器を使える簡単なやり方として,mecabで分かち書き済みのコーパスにlatticelmを適用してみることにしてみます.これは,1つの単語を1つの文字とみなして教師なし形態素解析を適用することに相当します.mecabのような形態素解析器は未知語に遭遇すると単漢字に分解してしまう傾向があるため,それをくっつけ直す効果が期待できると考えられます.というわけで,Wikipediaから1000文をmecabで分かち書きした結果をlatticelmにかけてみた結果がこちら.$ head out/samp.100 アンパサン
多項分布の最尤推定は確率モデルの基本中の基本であるが,意外と知らない人も多いので説明しておきたい.ここでいう多項分布は離散変数,たとえば単語や商品,ユーザなどの種類を表す変数の分布である.多項分布は頻度の分布を意味する場合もあるが,今回はNLP業界の慣習にならって観測回数が1回の場合を指す.このような変数はカテゴリカル変数などと呼ばれるらしい. 今,確率でi番目の単語が観測されるものとする.確率なので次の制約が成り立つ.この分布の元で単語が回観測されたとする.パラメータの元でこのような観測がされる確率を尤度関数と呼び,その対数は対数尤度関数と呼ばれる.各観測が上記離散確率の独立同分布に従うとすると,対数尤度関数は以下で表される.最尤推定は,観測値が与えられたときにこの対数尤度関数を最大とするようなパラメータを求める推定方法である.離散変数の場合は先ほどの制約を満たす中で上の対数尤度関数を最
以下のエントリの翻訳です.End-to-end NLP packages | AI and Social Science – Brendan O'Connor無料で手に入る全部入りの自然言語処理(Natural Language Processing; NLP)システムにはどんなものがあるだろうか? ここでいう全部入りとはつまり,生のテキストから始めて,構文解析や意味的構造を出力するもののことを指す.多くのNLP研究は一度に1つのタスクしか取り扱わず,そのタスク専用のソフトウェアが開発されている.しかし多くのアプリケーションでは,あなたが与えたテキストがなんであれ動いてくれるような,最初から最後まで面倒を見てくれるものが望ましい. あなたがこれを価値あるゴールだと思うなら(注意点は下にある),そのようなシステムはあまり多くないが,ここに当てはまると思われるものがいくつかある.もし誤りや不明
「Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理」という本が発売されます.このブログや勉強会でも何度か紹介してきた,Data Intensive Text Processing with MapReduceの邦訳本になります.Jimmy Lin » Data-Intensive Text Processing with MapReduceAmazon.co.jp: Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理: Jimmy Lin, Chris Dyer, 神林 飛志, 野村 直之, 玉川 竜司: 本これは期待ですね.ちなみに「小象本」と呼ぶらしいです.ツイートする
第7回自然言語処理勉強会を開催しました.会場をご提供いただいた@ajiyoshiさんとECナビさん,発表者の皆様,参加していただいた皆様,ありがとうございました&お疲れ様でした.第7回自然言語処理勉強会 #TokyoNLP : ATND きれいなジャイアンのカカカカ☆カーネル法入門-C++ by @sleepy_yoshiさん 自己紹介 本日の内容 オンライン学習でカーネルを使う方法を紹介 本日のノリ 中2っぽい名前の理論は扱わない 前回のおさらい 線形識別モデル パーセプトロン 線形モデルの問題点 非線形モデルの実現方法 1. モデルを非線形にする 2. カーネル法+線形モデル カーネル法ひとこと要約 数式 ここでは予測に用いるデータをサポートベクタと呼ぶ 日常ネタ カーネル関数の種類 閉じた形で計算できるもの 再帰などで計算できるもの ちょっと特殊なもの:Semantic simila
@overlastさん主催のDSIRNLP(データ構造と情報検索と言語処理)勉強会に参加してきました.会場のミクシィさんには原宿時代に何度か足を運びましたが,渋谷に移ってからは初めて来て,会議室も広いし食堂?も綺麗でいいなあ,と思いました.第1回 データ構造と情報検索と言語処理勉強会 #DSIRNLP : ATND TRIEにトライ!〜今日からはじめるTRIE入門〜 by @echizen_tm さんタイトルはあらため「これからのトライの話をしよ☆」Try for Trie 自己紹介 TRIEとは TRIEを作ってみた tsubomi - a Full-Text Search library using Compressed Suffix Array. - Google Project Hosting 海風に揺れる一輪のTRIEライブラリ erikaを作ってみたよ - EchizenBlo
Graham Neubigさんが先日公開された発音推定プログラムprontronを使ってみました.prontron - PRONunciation percepTRONまずはデフォルトのモデルを試してみます../prontron.pl model/model.cand model/model.feat 京都きょうと漢字かんじ私わたくし未踏みふ今日いま生駒せいこまうーん,学習データが少ないせいかあまり精度はよくないようです.しかし,事前知識なしに推定を行なうのが売りなので精度を気にしすぎるのは筋違いかもしれません.次に,辞書中の単語の表記と発音の間のアライメントを行なうプログラムmono-align.plが付属しているので,例によってmozcの辞書で試してみます. ./mono-align.pl =(head -1000 data/word.txt) =(head -1000 data/re
TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です.例によって順不同です.生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ!射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyhの日記 Preferred Research 糞ネット弁慶あしたからがんばる ―椀屋本舗unnonounouchiumi logBLOG::broomie.net蝉々亭Overlasting::Lifeやた@はてな日記aito の日記 睡眠不足?!gologo13の日記murawaki の雑記 - rekkenグループmots quotidiens.tb_yasuの日記y_tagの日記アスペ日記人
便乗です。TwitterにいるPHPのすごい人リスト - Shin x blogNLP(と機械学習)方面で個人的に尊敬している人を中心にまとめてみました。敬称略・アルファベット順です。 @a_bicky @caesar_wanya @combinational @echizen_tm @hillbig @hitoshi_ni @issei_sato @kashi_pong @kimuras @kisa12012 @klmquasi @llamerada @machy @mamoruk @mhagiwara @murawaki @neubig @niam @norizm @overlast @penguinana_ @s5yata @shima__shima @shuyo @sla @sleepy_yoshi @smly @syou6162 @takeda25 @taku910 @tkng
Googleの工藤さんが客員准教授をされているという東大の講義「創造情報学連携講義VII」、講義資料が公開されていないのは残念ですが、課題が面白かったので解いてみました。創造情報学連携講座今回は、6/17の栗原さんの課題1を解きましたので紹介します。よい復習になりました。 問題入力データの特徴ベクトルに対し、重みベクトルを使ってラベルを以下の式で予測する。正解ラベルが与えられたとき、以下のように重みベクトルを更新する。このとき、そのデータに対する誤差を以下のように定義する。誤差が更新前より小さくなることを証明せよ。 回答を証明する。実際のオンライン学習では1つのデータに対する損失を最小にしても仕方がないので、学習率を小さく設定して過学習しにくくするのが一般的です。また、実はラベルlは二値でない実数などでも同様に成り立ちますが、実数の場合(=線形回帰)はバッチ学習の最適解が解析的に解けるので
「情報系の学生がやっておくべき10000のこと」というタイトルの記事があったので、何事かと思いました。10000 things all ICS students should do before graduating | Tagide10000個もあるのか…とびっくりしましたが、よく読むと2進数で書かれていて、16個という意味でした。内容もとても良いことを言っていると思うので、簡単に紹介してみます。 0000 – 自分のドメインを買う 0001 – Apacheをインストールして設定をいじる(複数ドメイン対応とか) 0010 – WordPressをインストールしてブログを書く。文章スキルも大事。 0011 – 自分のウェブサイトを運営する 0100 – LAMPでウェブアプリを書く。少なくとも1つ、できればPHPとPythonで。 0101 – 自分のサーバー(物理orクラウド)を持つ
Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこの本を読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。 それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって
Sobe2 markovView more presentations from nokuno.
Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。 日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く