Itisangoのブックマーク - はてなブックマーク

Itisango id:Itisango

ブックマーク / d.hatena.ne.jp/nokuno (19)

「日本語入力を支える技術」本日発売！ #ステマ - nokunoの日記
Itisango 2012/02/08
IT

日本語入力

日本語

自然言語処理
リンク
mixi Engineers' Seminar #3 に参加しました #mixi_engineers - nokunoの日記
mixi Engineers’ Seminar #3 : ATND 機械学習の基礎と評判分析 by 高村大也自己紹介東工大のすずかけ台キャンパスにいます！「すずかけ台には良い教授がたくさんいる」はポジティブと評判分析著書：Amazon.co.jp：言語処理のための機械学習入門 (自然言語処理シリーズ): 高村大也, 奥村学: 本概要コンテンツを入手→前処理→分類器→出力前処理：形態素解析→品詞フィルタ，ストップワード削除「すずかけ台には良い教授がたくさんいる」→すずかけ台良い教授たくさん分類器ポジティブかネガティブかナイーブベイズ分類器確率的生成モデル 140文字制限は無視ツイートの長さを決める（単語数）ポジティブかネガティブか決める単語を選ぶ作業を長さ分だけ繰り返す P(ツイート，ポジ) > P(ツイート，ネガ) ならポジティブ，逆ならネガティブ
Itisango 2012/02/02
リンク
書評「検索エンジンはなぜ見つけるのか」 - nokunoの日記
先日，「全文検索エンジンgroongaを囲む夕べ 2」という勉強会でgroonga開発者の森大二郎さんから著書の「検索エンジンはなぜ見つけるのか」とそのサインを頂いたことをご報告しました．全文検索エンジンgroongaを囲む夕べ2 #groonga - nokunoの日記Amazon.co.jp：検索エンジンはなぜ見つけるのか　―知っておきたいウェブ情報検索の基礎知識: 森大二郎: 本無料で貰うと書評を書かねばならないという@tasukuchanの言葉に怯え読まざるを得ない状況に追い込まれました（嘘です，本当は前から気になっていたのですが時間を取れずにいたところ今回を機に読んだ形になります）．前評判通り，一般向けの分かりやすい言葉で説明しながら，内容は非常に濃い（というか本当に一般向けなのか疑わしい）本でした．比喩として図書館を持ち出しているあたりもうまいと思いました．例えば2章は
Itisango 2011/12/05
リンク
教師なし形態素解析を人間の単語分割基準に近づける - nokunoの日記
以前，latticelmで教師なし形態素解析を試して，人間の単語分割基準とは異なることを確認しました．教師なし形態素解析ライブラリlatticelmを使ってみた - nokunoの日記人間の単語分割基準に近づけるには半教師あり学習などの方法が考えられますが，ここでは既存の形態素解析器を使える簡単なやり方として，mecabで分かち書き済みのコーパスにlatticelmを適用してみることにしてみます．これは，1つの単語を1つの文字とみなして教師なし形態素解析を適用することに相当します．mecabのような形態素解析器は未知語に遭遇すると単漢字に分解してしまう傾向があるため，それをくっつけ直す効果が期待できると考えられます．というわけで，Wikipediaから1000文をmecabで分かち書きした結果をlatticelmにかけてみた結果がこちら．$ head out/samp.100 アンパサン
Itisango 2011/10/15
自然言語処理

形態素解析

日本語情報処理

日本語

情報処理
リンク
多項分布の最尤推定 - nokunoの日記
多項分布の最尤推定は確率モデルの基本中の基本であるが，意外と知らない人も多いので説明しておきたい．ここでいう多項分布は離散変数，たとえば単語や商品，ユーザなどの種類を表す変数の分布である．多項分布は頻度の分布を意味する場合もあるが，今回はNLP業界の慣習にならって観測回数が1回の場合を指す．このような変数はカテゴリカル変数などと呼ばれるらしい．今，確率でi番目の単語が観測されるものとする．確率なので次の制約が成り立つ．この分布の元で単語が回観測されたとする．パラメータの元でこのような観測がされる確率を尤度関数と呼び，その対数は対数尤度関数と呼ばれる．各観測が上記離散確率の独立同分布に従うとすると，対数尤度関数は以下で表される．最尤推定は，観測値が与えられたときにこの対数尤度関数を最大とするようなパラメータを求める推定方法である．離散変数の場合は先ほどの制約を満たす中で上の対数尤度関数を最
Itisango 2011/10/06
統計学

統計

最尤推定

NLP

確率

多項分布
リンク
自然言語処理における「全部入り」パッケージ - nokunoの日記
以下のエントリの翻訳です．End-to-end NLP packages | AI and Social Science – Brendan O'Connor無料で手に入る全部入りの自然言語処理(Natural Language Processing; NLP)システムにはどんなものがあるだろうか？ここでいう全部入りとはつまり，生のテキストから始めて，構文解析や意味的構造を出力するもののことを指す．多くのNLP研究は一度に1つのタスクしか取り扱わず，そのタスク専用のソフトウェアが開発されている．しかし多くのアプリケーションでは，あなたが与えたテキストがなんであれ動いてくれるような，最初から最後まで面倒を見てくれるものが望ましい．あなたがこれを価値あるゴールだと思うなら（注意点は下にある），そのようなシステムはあまり多くないが，ここに当てはまると思われるものがいくつかある．もし誤りや不明
Itisango 2011/09/20
リンク
MapReduceデザインパターンが発売されます - nokunoの日記
「Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理」という本が発売されます．このブログや勉強会でも何度か紹介してきた，Data Intensive Text Processing with MapReduceの邦訳本になります．Jimmy Lin » Data-Intensive Text Processing with MapReduceAmazon.co.jp： Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理: Jimmy Lin, Chris Dyer, 神林飛志, 野村直之, 玉川竜司: 本これは期待ですね．ちなみに「小象本」と呼ぶらしいです．ツイートする
Itisango 2011/09/18
MapReduceデザインパターンが発売されます
リンク
第7回自然言語処理勉強会を開催しました #ToyoNLP - nokunoの日記
第7回自然言語処理勉強会を開催しました．会場をご提供いただいた@ajiyoshiさんとECナビさん，発表者の皆様，参加していただいた皆様，ありがとうございました＆お疲れ様でした．第7回自然言語処理勉強会 #TokyoNLP : ATND きれいなジャイアンのカカカカ☆カーネル法入門-C++ by @sleepy_yoshiさん自己紹介本日の内容オンライン学習でカーネルを使う方法を紹介本日のノリ中2っぽい名前の理論は扱わない前回のおさらい線形識別モデルパーセプトロン線形モデルの問題点非線形モデルの実現方法 1. モデルを非線形にする 2. カーネル法＋線形モデルカーネル法ひとこと要約数式ここでは予測に用いるデータをサポートベクタと呼ぶ日常ネタカーネル関数の種類閉じた形で計算できるもの再帰などで計算できるものちょっと特殊なもの：Semantic simila
Itisango 2011/09/11
自然言語処理

nlp

カーネル法

ATND
リンク
Haskellはじめました #start_haskell - nokunoの日記
Itisango 2011/07/25
Haskellはじめました #start_haskell
リンク
第1回DSIRNLP勉強会に参加しました #dsirnlp - nokunoの日記
@overlastさん主催のDSIRNLP（データ構造と情報検索と言語処理）勉強会に参加してきました．会場のミクシィさんには原宿時代に何度か足を運びましたが，渋谷に移ってからは初めて来て，会議室も広いし食堂？も綺麗でいいなあ，と思いました．第1回データ構造と情報検索と言語処理勉強会 #DSIRNLP : ATND TRIEにトライ！〜今日からはじめるTRIE入門〜 by @echizen_tm さんタイトルはあらため「これからのトライの話をしよ☆」Try for Trie 自己紹介 TRIEとは TRIEを作ってみた tsubomi - a Full-Text Search library using Compressed Suffix Array. - Google Project Hosting 海風に揺れる一輪のTRIEライブラリ erikaを作ってみたよ - EchizenBlo
Itisango 2011/07/23
第1回DSIRNLP勉強会に参加しました #dsirnlp
リンク
発音推定プログラムprontronを使ってみた - nokunoの日記
Graham Neubigさんが先日公開された発音推定プログラムprontronを使ってみました．prontron - PRONunciation percepTRONまずはデフォルトのモデルを試してみます．./prontron.pl model/model.cand model/model.feat 京都きょうと漢字かんじ私わたくし未踏みふ今日いま生駒せいこまうーん，学習データが少ないせいかあまり精度はよくないようです．しかし，事前知識なしに推定を行なうのが売りなので精度を気にしすぎるのは筋違いかもしれません．次に，辞書中の単語の表記と発音の間のアライメントを行なうプログラムmono-align.plが付属しているので，例によってmozcの辞書で試してみます． ./mono-align.pl =(head -1000 data/word.txt) =(head -1000 data/re
Itisango 2011/07/13
NLP

自然言語処理

日本語

発音推定

パーセプトロン

prontron
リンク
NLPに関する良質なブログリスト - nokunoの日記
TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です．例によって順不同です．生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ！射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyhの日記 Preferred Research 糞ネット弁慶あしたからがんばる ―椀屋本舗unnonounouchiumi log BLOG::broomie.net蝉々亭Overlasting::Lifeやた＠はてな日記aito の日記睡眠不足？！go logo13の日記murawaki の雑記 - rekkenグループmots quotidiens.tb_yasuの日記y_tagの日記アスペ日記人
Itisango 2011/07/13
リンク
TwitterにいるNLPのすごい人リスト - nokunoの日記
便乗です。TwitterにいるPHPのすごい人リスト - Shin x blogNLP（と機械学習）方面で個人的に尊敬している人を中心にまとめてみました。敬称略・アルファベット順です。 @a_bicky @caesar_wanya @combinational @echizen_tm @hillbig @hitoshi_ni @issei_sato @kashi_pong @kimuras @kisa12012 @klmquasi @llamerada @machy @mamoruk @mhagiwara @murawaki @neubig @niam @norizm @overlast @penguinana_ @s5yata @shima__shima @shuyo @sla @sleepy_yoshi @smly @syou6162 @takeda25 @taku910 @tkng
Itisango 2011/07/11
twitter

テキスト・マイニング

機械学習

NLP

ブログ

memo

まとめ
リンク
線形分類器のオンライン学習 - nokunoの日記
Googleの工藤さんが客員准教授をされているという東大の講義「創造情報学連携講義VII」、講義資料が公開されていないのは残念ですが、課題が面白かったので解いてみました。創造情報学連携講座今回は、6/17の栗原さんの課題1を解きましたので紹介します。よい復習になりました。問題入力データの特徴ベクトルに対し、重みベクトルを使ってラベルを以下の式で予測する。正解ラベルが与えられたとき、以下のように重みベクトルを更新する。このとき、そのデータに対する誤差を以下のように定義する。誤差が更新前より小さくなることを証明せよ。回答を証明する。実際のオンライン学習では1つのデータに対する損失を最小にしても仕方がないので、学習率を小さく設定して過学習しにくくするのが一般的です。また、実はラベルlは二値でない実数などでも同様に成り立ちますが、実数の場合（＝線形回帰）はバッチ学習の最適解が解析的に解けるので
Itisango 2011/07/02
リンク
情報系の学生がやっておくべき10000のこと - nokunoの日記
「情報系の学生がやっておくべき10000のこと」というタイトルの記事があったので、何事かと思いました。10000 things all ICS students should do before graduating | Tagide10000個もあるのか…とびっくりしましたが、よく読むと2進数で書かれていて、16個という意味でした。内容もとても良いことを言っていると思うので、簡単に紹介してみます。 0000 – 自分のドメインを買う 0001 – Apacheをインストールして設定をいじる（複数ドメイン対応とか） 0010 – WordPressをインストールしてブログを書く。文章スキルも大事。 0011 – 自分のウェブサイトを運営する 0100 – LAMPでウェブアプリを書く。少なくとも1つ、できればPHPとPythonで。 0101 – 自分のサーバー（物理orクラウド）を持つ
Itisango 2011/07/01
AdSense

amazon ec2

Apache

amazon

ec2

ec

ブログ

study
リンク
nokunoの日記
nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.
Itisango 2010/10/27
yahoo

business

仕事

企業

エンジニア

work

退職

会社
リンク
「言語処理のための機械学習入門」を参考に各種モデルに対するEMアルゴリズムを実装したよ - nokunoの日記
Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこの本を読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって
Itisango 2010/08/08
機械学習

machine learning

algorithm

アルゴリズム

開発
リンク
Linuxカーネルでマルコフ連鎖してみた - nokunoの日記
Sobe2 markovView more presentations from nokuno.
Itisango 2010/04/25
リンク
「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記
Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日本語では、単語の境界はそれほど自明ではないため、日本語特有の処理をする必要があります。日本語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ
Itisango 2008/05/03
あとで読む

google

search

検索エンジン

検索

Google

クエリ

インデックス

クローラ

サーバ
リンク
1