You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
※この表は神嶌 敏弘先生が人工知能学会誌に連載した解説記事『推薦システムのアルゴリズム』から転載したものです。 アルゴリズムの説明 ■ 協調フィルタリングとは アイテム利用者の行動履歴を元にレコメンドする方法です。Amazonの『この商品を買った人は、こんな商品も』機能が有名です。協調フィルタリングによるレコメンドはユーザの行動を元にレコメンドする方法です。 ■ 内容ベース(コンテンツベース)フィルタリングとは アイテムの特徴ベクトルで類似度ソートしてレコメンドする方法です。 グルメサイトでユーザが入力した『新宿・エスニック料理』というキーワードに関連付けられたお店が表示される場合が該当します。内容ベースによるレコメンドはアイテムの特徴を元にレコメンドする方法です。 特性の詳細について ■ 多様性 協調: o 内容ベース: x 内容ベースでは商品内容に記載されていない情報はレコメンドされま
Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces This document summarizes a research paper on modeling long-range dependencies in sequence data using structured state space models and deep learning. The proposed S4 model (1) derives recurrent and convolutional representations of state space models, (2) improves long-term memory using HiPPO matrices, and (3) efficiently compu
Revolutions Milestones in AI, Machine Learning, Data Science, and visualization with R and Python since 2008 by Joseph Rickert Last week,I had the opportunity to participate in the Second Academy of Science and Engineering (ASE) Conference on Big Data Science and Computing at Stanford University. Since the conference was held simultaneously with the two other conferences, one on Social Computing a
自然言語処理まわりのDeep Learningを自分なりにまとめてみた “自然言語処理のためのDeep Learning”というスライドを公開しました. 自然言語処理のためのDeep Learning from Yuta Kikuchi カジュアルな感じで自然言語処理まわりのDeep Learningの話題をまとめた感じになっています. きっかけは,勉強会をしていることを知ったOBのbeatinaniwaさんにお願いされたことで, 株式会社Gunosyの勉強会の場で,発表の機会を頂きました. それが,9/11で,その後9/26に研究室内で同じ内容で発表しました. どちらも思った以上に好評を頂け,公開してはと進めて頂いたので,公開することにしました. もちろん間違いが含まれている可能性も多分にあるので.気づいた方はご指摘頂けると幸いです. 内容ざっくり 前半は,ニューラルネットワークを図を使
先日,身内の勉強会(&ラボの勉強会)で,Deep Learningについてお話してきました.これまで興味がなさそうだったのに何故急に?というのはおいておいて. 紹介したのは,Deep Learningの第一人者のひとり, Yoshua Bengio先生自身が執筆された,以下の論文. Yoshua Bengio, Practical recommendations for gradient-based training of deep architectures, arXiv:1206.5533v2, 2012 どうやら書籍の草稿のようで,Bengio先生の長年の研究で得られたさまざまなノウハウ(最近の手法まで)がぎっしり詰め込まれています.すごい. 以前から気にはなりつつも,ちょっと分量が多い(30ページくらいある)ので,なかなか手を出すことができなかったのですが,ようやくヤル気が出てきた
はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれた本が多いが、日本語で書かれた本も若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論
自分の一年と少しという短い研究期間で最も気に入っているプレゼンテーションやブログ記事を何点か挙げる。 全部技術的な発表や記事ではなく、自分の心に深い部分に何かを語りかけたモノを挙げていく。 1.パターン認識と機械学習入門 パターン認識と機械学習入門 タイトルからして「うわ、、数式一杯やだな」と思うかもしれないが、これは人が人生を送るうえでやっていることを、機械学習の世界に絡めたプレゼンテーションである。数式は一切ない。 自分が特に気に入っているのは「みにくいアヒルの子定理」の直観的解説の部分。これは「人は自分の価値基準(=事前知識orコスト関数と自分は解釈)を用いないと、最適かどうかを判断できなくなる」と自分は解釈している。あなたが人生で何を大切にするのか?を考えないと、現実でも機械学習の世界でも何も判断できないよ、というメッセージが自分の心に刻み込まれた。 2013年6月15日追記: 上
機械学習界隈では多変量正規分布のKLダイバージェンスの導出は自明らしく、とくに説明もなく「はいこうなりますね〜簡単ですね〜ははは〜」みたいな感じで軽く流されて死にそうになる。 軽く流されると私のように死んでしまう人もいるかもしれないので導出方法をメモしておく。 前準備 KLダイバージェンスは分布Pに対して分布Qがどれだけ近いかを表し、定義は以下のとおり。 KL(P(x) || Q(x)) = ∫P(x) log(P(x) / Q(x)) dx = ∫P(x) log(P(x)) dx - ∫P(x) log(Q(x)) dxまた多変量正規分布の定義は以下のとおり。 P(x | μ, Σ) = ((2π)^d * |Σ|)^(-1/2) * exp(-1/2 * (x - μ)T Σ^-1 (x - μ)) μ: 平均(d次元(縦)ベクトル) Σ: 共分散行列(d次正方行列) x: データ点
はじめに 形態素解析辞書の登録単語の単位や品詞/活用などを考える時は、対象コーパスでその単語がどのような文脈で用いられているか調べたいことが多い。 単純にgrepコマンドやエディタの検索とかで調べればよいけど、検索速度や見やすさの問題があったりする。 KWICという用語索引の共通フォーマットがあり、見やすいのでこれを試しに作ってみる。 KWICとは KeyWord In Contextの略語 普通、辞書の後ろにある索引のような「単語」と「ページ番号」だけのでなく、「単語の前後の文章」を含むような索引のこと KWIC indexは、単語についてソート&アラインメントされた索引リストのことを指す permuted indexとも呼ばれるらしい 1960年にLuhnによってconcordancerが作られたときにできた造語 アプローチ やりたいのは、任意のコーパスについて、 http://cha
CSAやFM-Indexの構築時にボトルネックとなる省メモリなBWTの構築方法について調べた。実際、SAから構築する方法だとInduced Sortingを使うわけだが、最終的なCSAやFM-Indexの結果に比べてメモリを使いすぎる。これはちょっと嫌がられる。今はメモリが安いとはいえ、個人で買えるサイズは数十GBだろうし、かなり投資できる会社であっても数百GBだろう。価格とのトレードオフを考えるとこのあたりが妥当だと思う。 ってことで、ここ最近の悩みは、BWTを構築する時の中間メモリのサイズだった。というのも、仮に中間メモリが元のテキストの5倍必要であれば、メモリ的には、10GB使えても、テキストとしては、2GBしか扱えないことになる。これはかなり無駄だと思う。2GBずつ作って、5個のCSAやFM-Indexにして、メモリに上げておくという方法も考えられるが、この場合、検索性能は、1/5
Using Python to see how the Times writes about men and women¶Neal Caren - University of North Carolina, Chapel Hill mail web twitter scholar Do men and women come up in different contexts in the newspaper? One quick way to answer that question is to compare the words in sentences that discuss women with the words in sentences that discuss men. Here's an example of how to do this sort of analysis u
さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。 ベイジアンフィルタの実装 ここから本格的にベイジアンフィルタの実装に入っていきます。 その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。 リスト2 文章の分割をする関数(naivebayes.py) # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)
一般化線型モデルと呼ばれる統計手法やその応用を紹介した本の書評。統計を使った学術研究がいかにいい加減なものであるか鋭く指摘している。 はじめに 『データ解析のための統計モデリング入門』という本を読んだので、その内容を簡単に紹介したい。この本では、一般化線型モデルと呼ばれる統計手法やその応用が紹介されており、R と WinBUGS というソフトが実際の解析に用いられている。 久保拓弥 (2012). 『データ解析のための統計モデリング入門―一般化線形モデル・階層ベイズモデル・MCMC』 東京:岩波書店. この本は、全般的に説明があっさりとしている。このため、一般化線型モデルをしっかり学びたいのならば、(英語で書かれた)厚めの教科書を読んだ方が良いと私は思う。ただし、この本は、統計を使った学術研究がいかにいい加減なものであるか鋭く指摘している。この耳に痛い指摘は、統計を使って仕事をする人にとっ
@tkngさんの力作「日本語入力を支える技術」が2/8に発売される。既に秋葉原のヨドバシ有隣堂や池袋のジュンク堂本店では早売りされている様子。ってことで早速購入してきた。 本書が扱うテーマはGoogleIMEのような「日本語入力」のシステム。これだけだとさして興味ないや、って人も多いかもしれない。ところがこの日本語入力というのは技術的には形態素解析に非常に近い。自然言語処理やテキストマイニングに関わる方にとっては形態素解析は最も基本的かつ重要な技術。その仕組みを知っておくのは非常に重要だと思う。 また日本語入力(形態素解析)は技術的には機械学習、グラフの最短経路問題、簡潔データ構造など多くの分野が関わっているので「日本語入力」を理解することでこれらの多くの基礎技術の具体例を体感できるというメリットがある。 そんな日本語入力をまとめて勉強できるのが本書「日本語入力を支える技術」である!ばーん
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く