サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
echizen-tm.hatenablog.com
コーパスと自然言語処理を読みました。 これは記憶の失われを防ぐためのメモです。 概要 どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した本。入門書としてもよさそう。手法に関してはあっさりめ 近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口の本はよさそう といいつつこの本には深の話題はほとんど出てこないけど・・・ メモ 第1章 コーパスと自然言語処理 前置き的なやつ 第2章 コーパスアノテーション基準 アノテーション間の互換性は大切 人間の読みやすさ、機械の読みやすさ、どちらも大切 XML形式、スタンドオフ形式(本文の外に本文の位置とアノテーションを書く) 短単位・長単位 主なコーパス:BCCWJ、京大コーパス、NAISTコーパス、GDAコーパス 第3章 形態素解析・品詞タグ付与・固有表現解析 コーパスっていうより一般的
SparkやMahoutで使えるALSというのがよくわかっていなかったので調べていたのですが、単にMatrix Factorization(MF)の学習法の名前でした。そういえば聞いたことある気がしてきた・・・。 それはそれとして、Sparkのドキュメントで紹介されていた、Collaborative Filtering for Implicit Feedback Datasetsという論文が面白そうだったので読んでみました。 Matrix Factorzationのようなレーティング予測よりも、普通の協調フィルタリングのようにレコメンドすべきかどうかを予測するほうが実用上重要だよね、という話。まさにそう思っていたので、読んでよかったと思える論文でした。 概要 MFはユーザによるレーティングが教師データとして与えられていて、これを予測します。このような問題設定をExplicit Feedba
Zero-Shot LearningというのをNLPの論文タイトルで最近よく見かけるので、気になっていました。なので、以下の論文を読んでみました。 Zero-Shot Learning with Semantic Output Codes たぶんZero-Shot Learningという名前の初出がこれだと思います(違っていたらすみません)。 Zero-Shot Learningというのは訓練データが全部のクラスを網羅していないような場合に、訓練データにないクラスが正解であるようなテストデータもきちんと分類できるようにする手法のようです。 って言っても訓練データにないのにどうやって学習するの、という感じです。これをクラスをただのラベルではなく特徴ベクトルで表現することで実現しているようです。 こうやって、データが「クラスを表すラベル」ではなく「クラスを表す特徴ベクトル」を推定できるように学
タイトルのとおりです。以下の論文を読みました。 Storing a Sparse Table with O(1) Worst Case Access Time [1,m]の自然数の集合に対するサイズnの部分集合があった場合にqが部分集合に含まれるどうかを知りたい、という問題を考えます。この操作をmembership(q)と書きます。 単純に部分集合に含まれる数をソートして並べた場合、データサイズは数を入れる箱(セル)がn個あればよいです。しかしmembership(q)をやるには二分探索が必要なので時間計算量がO(log n)かかります。 これに対して提案手法はデータサイズが高々セル6n個になるかわりにO(1)でmembership(q)ができます。要素数nの部分集合に対して普通の(完全ではない)ハッシュ関数を用意して、衝突した数の集合に対して完全ハッシュを用意する。という仕組みです。 せ
前から気になっていたのですが、読んでいなかった Factorization Machines [S. Rendle, 2010] を読みました。 論点が明確で非常に読みやすい論文でした。それだけでなく手法自体もシンプルかつ効果的で極めて良いように思いました。私が好きなタイプの手法で、もっとはやく読んでおけばよかったという気持ちです。 提案から6年経っているので、もしかしたら今はもっと良い方法があるかもしれないのですが、自分の頭を整理する意味でもメモを書いておきます。 概要 Factorization Machines (以下FM) は、組み合わせ特徴量を扱う教師あり学習のモデルです。 特徴量ごとに 次元ベクトルの重みを持たせて、組み合わせ特徴量の重みを という内積で表現することで、組み合わせ特徴量の疎になりやすいという問題を解決しています。 学習はSGDなどのオンライン学習が利用でき、1回
このページを最初にブックマークしてみませんか?
『echizen-tm.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く