タグ

ブックマーク / www.chokkan.org (6)

  • Não Aqui! » 東北大学情報科学研究科に准教授として着任しました

    日、東北大学で辞令交付式があり、情報科学研究科の准教授に任命されました。今後は、乾健太郎さん、研究室の学生・スタッフさんと一緒に、自然言語処理や知識処理の研究を進めていきます。 この日を迎えられたのも、諸先生・先輩・同僚・学生・友人の皆様のお陰です。全員挙げるとキリがないくらい、いろいろな方にお世話になりました。これから約10年間が、自分にとって当に大切な時期だと考えていて、これまで以上に研究と教育に打ち込んで行こうと思いますので、ご指導・ご支援をよろしくお願い致します。

    mrorii
    mrorii 2011/04/03
  • Classias - A collection of machine-learning algorithms for classification

    A collection of machine-learning algorithms for classification Classias is a collection of machine-learning algorithms for classification. Currently, it supports the following formalizations: L1/L2-regularized logistic regression (aka. Maximum Entropy) L1/L2-regularized L1-loss linear-kernel Support Vector Machine (SVM) Averaged perceptron

    mrorii
    mrorii 2010/05/10
  • Não Aqui! » Classias 1.0 released

    Classiasという分類のための機械学習アルゴリズムの実装を公開しました.今のところ,L1/L2正則化ロジスティック回帰(最大エントロピー法),L1/L2正則化L1損失線形カーネルサポートベクトルマシン(SVM),平均化パーセプトロンをサポートしています.学習アルゴリズムとしては,平均化パーセプトロン,L-BFGS法,OWL-QN法,Pegasos,Truncated Gradient(L1-FOLOS)を実装してあります.カーネルは使えませんが,線形識別モデルを高速に学習できるようになっています.二値分類,多クラス分類,候補選択(明示的に与えられた候補の中からスコア最大のものを選ぶタスク)をサポートしています(SVMは今のところ二値分類のみ). このツールはもともと,最大エントロピー法を自分で使うために実装したもので,作り始めてからもう2年くらい経過しています.去年のColingやEM

  • Não Aqui! » DASTrie 1.0 released

    Static Double Array Trie (DASTrie) という静的ダブル配列のライブラリをリリースしました.ダブル配列の実装はいろいろありますが,このライブラリの特徴を以下に挙げます. C++テンプレートを利用して,std::mapのような連想配列,std::setのような集合を簡単に実装できる. ダブル配列の要素を4バイト,もしくは5バイトで表現し,データベースをコンパクトにする(通常の実装では要素サイズは8バイト). 最小接頭辞トライを実装し,データベースのサイズをコンパクトにする. よくあるダブル配列の実装では,レコードのキーとユニークなIDがトライの中に格納され,レコードのデータは配列などで独自に管理する必要があります.DASTrieはC++のテンプレートで,任意のデータ型をレコードとして使い,レコードをトライの中に格納するので,連想配列として簡単に利用できます.もち

    mrorii
    mrorii 2010/03/09
  • Não Aqui! » SimString (類似文字列検索ライブラリ) 1.0 released

    SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基中の基で,自然言語処理では当たり前のように使われていてもおかしくな

    mrorii
    mrorii 2010/03/09
  • Não Aqui! » 10行強で書けるロジスティック回帰モデル学習

    ロジスティック回帰(logistic regression)の学習が,確率的勾配降下法(SGD: stochastic gradient descent)を使って,非常に簡単に書けることを示すPythonコード.コメントや空行を除けば十数行です. リストの内包表記,条件演算子(Cで言う三項演算子),自動的に初期化してくれる辞書型(collections.defaultdict)は,Python以外ではあまり見ないかも知れません. リストの内包表記は,Haskell, OCaml, C#にもあるようなので,結構メジャーかも知れません. [W[x] for x in X] と書くと,「Xに含まれるすべてのxに対し,それぞれW[x]を計算した結果をリストにしたもの」という意味になります.sum関数はリストの値の和を返すので,変数aにはXとWの内積が計算されます. Pythonでは,三項演算子を条

  • 1