機械学習に関するdetteのブックマーク (13)

  • 低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer

    ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが、要するに低リソースかつノイジーなテキストに対する固有表現認識を上手くやるための方法だと考えればいい。手法としては言語モデルを事前学習して、それを使って固有表現認識するというもの。時代の異なる2つのデータセットに対して検証したところ、従来手法より良い結果となった。 昔のドイツ語に対する固有表現認識には3つの課題がある。一つはリソースの量が少ない点。現在よく使われているCoNLL 2003のデータセットと比べると、タグの付いたデータ量が少なく、その分難しくなっている。2つ目はテキ

    低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer
  • LSTMを超える期待の新星、QRNN - Qiita

    RNN「これってもしかして」 CNN「わたしたちのモデルが・・・」 「「入れ替わってる~~~!?」」 というわけでQRNN、QUASI-RECURRENT NEURAL NETWORKSとは、RNNの機構をCNNで「疑似的(QUASI)に」実装するというモデルです。これにより、既存のRNN(というかLSTM)が抱えていたいくつかの問題の解決を試みています。 元論文は以下となります。 QUASI-RECURRENT NEURAL NETWORKS 作者によるブログ 作者の方のブログにChainerのサンプルコードがあったので、それを元にTensorFlowで実装してみました。早く動かしたい!という方はこちらを見てみてください。 icoxfog417/tensorflow_qrnn (Starを頂ければ励みになります m(_ _)m) 記事では、この研究のモチベーションとそのアプローチについ

    LSTMを超える期待の新星、QRNN - Qiita
  • defragTreesがよさそう - Qiita

    ちゃお……† 今回はdefragTreesという機械学習ライブラリを紹介します。 defragTreesとは RandomForestやXGBoostなどに対して、できるだけ精度やカバレッジを下げないようにしつつ、モデルをシンプルに(ルールを減らす)表現する手法を使ったライブラリです。 ルールが少ないので人間が見たときのわかりやすさがあります。 たとえば、元はシンプルなデータ(Figure 1 の a)でもアンサンブル学習すると無駄に複雑になってしまうことがあります (Figure 1 の b)。そこで、defragTreesを使うとオリジナルと同じようなシンプルさになります (Figure 1 の c)。 コード: https://github.com/sato9hara/defragTrees 論文: https://arxiv.org/abs/1606.09066 使い方 from

    defragTreesがよさそう - Qiita
  • En Yüksek Kur Paykasa Bozdurma

  • [PDF] 最適化から見たディープラーニングの考え方 得居 誠也

    c � 1. 5 2011 10 [1] ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 2 10 [2, 3] 1 [4] [5] 2. x ∈ X y ∈ Y z = (x, y), Z = X × Y Preferred Networks 113–0033 2–40–1 4 tokui@preferred.jp S = {zi}N i=1 ⊂ Z f : X → Y F = {fθ|θ ∈ Θ} fθ ∈ F F zi S f z = (x, y) �(f, z) f(x) y ES(f) = ( � z∈S �(f, z))/N ES(f) f z = (x, y) E(f) = Ez[�(f, z)] E(f) E(f) f f [6] f� F f� F F ˆ fF E(f) E(f� ) E(f

  • 機械学習ツール最前線

    ここ1年ほど、人工知能、特に機械学習Machine Learning)に関する技術革新が著しい。ディープラーニング(多段のニューラルネットワークによる機械学習)が画像認識、音声認識で目覚ましい成果を挙げているのは、その象徴だ。 それに伴い、機械学習の機能を情報システムに組み込むツールも充実してきた。クラウドサービスして提供する「クラウドAI」を米IT企業が相次ぎリリースしたほか、大規模データを扱えるオープンソース実装も増えている。 特集では、主要な機械学習ツールの特徴や使いこなし方を解説する。 [6]国産の深層学習フレームワーク「Chainer」とは何か 稿では、Preferred Networks/Preferred Infrastructureが開発したディープラーニングの開発フレームワーク「Chainer」の概要を説明する。 2015.10.01 [5]NVIDIA DIGIT

    機械学習ツール最前線
  • 岩波データサイエンスって? - 岩波データサイエンス

    Q.雑誌なんですか? それとも? 「雑誌のような」です.電車の中や喫茶店で気軽に読んでいただけるようにA5版の雑誌のような体裁にし,短めの記事やコラムで構成しました.円城塔さんの掌編小説や計算機で作ったパズルも載せています.特集の部分はそれだけで買う価値があるようにきっちりと構成しますが,同時に気楽に手に取れて知的な面白さのあるものにしたいと思います. Q.毎月出るんですか? およそ4か月に1冊を予定しています.季刊というと3か月に1冊が普通なので,それより少し間隔が長くなります.いちおう第1期6巻となっていますが,どこまで続くかは読者の皆様の評価しだいです. Q.エンジニアと研究者が両方書いていますが,その意図は? 学術系の出版社の著者は大学の教員が多く,技術系の出版社の著者はエンジニアが主になりがちですが,このシリーズではいろいろな背景の方の書いたものをあえて混ぜることで,それぞれ

    dette
    dette 2015/10/02
    “どうやって円城塔さんに連載を頼んだのですか? ひ・み・つ”
  • 株式会社ALBERT(レコメンドエンジン)

    データ分析から導き出されたインサイト無しにAI人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

    株式会社ALBERT(レコメンドエンジン)
  • Adam論文概要とコード - Qiita

    最近、機械学習系のタスクから離れていて(ずっとRails書いてました...そろそろ機械学習界隈の世界に戻らんと...) まだAdamの論文読めてなかったので、読んで適当に実装してみました。 motivation 簡単に実装できて、計算効率が良くて、省メモリで、スケールの影響も受けにくくて、大規模なデータ/パラメタに対して適応的なモデルを作りたい Adamの名前の由来 Adaptive moment estimation Adamの利点 AdaGradとRMSPropの良い所を合わせ持った手法 AdaGradはsparse gradientに強い(が、一次モーメントのバイアス訂正項がないのでバイアスが非常に大きくなって、パラメタの更新が非常に大きくなる) RMSPropはオンラインで非定常な設定で強い(がバイアス訂正項が小さな値になるとstepsizeがバカでかくなる) 初期値を与える必要は

    Adam論文概要とコード - Qiita
  • データ分析のプロを目指すエンジニア必読の書 - ほくそ笑む

    福島真太朗『データ分析プロセス』を読みました。 データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行この商品を含むブログ (2件) を見る 「データ分析」とひとことで言っても、色々な人たちが色々な考え方で「データ分析」をやっていると思います。 その一大勢力として挙げられるのが「Excelで集計だけしてる人たち」です。これは特にマーケター出身の人が多いのではないでしょうか。*1 一方、最近のデータ分析界隈に増加していると思われるのが「機械学習ツールにデータを入れるだけ」の人たちです。 特にエンジニア出身の方が、上司に「データ分析が流行ってるみたいだから今日からデータ分析やって」と言われて泣きながらやっているケースが多いのではないかと。 そういう人たちは、機械学習についてある程度理解してお

    データ分析のプロを目指すエンジニア必読の書 - ほくそ笑む
  • 【機械学習】ディープラーニング フレームワークChainerを試しながら解説してみる。 - Qiita

    今話題のDeep Learning(深層学習)フレームワーク、Chainerに手書き文字の判別を行うサンプルコードがあります。こちらを使って内容を少し解説する記事を書いてみたいと思います。 (記事のコードの全文をGitHubにアップしました。[PC推奨]) とにかく、インストールがすごく簡単かつ、Pythonが書ければすぐに使うことができておすすめです! Pythonに閉じてコードが書けるのもすごくいいですよね。 こんな感じのニューラルネットワークモデルを試してみる、という記事です。 主要な情報はこちらにあります。 Chainerのメインサイト ChainerのGitHubリポジトリ Chainerのチュートリアルとリファレンス 1. インストール まずは何はともあれインストールです。ChainerのGitHubに記載の"Requirements" ( https://github.co

    【機械学習】ディープラーニング フレームワークChainerを試しながら解説してみる。 - Qiita
  • Topicに基づく統計的言語モデルの最前線 PLSIからHDPまで

    , 2006.3.13 Topic URL= http://www.mibel.cs.tsukuba.ac.jp/~myama/pdf/topic2006.pdf • – • ex. • – – – • • UM DM PLSI LDA [ 1999] HDP � �� �� �� �� �� ��������������������������������������������������������� Eurospeech 㖸㗀ቇળ⎇ⓥ⊒⴫ળ ᤐ ⛔ ⸘ ⊛ ⸒ ⺆ ࡕ ࠺ ࡞ 㑐 ㅪ ⺰ ᢥ ᢙ ࡐࠬ࠲࡯㒰ߊ㧕 1/2 • • n-gram – Noisy Channel Models – – • – – 2/2 • PLSI LDA Probabilisitic LSI Latent Dirichlet Allocation UM DM Unigram Mixtures Diri

  • Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはなし。

    Gradient Boosting Decision Tree(GBDT)を勉強したので、その概要とRでのパッケージの簡単な使い方を乗っけておきます。 1. そもそもGBDTってなんだよっていう話。 単純に言えば、複数の決定木を作成して、集団で学習させる方法の事です。 1決定木を作り、上手くモデルで説明が出来なかったobservationに対して重みを付け、重みのついた状態で次の木を作り、また重みを付けて・・・ というステップを指定した数分だけ繰り返します。 誤差に対して学習しなおしてくれるので、決定木よりもっと良いモデルが出来上がります。 理論の詳細はこちらのを参考にしていただければと。 英語版は著者サイトで無料公開されています。英語大丈夫な人はこちらを参照するとよいかと。 http://statweb.stanford.edu/~tibs/ElemStatLearn/ あとこのイ

    Gradient Boosting Decision Treeでの特徴選択 in R | 分析のおはなし。
  • 1