タグ

2013年8月7日のブックマーク (5件)

  • http://mjin.doshisha.ac.jp/MLTP/index.html

    MLTP(MultiLingual Text Processor)は、個人研究のために作成した簡易ツールである。統計的テキスト解析の勉強を主な目的とした方々のため、無償でツールを公開する。需要に応じて、オープンソース形式でバージョンアップを行うことも念頭に入れている。使用者は次の条件の全てを受諾したものと看做する。 1. 法律上の請求の原因の種類を問わず、ソフトの使用によるいかなる損害に関しても一切の責任を負わない。 2. 営利目的の個人、法人、団体等が利益を得るためのいかなる直接・間接の使用も禁止する。 ツールの主な機能は、複数のテキスト(日語、中国語、韓国語、英語)について、テキスト単位に、文字、単語、品詞などの項目について集計し、結果を表形式で出力する。 MLTPは、Java言語で書かれており、jar形式でパッケージ化している。 MLTPのダウンロード ゼミ勉

  • KL展開 - [物理のかぎしっぽ]

    KL展開とは † Karhunen-Loeve展開の略でベクトルの分布を最も良く近似する部分空間を求める方法です. 例えば5つの要素を持つベクトルがいくつかある場合に,出来るだけ元のデータを失わないように 3つや4つの要素のベクトルで表そうといった手法です.圧縮やパターン認識の分野で用いられたりしています. 要するに元のデータの特徴を残し,あまり特徴と関係ないであろう部分を消してしまおうという処理です. 具体的には,画像であれば100×100ピクセルのグレースケールの画像であれば, 10000個のデータを持っていますが,これは10000次元の1点で表すことができます. 実際には10000次元で表すとベクトルは1個になってしまいKL展開をすることができないので, 10×10のブロックに分けて100次元のベクトルが100個ある,などと考えて処理します. そして次元を例えば70次元などに落とす事

  • 粗視化情報エントロピーによるグレースケール画像の定量化 福井大学 井上、平田

  • RとPythonによるデータ解析入門

    講演者: 椿 真史 氏 (産業技術総合研究所 人工知能研究センター 研究員) 概要: 講演では、創薬・材料科学への機械学習応用について紹介する。特に近年、グラフ構造データに対する深層学習手法であるグラフニューラル(畳み込み)ネットワークが流行しており、創薬や材料で扱われる分子化合物や結晶について、その物性や機能を高精度で予測できるようになってきた。その一方で、深層学習のモデリング自体が機械学習コミュニティのみで肥大化し、結果の解釈性だけでなく、量子物理・化学の観点から様々な問題もある。講演を通して、深層学習の科学データへの応用に関する正と負の側面について議論したい。 Link: https://stair.center/archives/events/ai-seminar-026

    RとPythonによるデータ解析入門
  • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

    一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

    単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ