タグ

ScalaNLPに関するskozawaのブックマーク (3)

  • ScalaNLP/Breeze入門 1 – DSS Tech Blog

    はじめに 機械学習用途のOSSというと R や Weka などのツールが有名かと思います。それらの分析用ツールはデータの分析を主目的としており、弊社のようにアプリケーションへの組み込み用途が主になる場合や、論文などを読んでツールに無いアルゴリズムを実装してみようと思った場合などは、多少使いにくい部分も有ります。(なお Weka は Java から呼び出し可能なライブラリとして提供されていますが。) プログラミング言語から呼び出し易い数値計算のライブラリというと Python の SciPy, NumPy といった有名なライブラリ群があります。が、Scala を主たる開発言語としている弊社としては、出来れば JVM 上で動くライブラリを使いたいところです。 そういった目的の為のライブラリとしては Scala にも ScalaNLP/Breeze というライブラリがあります。ScalaNLP/

  • ScalaNLP

    ScalaNLP Scientific Computing, Machine Learning, and Natural Language Processing ScalaNLP is a suite of machine learning and numerical computing libraries. ScalaNLP is the umbrella project for several libraries, including Breeze and Epic. Breeze is a set of libraries for machine learning and numerical computing. Epic is a high-performance statistical parser and structured prediction library.

  • ScalaNLPのchalk/text を眺めてみた - haseの日記

    ScalaNLPのbreezeは以前紹介した通りですが、他のプロジェクトとしてchalkやnakがありました。 今回はchalkの中でもtext以下にあるプログラムがどんなことができるのか調べてみました。 ディレクトリを見ると、analyze、segment、tokenize、transformがあったので、1つずつ紹介します。 analyze PoterStemmer ポーターさんが提案したステミングアルゴリズムで、有名なアルゴリズムのようです。 ステミングというのは、「books」のような変化形を「book」のような原形に戻すことを言います。 自然言語処理では、基礎技術にあたり、大事な技術です。 ポーターのステミングは、経験則から作成したルールを数段階にわけて適用します。 chalkの実装を見ると、5段階で適用しているのがわかります。 segment JavaSentenceSegme

    ScalaNLPのchalk/text を眺めてみた - haseの日記
  • 1