タグ

形態素解析に関するnama_tsuyamaのブックマーク (3)

  • 百人一首

    百人一首をクラスタリングしてみよう 形態素解析を使って階層的クラスタリング ここでは MeCab を使って百人一首の歌を形態素解析し,その結果に階層的クラスタリングを適用することで似た歌を探します. 目次に戻る MeCab の準備 まずはここを参考に MeCab をインストールし,mecab-python3 がインストールされていることを確認してください.なお Jupyter notebook 上でセルの先頭に ! を入力するコマンドはシェルコマンドと呼ばれます. !pip list Package Version ---------------------------------- ------------------- ...(中略)... mecab-python3 1.0.4 ...(省略)... 目次に戻る 百人一首のデータを読み込む まず,必要なモジュールをすべてインポートしま

    nama_tsuyama
    nama_tsuyama 2022/03/30
    「百人一首をクラスタリングしてみよう」
  • 形態素解析の過去・現在・未来

    某所で機械学習の講習会(?)のようなものをしたときの資料です. 機械学習によるデータ分析について,アルゴリズムやツールの使い方*以外*の部分で 重要だと思うことを重点的にまとめたつもりです. The document summarizes a research paper that compares the performance of MLP-based models to Transformer-based models on various natural language processing and computer vision tasks. The key points are: 1. Gated MLP (gMLP) architectures can achieve performance comparable to Transformers on most tasks,

    形態素解析の過去・現在・未来
  • 辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表

    Sematicsは6月15日,言語解析エンジンの最新版「Perceptron Engine」を発表した。語句の辞書データを使わずに解析するため高速という。同社の従来エンジン「Automaton Parser」で実現していた形態素解析と構文解析に加え,文脈解析と意味解析の機能を備えた。 同社の言語解析エンジンの特徴は,語句の辞書データを用いずに解析を行うこと。辞書が必要ないため,高速に処理できるほか,フット・プリントをコンパクトにできる。「(パソコンを使って)1センテンスを1000分の2秒で解析できる。500センテンスの解析は1秒で済む」(代表取締役の吹谷和雄氏)という。 同社が開発した第1号のエンジンであるAutomaton Parserは,統計的確率論によって,形態素解析と構文解析を実行するソフトである。語句を分割した最小単位である形態素ごとに分けて品詞を付与し,文節の係り受けを解析する

    辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表
    nama_tsuyama
    nama_tsuyama 2010/06/24
    結局、どうやって解析しているんだろう?
  • 1