2021年9月19日のブックマーク (4件)

  • 日本語・中国語・タイ語の係り受け解析モジュールesuparリリース(仮) | yasuokaの日記 | スラド

    9月14日・一昨日・昨日の日記の手法を一まとめにして、esuparというpython3モジュールとしてリリース(仮)した。日語と中国語(簡化字・繁体字および文言文/漢文)とタイ語の係り受け解析がおこなえる。Linux系OSなら $ python3 >>> import esupar >>> nlp=esupar.load("ja") >>> doc=nlp("太郎は花子が読んでいるを次郎に渡した") >>> print(doc) 1    太郎    _    PROPN    _    _    12    nsubj    _    SpaceAfter=No 2    は    _    ADP    _    _    1    case    _    SpaceAfter=No 3    花子    _    PROPN    _    _    5    nsubj   

  • ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.jsを作った

    概要 簡単に使える Pure JavaScript形態素解析器 kuromoji.js を書きました。今回は、簡単に kuromoji.js を紹介したあと、セットアップ方法を解説します。ついでにロードマップ的なものも晒してみます。みんなでブラウザ NLP しよう! kuromoji.js とは 言わずと知れた Java形態素解析器 Kuromoji を JavaScript に移植したものです。 kuromoji.js の GitHub リポジトリ と言っても、機械的に Java から JavaScript に置き換えたものではないため、API も違いますし、メソッド名やその内部も大幅に異なります。そもそも自分が形態素解析について勉強するために書き始めたため機械的なトランスレートに興味がなかったこと、また言語ごとに使いやすい API は異なると考えていることが理由です。 Node

    ブラウザで自然言語処理 - JavaScriptの形態素解析器kuromoji.jsを作った
  • 自然言語処理の基本に関するまとめ - Qiita

    ※2020年に発表されたGPT-32023年に発表されたGPT-4のようなLLM(大規模言語モデル)に関する説明は現在含まれていません。 LLMより前の自然言語処理の内容をまとめているためご注意ください。 はじめに 最近、自然言語処理始めました。 自然言語処理の分野自体、研究中ということもあり、日々情報が更新されたり、各ワードの関係性が全く分からなかったため、文章分類を軸に一通りの流れや関連するワードをまとめました。 間違った理解をしている場合は、ご指摘ください。 内容は時間が取れれば随時更新を行っています。 以下の悩みを抱えている人に役立つかと思います。 自然言語処理と機械学習を使って何かしたいけれども、一連の流れがわからない 各ワードは知っているけれども、どのように関連しているのかがわからない 流れは大体わかるけれども、具体的に何を使って何をすればよいかわからない 個々のワードで詳し

    自然言語処理の基本に関するまとめ - Qiita
  • 自然言語処理の分散表現(Word2Vec,fastText)の課題 : 新規事業のつくり方

    単語分散表現とは、単語の意味をベクトルで表現することです。単語埋め込み(Word Embedding)とも呼ばれます。単語を100~300の次元数で表現することが多いです。 分散表現(+自然言語処理の主な手法も)は、単語の意味は周囲の単語で形成されるという分布仮説を前提にしています。 なので、Wikipediaなど大量のテキストデータ(コーパス)を学習させれば、単語の意味が表現できるということです。 例えばWord2Vecは、周辺の単語から中心語を推論する(逆に中心語から周辺の単語を推論する方法もあり)ことで、単語をベクトル表現しています。 コーパスを読み込ませるだけで学習できるので、実務的にも利便性の高い手法です。分散表現の学習済みモデルを公開している団体も多数あります。 単語分散表現の利用例:単語間の類似度計算 単語分散表現は、単語の意味をベクトル(数値)で表現できます。代表的な利用ケ

    自然言語処理の分散表現(Word2Vec,fastText)の課題 : 新規事業のつくり方