エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
GENIA Taggerで英語の形態素解析 | インサイドフラッギング
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
GENIA Taggerで英語の形態素解析 | インサイドフラッギング
大量の英文を形態素解析することになった。日本語ならMeCabを使ったことがあるのだけど、英語の形態素解... 大量の英文を形態素解析することになった。日本語ならMeCabを使ったことがあるのだけど、英語の形態素解析器についてはまったく知らないので調べてみた。ちなみに、形態素解析器は英語でPOS(Part of Speech) Taggerというらしい。Part of Speechは品詞のこと。 英語の形態素解析器がたくさんあるのはすぐわかったのだけど、自分が必要としているのは以下の2点。 各単語の原型(基本形)が取得できるもの 大量の英文を処理する必要があるため高速なもの。CまたはC++で書かれているものが望ましい。 最初は簡単に見つかると思っていたのだけど、意外にも原型(基本形)を返さないものが多く、さらに速度も考慮に入れると残ったのはGENIA Taggerだけだった。 GENIA Taggerは生物医学の文章に最適化されていて、ProteinやDNA, RNAなどがNamed Entityタ