自然言語処理の分野で昔から研究され、実際に使われている技術として固有表現認識があります。固有表現認識は、テキスト中で固有表現が出現する位置を特定し、人名や地名などのラベルを付与するタスクです。情報抽出や質問応答、対話システムなどへの幅広い応用が可能なため、今でも盛んに研究され、使われている技術です。本記事では、日本語の固有表現認識をFlairと呼ばれるPythonパッケージを使って実現する方法について紹介します。 準備 本記事では Flair を使って固有表現認識のモデルを学習させます。Flairは最先端の自然言語処理のモデルを簡単に使い始められる形で提供してくれているパッケージです。その中で提供されている機能として、固有表現認識や品詞タグ付け、文書分類のモデルを学習するための機能があります。使い始めるために、以下のようにしてFlairをインストールしておく必要があります。 $ pip i
この記事の目的 最近, Pythonで日本語での固有表現抽出(Named Entity Recognition; NER)を簡単に使いたいなと思っていろいろ探していたろころ, GiNZAというものを知ったので使ってみました. ちなみに, 固有表現抽出は自然言語処理のタスクの1つで, 以下の図のように日付や人物など, 特定の単語を検出するもののことです. GiNZAについて GiNZAは自然言語処理(Natural Language Processing; NLP)を行うためのライブラリの1つで, 固有表現抽出以外にも様々なタスクをこなすことができます. 正確には, spaCyという自然言語処理ライブラリがあるのですが, その日本語処理部分を担当しているといった感じです. そのため, spaCyの使い方がわかる方なら早いと思います. 詳細は, 以下をご確認ください. 今回は固有表現抽出に限っ
Amazon Web Services ブログ 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの
NTTデータ先端技術株式会社(以下:NTTデータ先端技術)は、バックオフィス業務の自動化、効率化に向けた先進自然言語処理ソリューション「PhroneCore(TM)(プロネコア)」を12月より提供開始します。 「PhroneCore」は、バックオフィス業務に必要となる文書分類、知識読解、自動要約などさまざまな言語理解が可能な各種AI機能を具備し、必要に応じた機能のみを組み合わせて活用できることで、コストを抑えながら業務への迅速なAI適用を実現します。 「PhroneCore」では、文脈を理解することができる最新の自然言語処理技術「BERT」*1を活用しており、少ない学習データでも高精度な文書理解が可能で、営業日報や請求書等の内容分析等、文書の整合性やリスクチェック等、幅広いバックオフィス業務の自動化・効率化を実現します。 また文書の知識化を半自動化する技術「知識グラフ」を活用することで、人
こんにちはJun(@JunNomad)です。 プログラミング学習をしていると様々な専門的な言葉に出会うことになるかと思います。 今回は「自然言語処理(Natural language processing)」についての概要をご紹介していきたいと思います。 自然言語処理は、簡単にいうと「人間の言葉をコンピューターに理解してもらうための技術」です。 人間が発した言葉をそのままコンピューターが自動的に理解してくれれば良いのですが、コンピューターが処理出来るようにするためには、様々な技術を駆使して人間の意思を理解してもらう必要があります。 自然言語とは 自然言語というのは「日本語」や「英語」といった人間が意思疎通をとるために日常的に利用されている「言語」のことを指します。 これに対しコンピューターが理解するためには、「人工言語(Artificial language)」が必要となります。 プログラ
NICTが開発したアプリ「VoiceTra」。翻訳結果の逆翻訳が表示され、誤訳を防げる(撮影/小原雄輝) 隅田英一郎さん(撮影・片山菜緒子) AI(人工知能)の進歩により、翻訳精度が向上している自動翻訳。ドラえもんの「ほんやくコンニャク」のように使える日は来るのだろうか。現在発売中の『AERA English 2020 Autumn&Winter』では、日本の自動翻訳技術の第一人者に、自動翻訳の最新事情について取材した。 【写真】隅田英一郎さん * * * 音声や文章を入力するだけでAIが翻訳してくれる自動翻訳。それらを搭載した翻訳機やアプリを使ったことはあるだろうか。本誌のアンケートでは、約7割が使ったことがあると回答。一昔前は誤訳や不自然な訳文になることが多く、「いま一つ」のイメージが強かった自動翻訳だが、近年は翻訳精度が大きく向上している。 なぜ自動翻訳はここまで進歩したのか。自
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く