Explore and run machine learning code with Kaggle Notebooks | Using data from Feedback Prize - Evaluating Student Writing
AI・機械学習チームで2021年新卒の氏家です。 この記事はエムスリーAdvent Calendar 2021の23日目の記事です。 最近チームでスタンディング&ステッパーが流行っているのでその流れに乗ろうと試みましたが、スタンディングの時点で挫折してしまいました。 さて、今回のテーマは自然言語処理です! AI・機械学習チームでは普段から自然言語処理をはじめとした機械学習を用いてプロダクトの開発・運用を行っています。 しかし、業務にあまり関係ない技術で遊びたい気持ちがあるのもまた事実。 そこで今回は、キーフレーズ抽出と呼ばれる技術に着目して、弊社に関連するデータに適用して遊んでみたいと思います。 キーフレーズ抽出とは 使用した手法 いざキーフレーズを抽出 テックブログ AskDoctors キーフレーズを使った応用 まとめ We are hiring! キーフレーズ抽出とは キーフレーズ抽
こんにちは。DSOC 研究開発部の高橋寛治です。 流行りの BERT(Bidirectional Encoder Represenations from Transformers) ですが、論文を読んだあと、マスク部分を当てるというサンプルを動かしその的確さに驚いたところで、手が止まっていました。 今回は、BERTの特徴である優れた言語モデルを利用して、日本語固有表現抽出器を作ってみました。 その手順をいくつかかいつまんで紹介します。 準備から学習 BERT の実装には、 Hugging Face, Inc. が提供する transformers ライブラリを利用します。 実装は、固有表現抽出のサンプルに準じて行います。 transformers ライブラリは、例によって pip install transformers で完了します。素晴らしい。 ディレクトリ構成のイメージ data デ
ACL 2019より以下の論文を紹介。 Tuning Multilingual Transformers for Language-Specific Named Entity Recognition この論文は、ロシア語、チェコ語、ブルガリア語、ポーランド語に対する固有表現認識をBERTを使って解いた論文。Googleの公開している多言語BERTを各言語のデータセットを使ってチューニングしたところ、多言語BERTをそのまま使うより良い結果となった。バルト系・スラブ系言語の自然言語処理を行うシェアドタスクであるBSNLP 2019の固有表現認識で1位だったとのこと。 BERTを使った固有表現認識の研究は多数あるが、ここで課題としているのは2点ある。一つは、オリジナルのBERTには今回対象とするスラブ系言語固有のサブトークンが欠けていることがある点。サブトークンが欠けているとテキストの分割に影
こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日本語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの
こんにちは。次世代システム研究室のT.I.です。 今回は近年、発展の著しい機械学習の分野として、自然言語処理について簡単に紹介し、鍵とな技術や最近の潮流についても手短にはありますが触れたいと思います。 自然言語処理とは? 文章を他の言語に翻訳したり、文章を生成したり、文章を読んで質問に答えるなど、自然言語処理のタスクは多岐に渡ります。 機械は言葉の意味をどう学習するか? 文章を機械学習モデルに入力するためには、文章を単語に分割し、それぞれに何らかのラベル割り振って入力します。しかし、これだけでは無味乾燥なラベルに過ぎず、文脈のなかで単語の持つ意味という情報を適切に処理することが必用となります.単語の意味というものは、どのようにして抽出すればよいのでしょうか?ひとの手で、同義語や反語などの辞書を作ることにはコストや曖昧さが残ります。 近年ではインターネットの発展により利用可能となった膨大なテ
本記事では、自然言語処理の手法である「BERT」を使い自然言語処理の代表的なタスクの一つである「固有表現抽出」を行った結果を紹介していきたいと思います。 固有表現抽出とは 固有表現抽出とは、テキストに出現する人名、地名などの固有名詞や日付や時間などの数値表現を抽出する技術手法です。 以下の文を例題に固有表現抽出を行います。 Taro is an employee of Insight Lab in Tokyo. 上記の文に対し固有表現抽出を行うと"Taro"が人名、"Insight Lab"が組織名、"Tokyo"が地名となります。 この技術を応用することで、上位概念での単語の検出などが可能になります。 使用するデータセット 今回利用するデータセットは「CoNLL 2003 shared task (NER) data」というデータセットを利用します。 こちらのデータセットは、多くの英文に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く