LINE テクノロジー&エンジニアリング大全 LINEが日本語の大規模汎用言語モデルの構築を推進~LINE AIカンパニートップの砂金信一郎氏とNLPチームを率いる佐藤敏紀氏に訊く、大規模汎用言語モデルがもたらす価値 インタビュイー LINE AIカンパニーCEO 砂金信一郎氏(左)、 LINE株式会社NLP Development Team, Engineering Manager 佐藤敏紀氏(右) 日本語に特化した大規模汎用言語モデルとして、LINEで開発を進めているのが「HyperCLOVA」です。文章の作成や要約、人間との自然な対話などを実現するものであり、AIの適用範囲を大きく広げる可能性を秘めた技術だと言えます。このHyperCLOVAの開発背景や具体的な用途、今後の展開などについて、LINEの砂金信一郎氏と佐藤敏紀氏にお話を伺いました。 AIの民主化に寄与する大規模汎用言
全文検索における同義語展開の必要性 全文検索では、基本的に文字列のマッチにより検索を行います。しかし我々が言葉を扱うときには、同じものを違う表現で指し示すことが多々あります。 例えば「独占禁止法」と呼ばれる法律があります。これは経済憲法とも言われる大変重要な法律なのですが、日本では「昭和二十二年法律第五十四号(私的独占の禁止及び公正取引の確保に関する法律)」という法律がそれに該当し、独占禁止法という名前にはなっていません。これを皆、「独占禁止法」や「独禁法」といった代替可能な別表現(同義語)で呼んでいるわけです。 同法律には法令用語で言うところの「題名」は付されておらず、頭書の名称は制定時の公布文から引用したいわゆる「件名」である。独占禁止法ないし独禁法と略称されることも多い。 もし「独禁法」で検索して当該法律がヒットしなければ、ユーザーとしては不満足でしょう。検索システムのクオリティを向
What are the units of text that we want to model? From bytes to multi-word expressions, text can be analyzed and generated at many granularities. Until recently, most natural language processing (NLP) models operated over words, treating those as discrete and atomic tokens, but starting with byte-pair encoding (BPE), subword-based approaches have become dominant in many areas, enabling small vocab
これは、Sudachi開発元であるワークス徳島NLPの末席に連なっていた筆者による、個人的な覚え書きです。組織を代表した情報や意見ではなく、誤り等は全て著者個人の責任です。 筆者自身は辞書の開発には関わっていませんが、ほとんど知られていない、専門家達の仕事と悩みへ触れる機会になればと思い、執筆しました。 形態素解析器Sudachi Sudachiは、株式会社ワークスアプリケーションズの徳島人工知能NLP研究所が開発する形態素解析器です。形態素解析は、人間の言葉を機械で扱う自然言語処理において、多くの場合に基盤となる技術で、主には、テキストを分割する「Segmentation」、語形を辞書形にする「Stemming」、動詞や名詞といった品詞を付与する「Part-of-Speech Tagging」を行うものです。 世の中には多くの形態素解析器がありますが、その中でもSudachiの特色として
株式会社明治 経理業務の全領域で「HUE ACシリーズ」を採用。 年間54万枚の紙、2,400時間のファイリング作業を削減。 森永乳業株式会社 無償バージョンアップ、標準機能数を評価し、財務会計業務のデジタル化に「HUE ACシリーズ」を採用。 国内グループ全体への拡大も。
TL;DR sudachiの同義語辞書(synonym.txt)から同義語グループidと代表語の組み合わせを生成 生成した組み合わせをつかってsudachipyで簡易的に同義語辞書を使えるようにする 例としてわかちがき後同義語辞書をつかって正規化する 目的 テキストからの情報抽出やテキストの類似度計算などのタスクを行う際に、sudachiでの形態素解析で同義語を使いたかったのですが、sudachipyではsudachiの同義語辞書を利用できませんでした。 簡易的でいいので、sudachipyで簡易的に同義語辞書が使えるようにします。 今回の目的は、あくまでも形態素解析後の正規化です。特に、わかちがき後に同義語を同じ見出しに揃えることを目的としています。したがって、同義語の展開は行いません。 sudachiの同義語辞書 sudachiの同義語辞書はドキュメントによると、 Sudachi 辞書
TL;DR Sudachi同義語辞書を「Solr Synonyms形式」に変換して使う あくまで暫定的な使い方: 本来は形態素解析結果を元に厳密に展開されるべき ちゃんとしたフィルタープラグインは、徳島のSudachi公式がもうすぐ公開してくれるはず Sudachi同義語辞書とは ワークス徳島NLPが開発する、専門家の手による大規模で高品質な辞書 Apache2.0ライセンス、商用利用可 詳細は公式ドキュメントを参照のこと 同義語が単に羅列されているわけではなく、詳細化した同義関係が付与されています。 そして、この言語資源は定期的に専門家によりメンテナンス、更新されています。例えば、以下のような語も2020年7月のアップデートなどで追加されています; ... 023538,1,0,1,0,0,0,(医療),新型コロナウイルス感染症,, 023538,1,0,1,2,0,0,(医療),COV
検索チームの tanker です。 弊社のフルサポート形式の場合、スタッフがクライアントからどんな人に話を聞きたいか要望をヒアリングし、登録されているアドバイザーを専用の検索システムを使って探しています。 ただし、クライアントから出てくる単語とアドバイザーが登録している情報の単語は必ずしも一致していることはなく、漏れなく探し出すために表記ゆれや周辺単語を加えて検索することがリサーチマネージャー (RM) の方々の腕の見せ所とはなっています。一方で、そのスキルはどうしても経験を積んでいく必要があり、その支援として検索システム側でフォローするために同義語辞書の導入を検討しました。 蓄積されたアドバイザー情報や依頼情報から共起をとって弊社のサービスドメインに合わせた同義語辞書を作る方法もありますが、今回は一般公開されているデータを使ってみたいと思います。 ワークスアプリケーションズさんの Sud
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く