What's New ¶ 2022.03.18 ワークショップは終了しました.沢山の方々のご参加ありがとうございました! また今後も様々なイベントを開催していく予定です.公式Twitterアカウント@jedws などをご覧ください. NLP2023 OKINAWAに合わせ,JED2023の開催を目指しています.来年は沖縄科学技術大学院大学(OIST)でお会いしましょう! 趣旨 ¶ 言語処理学会第28回年次大会(NLP2022) 併設ワークショップ - 日本語における評価用データセットの構築と利用性の向上(JED2022) 日本語NLP技術の性能評価のためのデータセットが近年いくつか公開されているが,他の言語と比べると基本的なタスクが不足しており,日本語NLPの迅速な発展を阻害する要因となっている.英語などのデータセットを日本語に翻訳するアプローチもあるが,翻訳プロセスに由来するアーティファ
医療記録の分かち書きを支援するために実践医療用語辞書ComeJisyoと、分かち書き結果から合成語を生成するツール「GoMusubi」を公開しています。 ComeJisyoは、形態素解析器MeCabのユーザ辞書として用います。 Mecabのシステム辞書IPA辞書の影響に加え、ComeJisyoの品詞誤りもあり、ComeJisyoの見出し語が過分割される場合があります。 そこで、解析結果の品詞を元に合成語を生成するツール「GoMusubi」を作成しました。 公開履歴 2021年 4月 Wcompounder_Ver.1.0 GoMusubi_Ver.2.0を構成するプログラムの内、合成語を生成するプログラムのソースコードを公開します。 動作環境 : Windows10(64ビット) 使用言語 : python3.8 2021年 4月 GoMusubi_Ver.2.0
Open Source Project on Multilingual Resources for Machine Learning The OSCAR project (Open Super-large Crawled Aggregated coRpus) is an Open Source project aiming to provide web-based multilingual resources and datasets for Machine Learning (ML) and Artificial Intelligence (AI) applications. The project focuses specifically in providing large quantities of unannotated raw data that is commonly use
ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート(本社:東京都千代田区、代表取締役社長:北村吉弘、以下リクルート)は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル(本社:東京都千代田区、代表取締役社長:淺野 健、以下リクルートライフスタイル)が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。 日本語の自然言語処理における課題 自然言語処理とは、私たちが日常的に使っている言語(自然言語)をコンピューターに解析させる一連の処理を指し
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く