タグ

nlpとdatabaseに関するmanabouのブックマーク (2)

  • 令和版単語親密度データベースの構築と語彙数推定テストの作成:NTT持株会社ニュースリリース:NTT HOME

    (報道発表資料) 2020年6月3日 日電信電話株式会社 令和版単語親密度データベースの構築と語彙数推定テストの作成 ~語彙数推定から学習支援へ~ 日電信電話株式会社(社:東京都千代田区、代表取締役社長:澤田 純、以下「NTT」)は、約20年前に作成した、単語のなじみ深さを示す単語親密度のデータベースを更新し、約16万3千語からなる『令和版単語親密度データベース』を構築しました。 また、小中高校生を含む約4,600人の語彙数調査を実施し、各学年・年齢における語彙獲得状況を、単語親密度に対応付けてモデル化しました。この結果は、児童・生徒がこれから獲得していくであろう、あるいは獲得した方がよい語を見つけ出す手がかりとして単語親密度が有効であることを示唆します。これらの分析結果を反映し、令和版語彙数推定テストを作成しました。 成果は、言語心理学や自然言語処理などの学術分野では、基盤的言語

    令和版単語親密度データベースの構築と語彙数推定テストの作成:NTT持株会社ニュースリリース:NTT HOME
  • Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ

    研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前(以下、材料名)の正規化があります。 クックパッドレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。 さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。 これは異表記同義(いわゆる表記揺れ)の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。

    Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ
  • 1