gengohouseのブックマーク / 2021年1月21日

略語復元ジェネレータ

> > このシステムでは略語を入力することで略す前の言葉を予想することができます。英字かカナで略語を入力して下さい。人名を調べることもできます。（例）ガラケー、BBQ

gengohouse 2021/01/21

リンク

KWDLC(京都大学ウェブ文書リードコーパス)を知って、意味関係解析に取り組もう - Qiita

この記事を書いた背景最近、KWDLCがNLPの初心者向けコーパスとして紹介される事例を何件か目にしたことから、その解説記事を書こうと思ったから。コーパス作成の背景等にも適宜触れますが、今回はどちらかというと、付与されているアノテーションの読み方や想定している使い方について説明します。論文(多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析,自然言語処理, Vol.21, No.2, pp.213-248, 2014.)に書かれてる内容にも触れますが、論文の側も参照していただけると理解が深まると思います。この記事を書いた人 KWDLCの最初のバージョンは私が博士課程の学生時代に作成しました。実際にアノテーションの作業をしてくださったのはアノテータの方々です。 KWDLCに利用する文章の選定および述語項構造のアノテーションの基準(doc/rel_guideline.

gengohouse 2021/01/21

リンク

RcppKagome - Rcpp経由でGoのライブラリを呼んで形態素解析するRパッケージ - Qiita

res <- RcppKagome::kagome("にわにはにわにわとりがいる") str(res) #> List of 1 #> $ :List of 6 #> ..$ 0:List of 5 #> .. ..$ Id : int 53040 #> .. ..$ Start : int 0 #> .. ..$ End : int 1 #> .. ..$ Surface: chr "に" #> .. ..$ Feature: chr [1:9] "助詞" "格助詞" "一般" "*" ... #> ..$ 1:List of 5 #> .. ..$ Id : int 80172 #> .. ..$ Start : int 1 #> .. ..$ End : int 3 #> .. ..$ Surface: chr "わに" #> .. ..$ Feature: chr [1:9] "名

gengohouse 2021/01/21

リンク

How to implement Japanese full-text search in Elasticsearch

全文検索は一般的に知られていますが、検索エクスペリエンスで非常に重要な役割を果たしています。ただし、日本語など、一部の言語では、全文検索を実装するのが難しい場合があります。このブログでは、日本語で全文検索を実装する際の課題を探り、Elasticsearchでこれらの課題を解決する方法をいくつか示します。全文検索とは？ Wikipediaより、下記が定義となります。全文検索とは、コンピュータにおいて、複数の文書（ファイル）から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。全文検索は、現在多くのデジタル体験を強化するものです。全文検索は、データセット内に隠れている可能性のある単語やフレーズを見つけようとしてくれます。例えば、ネットショッピングして「phone」を検

gengohouse 2021/01/21

リンク

Best known coreference resolution frameworks

gengohouse 2021/01/21

リンク

2021年に注目すべき12の最新技術ランキングとは？【ラックスリサーチ調べ】（Web担当者Forum） - Yahoo!ニュース

先端技術の事業性評価・動向調査を行うラックスリサーチは、「Foresight 2021：Top Emerging Techno logies to Watch（2021年に注目すべき主要技術）」という報告書で、今後10年間で世界に最も大きな影響を与えるであろう12の技術を発表した。独自開発のデータアナリティクスプラットフォーム「Tech Signal（テックシグナル）」によるデータ分析をもとに、自社の技術専門家であるアナリストが事業性などの最終的な技術評価を行い、ランキングを作成。1位から3位に選ばれた技術は以下の通りだ。 1. 自動運転車自動運転におけるすべてのレベルで安全性向上と効率化への取り組みが行われており、一般向け自動車及び商用車の両方に取り入れられている。レベル4およびレベル5の自動運転車が実現すれば、運転者が必要なくなることから、モビリティ全般や物流を大きく変えることとなる

gengohouse 2021/01/21

自然言語処理は何と２位らしい。

リンク

自然言語処理でウイルスの変異を予測＝MIT研究チーム

マサチューセッツ工科大学の研究チームは、自然言語処理のアルゴリズムを用いてウイルスの遺伝子の変化を読み解く手法を開発した。新型コロナウイルスの新たな変異種を予測し、特定する研究を加速させる可能性がある。 by Will Douglas Heaven2021.01.21 47 42 14 12 かつてガリレオは、自然は数学で書かれていると言った。生物学はもしかしたら言語で書かれるのかもしれない。今や自然言語処理（NLP）アルゴリズムは、タンパク質配列を生成し、新型コロナウイルス（SARS CoV-2）が免疫系を逃れるに当たっての鍵となる重要な変化をはじめとする、ウイルスの突然変異を予測できるようになった。こうしたことが可能になったのは、生物学的システムの特性の多くは単語と文章に翻訳可能だという重要な見識によっている。「私たちは進化の言語を研究しています」と、マサチューセッツ工科大学（MIT

gengohouse 2021/01/21

リンク

GitHub - ku-nlp/AnnotatedFKCCorpus: Annotated Fuman Kaitori Center Corpus

This is a Japanese text corpus that consists of Fuman (complaints) documents with various linguistic annotations. FKC stands for Fuman Kaitori Center, which is a Japanese consumer opinion data collection and analysis service. This corpus contains complaint documents with various genres, such as consumer electronics, hospital, information techno logy (IT), supermarket, trip, and traffic. It comprise

gengohouse 2021/01/21

リンク

AI翻訳の開発拠点　総務省が110億円、25年実用化へ - 日本経済新聞

総務省は人工知能（AI）を使った多言語同時翻訳プログラムの開発に乗り出す。約110億円をかけて研究開発拠点を整備する。2025年までに開発し、同年開催の大阪・関西万博での実用化を目指す。翻訳プログラムは米中などのIT（情報技術）大手も開発を競う。日本語翻訳の精度向上を狙う。総務省が所管する国立研究開発法人、情報通信研究機構（NICT）のユニバーサルコミュニケーション研究所（京都府精華町）のAI

gengohouse 2021/01/21

リンク

はてなブックマーク

タグ

2021年1月21日のブックマーク (9件)

略語復元ジェネレータ

KWDLC(京都大学ウェブ文書リードコーパス)を知って、意味関係解析に取り組もう - Qiita

RcppKagome - Rcpp経由でGoのライブラリを呼んで形態素解析するRパッケージ - Qiita

How to implement Japanese full-text search in Elasticsearch

Best known coreference resolution frameworks

2021年に注目すべき12の最新技術ランキングとは？【ラックスリサーチ調べ】（Web担当者Forum） - Yahoo!ニュース

自然言語処理でウイルスの変異を予測＝MIT研究チーム

GitHub - ku-nlp/AnnotatedFKCCorpus: Annotated Fuman Kaitori Center Corpus

AI翻訳の開発拠点　総務省が110億円、25年実用化へ - 日本経済新聞

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス