こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス! adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。 しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー
Elasticsearchで今すぐ使えるビジネス向けトークナイザー『Sudachi』 https://github.com/WorksApplications/Sudachi 【京都開催】Elasticsearch勉強会 #elasticsearchjp https://www.meetu…
ELSには日本語解析プラグインが用意されています。 Japanese (kuromoji) Analysis Plugin | Elasticsearch Plugins and Integrations [6.1] | Elastic Java等で品詞分解する事ももちろんできますが、ELSのテンプレートを利用する事で、Kibana上で品詞分解表示などが出来ます。 この記事では、まずELSのテンプレートで登録するところまでをやります。 プラグインインストール Elasticsearchの日本語の形態素解析をする際に利用されるkuromojiは非常に便利ですが、その辞書であるIPADICは更新が止まっているためやや古い状態です。 その辞書を更新してくださった方がいらっしゃり、neologdとして公開されているためそれを導入して新語でもきちんと解析できるようにします。 neologdでkuro
The BigQuery team dropped a surprise — natural language querying in BigQuery! Because it’s still in private alpha, you may not be able to try it out yourself. So … next best thing, watch me try it out: How to use Data QnAThis is what I did: Enable the Data QnA feature (I didn’t show you this, but it’s from the IAM console, similar to any other Google Cloud feature)If the table you want to query is
急に冷え込んできてお布団が恋しい季節になってきました。 こんにちは。@Ssk1029Takashiです。 この記事は自然言語処理 Advent Calendarの6日目の記事になります。 qiita.com 全文検索システムは単語検索であることが多いですが、単語検索だけだと困ることもあります 症例検索を例にとって見てみましょう。 検索エンジンに以下の2つの文章が登録されているとします。 「ずっと胃がキリキリと痛い。ただ、熱は無く平熱のままだ。」 「昨日からとても頭が痛い。おまけに胃がむかむかする。」 この時、「胃が痛い」と検索したとき、通常の単語検索の場合だと両方ともヒットしてしまいますが、下の文章は意味としては異なる文章のためゴミになります。 この記事では、GiNZAとElasticsearchを使って意味的に正しい上の文章だけを拾ってくる仕組みを簡単に実現してみようと思います。 どうや
新型コロナ関係のツイートをひたすら集め続けて2か月以上経過して,データもだいぶ充実してきました.共同研究者にも配布を始めたのですが,どうもデータ収集サーバのTimeZoneが狂っていたらしく,時間については信用できないデータになっていたので,一生懸命再構築中.とほほ. さて,基本的にNLP(=自然言語処理)は苦手なんですが,新型コロナに関する感情がどのように変化しているのかを調べてみました. 結論から言えば, 先週末の連休で皆油断しているといわれていたけど,やっぱり油断してた.今はちょっと緊張感を取り戻しつつある気がする. 使ったデータは「新型肺炎 OR 武漢 OR コロナ(ウイルス OR ウィルス) OR コロナ OR ウイルス OR ウィルス OR COVIT19 OR COVIT-19」で検索したツイート1月16日~3月26日までのリツイート以外の18,471,700件.リツイートじ
近年、多くの企業が連日、AIやビッグデータ関連のリリースを出しておりまして、 それに伴い、データサイエンティストの市場価値も高まっている状況です。 しかしながら今後、AIが発達して自動でデータの収集や分析、可視化を行う世界が来た時、 データサイエンティストの価値とは何になるのでしょうか。 データサイエンティストとは、データサイエンティスト協会によると 統計・機械学習スキル x プログラミング(エンジニアリング)スキル x ビジネススキルを併せ持ったものとのことです。 では、それぞれのスキルをデータサイエンティストから除くと、 一体何者になるのでしょうか。ただの人でしょうか。 今後AIが担ういろんなものを除いてもそれでも残る価値、 それが将来的に必要な本質的な”データサイエンティスト”の価値なのかもしれません。 そこで今回は、 「word2vecを用いて、”データサイエンティスト”の価値を検
Gunosy DM #120 論文紹介 Attention and Engagement-Awareness in the Wild: A Large-...
LINEでClovaの開発をしている上村です。これはLINE Advent Calendar 2017の13日目の記事です。今日は文字列の話をします。 はじめに 与えられた文字列によく似たものを大きな文字列集合から探すということは、古典的でありふれていながら奥が深く難しい問題です。文字列の類似度を正確に見積もるには複雑な計算が必要ですが、膨大な量のコーパスが与えられたときも可能な限り高速に応答を返す必要があります。 検索する文字列の性質をよく把握することも、品質のよい類似文字列検索を行うためには極めて大切です。ここで、今回考える問題の例を見てみます。 この例では、1文字ずつ違いを見つけ出したり、単語単位で見たり、文全体が疑問文や否定文であるかどうかを調べ、それらを総合的に見ることで最終的な判断を下しています。文字だけを見た場合、1文字の違いによって全く違う単語になることは見つけられませんし
こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。 私たちの身の周りは、様々なデータで溢れています。 ある2つの異なるデータ集合を互いに紐付けたいこともよくあります。 どのように紐付けられるでしょうか。 一方のデータ集合から分類器をつくることができれば、分類結果を媒介として他のデータ集合とのマッチングができるかもしれません。 では、どうやって分類できるでしょう。 ここではSparkとHBaseを使って実装がシンプルで、文書分類でよく使われるナイーブベイズの分類器を実装してみます。 材料と調理器具 材料 特許の要約と分類のデータ 簡単のため以下のように正規化されたテーブル構造のデータがあるとします。 特許出願(appln)を親として、要約テキスト(appln_abstr)と、分類コード(appln_ipc)がぶら下がっています。今回使うのは右側の2つのデータのみで
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く