The selection of areas and methods is heavily influenced by my own interests; the selected topics are biased towards representation and transfer learning and towards natural language processing (NLP). I tried to cover the papers that I was aware of but likely missed many relevant ones—feel free to highlight them in the comments below. In all, I discuss the following highlights: Scaling up—and down
はじめに 本記事では2020年3月~6月にかけて開催され、約2200チームが参加したKaggleのコンペ Tweet Sentiment Extraction(通称Tweetコンペ)について、振り返りを兼ねてまとめたいと思います。 はじめに コンペ概要 データ データ数について Sentimentについて 元データについて 評価指標 BERTによるQ&Aアプローチ Question Answeringについて 本コンペにおけるアプローチ QAアプローチの課題 最後に コンペ概要 Tweetと正解ラベルの例 まず初めに本コンペのポイントをいくつか挙げます Sentimentラベルの与えられたTweetから、そのSentimentに該当する箇所を抜き出す課題。 アノテーションの問題で正解ラベルにノイズが多く含まれており、noisy labelへの対処もポイントとなった。 BERTやRoBERT
こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AIや人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日本語でのデータセットを作成してみました。これをきっかけに、日本語での名寄せというタスクの研究が進み分野が活性化することを
こんにちは。理系大学院で修業中のスーパーケロケロです。趣味で自然言語解析(NLP)の勉強をしています。最近、テキストに含まれた情報を有向グラフに変換するPythonライブラリーnaruhodoを作ったので、ライブラリーの紹介も兼ねて、テキストを有向グラフに変換する話を少ししてみたいと思います。 naruhodoのGithubリポジトリはこちら、最新バージョンはです。 自然言語解析の流れ 自然言語解析を料理に例えれば、入力されたテキストは収穫待ちのコムギのようで、そのままでは使えない。このコムギを形態素解析で脱殻し(形態素単位で分離)、さらに词类(Part-Of-Speech)や依存構造解析で小麦粉にしてから(文法情報の付与)、ようやくパンのような美味しい食べ物が作れる(実際の応用)。 テキストが処理されるごとに、使える情報が増えて、応用の幅が広げるわけです。 文=>木、文章=>有向グラフ
久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる
この記事について ノンパラメトリックベイズは分かりやすいチュートリアルは良く見かけるのですが、そこから一歩進んだ(日本語の)資料に行きつけなかったので、色々と論文読んで簡単に(数式を出さないで)まとめてみます。 ぶっちゃけるとCollapsed Variational Dirichlet Process Mixture Modelsの簡単な要約です。 あまり自信がないのでもし間違ってたりしたらご指摘お願いします。 前の記事よりはまともな説明ができれば...と思います。 Infinite Gaussian Mixture Model (IGMM) の情報まとめ - old school magic 事前知識としてノンパラベイズと変分推論の知識が必要ですが、ノンパラベイズは持橋さんの分かりやすい解説があるのでご紹介します。 最近のベイズ理論の進展と応用 (III) ノンパラメトリックベイズ デ
皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。本記事では、過去の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く