[B! 自然言語処理] makoto15のブックマーク

自然言語処理の餅屋

自然言語処理の餅屋は言語商会がWeb上の日本語の自然言語処理の情報をまとめたサイトで、リンク集(約2,700ページ)＋用語メモみたいな感じです。技術的な話題だけでなく、書籍や企業、研究室、Webアプリなども紹介しています。ちなみにですが、餅は売っていません。

makoto15 2022/05/22

自然言語処理

リンク

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo! JAPAN研究所で自然言語処理の研究開発をしている柴田です。私は自然言語処理の研究と、最新の自然言語処理技術を社内のサービスに適用できるようにする開発の両方を行っています。今日は後者の話をします。この記事ではBERTというモデルに焦点をあて、BERTの概要と、社内でのBERTの利用、最後に具体例として検索クエリのカテゴリ分類について紹介します。 ※この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 1. BERTとは 2018年にGoogleからBERT (Bidirectional Encoder Representations

makoto15 2021/12/20

リンク

TransformersのPipelinesで日本語固有表現抽出 - Retrieva TECH BLOG

こんにちは。TSUNADE事業部研究チームリサーチャーの坂田です。本記事では、Hugging Face 社が開発しているTransf ormersのPipelinesという仕組みを使って日本語の固有表現抽出を行う方法をご紹介します。 Transf ormersとは？日本語学習済み言語モデル Pipelines Trainer 固有表現抽出とは？実際に日本語NERTを試してみる必要な各種依存ライブラリのインストール使用するデータ日本語固有表現抽出データセットでのFine-tuning Pipelinesを使った固有表現抽出実行例おわりに参考 Transf ormersとは？ Transf ormersはHuggingFace社が公開しているPython用ライブラリで、BERTを始めとするTransf ormer系の言語モデルを使用する際のデファクトスタンダードになっています。また、最

makoto15 2021/09/01

リンク

SQLで始める自然言語処理 - やむやむもやむなし

こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス！ adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ

makoto15 2020/12/24

リンク

LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発　新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に

LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発　新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に従来の特化型言語モデルとは異なる、汎用型言語モデルを実現予定。処理インフラには世界でも有数の、700ペタフロップス以上の高性能スーパーコンピュータを活用 LINE株式会社（所在地：東京都新宿区、代表取締役社長：出澤剛）はNAVERと共同で、世界でも初めての、日本語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表いたします。超巨大言語モデル（膨大なデータから生成された汎用言語モデル）は、AIによる、より自然な言語処理・言語表現を可能にするものです。日本語に特化した超巨大言語モデル開発は、世界でも初めての試みとなります。従来の言語モデルは、各ユースケース（Q&A、対話、等）に対して、自然言語処理エンジニアが個別に

makoto15 2020/11/25

自然言語処理

リンク

Googleが公開した自然言語処理の最新技術、BERTとは何者なのか

3つの要点 ✔️ 自然言語の発展に大いに貢献 ✔️ 学習しなくても前に接続するだけで精度が向上 ✔️ 入出力に新規性 BERT: Pre-training of Deep Bidirectional Transf ormers for Language Understanding written by Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Submitted on 11 Oct 2018 (v1), last revised 24 May 2019 (this version, v2)) Comments: Published by NAACL-HLT 2019 Subjects: Computation and Language (cs.CL) はじめに 2019年2月に自然言語処理のトップカンファレンス

makoto15 2020/09/08

自然言語処理

リンク

人間参加型（human-in-the-loop）機械学習とは？

英語の自然言語処理に使える無料のオープンデータセットは、どこで探すのが一番いいでしょうか。 Lionbridgeチームはweb上を隈なく調べて究極のデータセットのリストを作成し、テキスト、音声スピーチ、感情分析の三つに分類しました。英語の自然言語処理向けテキストデータセット20のニュースグループ: 20の異なるニュースグループの約2万の文書コレクション。ロイター・ニュース・データセット: 1987年以降のロイターのテキストのデータセット。カリフォルニア大学アーバイン校のスパムベース: スパムのフィルタリングに役立つスパムメールの大型データセット。 Yelpレビュー: Yelpがリリースしたオープンなデータセット。500万を超えるレビューから成る。 WordNet:「synset」と呼ばれる英語の同義語グループの大型データセット。意味の異なる語句は別の「synset」に分類される。青

makoto15 2020/09/04

リンク

Philosophers On GPT-3 (updated with replies by GPT-3) - Daily Nous

Begin typing your search above and press return to search. Press Esc to cancel. Nine philosophers explore the various issues and questions raised by the newly released language model, GPT-3, in this edition of Philosophers On, guest edited by Annette Zimmermann. Introduction Annette Zimmermann, guest editor GPT-3, a powerful, 175 billion parameter language model developed recently by OpenAI, has b

makoto15 2020/08/03

リンク

人間と見分けが付かないほど高精度な文章を生成するAI「GPT-3」について哲学者らはどう考えているのか？

人工知能を研究する非営利団体のOpenAIが開発した言語モデル「GPT-3」は、人間が書いたものと見分けが付かないほど高精度な文章を生成できるとして大きな注目を集めています。そんなGPT-3によって提起されたさまざまな課題や議論について、9人の哲学者らが各々の意見を述べています。 Philosophers On GPT-3 - Daily Nous http://dailynous.com/2020/07/30/philosophers-gpt-3/ ◆1：ニューヨーク大学デイヴィッド・チャーマーズ教授チャーマーズ氏はGPT-3が基本的に前世代であるGPT-2の拡張バージョンであり、主要な新技術が含まれているわけではないと指摘。その一方で、GPT-3には1750億個ものパラメーターが含まれており、はるかに多くのデータで訓練されたことにより、これまで作られたAIの中で最も興味深いものの1

makoto15 2020/08/03

リンク

Why You Should Do NLP Beyond English

Natural language processing (NLP) research predominantly focuses on developing methods that work well for English despite the many positive benefits of working on other languages. These benefits range from an outsized societal impact to modelling a wealth of linguistic features to avoiding overfitting as well as interesting challenges for machine learning (ML). There are around 7,000 languages spo

makoto15 2020/08/02

https://twitter.com/y8o/status/1289771468469841920?s=21

自然言語処理

リンク

子供の言語獲得と機械の言語獲得

2016/03/17にPFIセミナーで話したスライドです。子供の言語獲得に関する非常に基本的な話と、関係しそうな機械学習の技術を紹介しました。素人なりのまとめなので、間違いなどご指摘いただけると助かります。Read less

makoto15 2020/07/28

自然言語処理

リンク

都立大自然言語処理研究室 - 自然言語処理を独習したい人のために

東京都立大学自然言語処理研究室（小町研）に入学する人たちは、入学後に自然言語処理・機械学習・プログラミングの基礎勉強会を行なうため、特に事前に学習することはありませんが、入学前に勉強しておいたほうがよいことはあるか、と問い合わせがあるので、自然言語処理の独習用の情報を書いておきます。（主に情報系以外の学部生を対象にしています。）近年の深層学習の発展に伴ってニューラル機械翻訳をはじめとした深層学習の研究をしたいという人がうちの受験希望者の大半ですが、深層学習の研究をしたい人はプログラミングと数学と英語のすべてがある程度できなければいけません。どれか1つでも足りないものがあれば、ほとんど研究できないと思ってください。これらは現在ほぼ未習の人が入学してから勉強して追いつけるものではないので、深層学習の研究がしたい、という場合はよくよく考えたほうがいいです。東大中山研の深層学習の研究がやりたい人

makoto15 2020/07/16

自然言語処理

リンク

生活と意見: ソーシャルディスタンスなどと称してユーザー名や文章にスペースを挟む行為についての苦情

covid19-twitter-research_01.md 生活と意見: ソーシャルディスタンスなどと称してユーザー名や文章にスペースを挟む行為についての苦情更新履歴 2020-05-13 追記継続して観測していて、対応が行われたアカウントの記録などを残している https://twitter.com/bulkneets/status/1259419102851903490 FAQとして「機械が人間の都合に合わせろ」に対する反論を取り急ぎ置いておく走り書きで書いた https://twitter.com/bulkneets/status/1260524434256879617 https://twitter.com/voqn/status/1259515760986095617 記事下部に、フィードバックなどを追記した。はじめにこの文章は mala (twitter: @bul

makoto15 2020/06/14

文字の間を空けることで「ソーシャルディスタンス」を表現している https://twitter.com/y8o/status/1271815741906415616?s=20

自然言語処理

リンク

自然言語処理 01 自然言語処理とは

【通信教育のフォーサイト】http://www.foresight.jp/?fmm=YT 次の講義　自然言語処理 02 自然言語処理の基礎　https://youtu.be/Gw_8ztraCrI ■フォーサイトAI講座の概要全3講座、合計約206分（3時間26分）、19本の動画をYouTubeで公開・「AIのビジネス応用」講座　講師：高木友博教授　8動画、合計約88分　「実際AIでどんなことができるのか？」という疑問に答える講座。・「自然言語処理」講座　講師：小町守准教授　7動画、合計約89分　「自然言語処理とは何か」から始まり具体的な手法を解説、深層学習への理解へと繋がっていく講座。・「機械学習入門」講座　講師：中谷秀洋氏　4動画、合計約29分　機械学習を学ぶ上で重要な手法「線形回帰」の概要を掴むことができる講座。 ■講師情報・「自然言語処理」講座　講師：

makoto15 2020/02/23

自然言語処理

リンク

Google社、自然言語処理研究のデモとして、文章を入力すると書籍内の適切な一節を表示する“Talk to Books”を公開

makoto15 2018/04/20

自然言語処理

リンク

#タモリ倶楽部風俗ビッグデータ！ 1020人のデリヘル嬢紹介文をテキスト分析ソフトで解析し「当たり」と「ハズレ」の嬢を見極める

ももひこ97 @momohiko97 #タモリ倶楽部 24時20分～24時50分今夜遂に大公開!!痴の巨人が解析したデリヘル・ビッグデータ!…最新分析ソフトがたたき出すお宝データ!!この言葉で紹介されているデリヘル嬢は「当たり」!? 2018-01-13 00:12:03

makoto15 2018/01/15

自然言語処理

リンク

Pythonで単語分散表現のクラスタリング - Ahogrammer

最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work

makoto15 2017/11/02

[

リンク

Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ

研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上クックパッドで以前から解決したかった課題の一つに材料の名前（以下、材料名）の正規化があります。クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。これは異表記同義（いわゆる表記揺れ）の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。

makoto15 2017/10/31

自然言語処理

リンク

運用で泣かないアーキテクチャで動く原稿作成支援システム　～リクルートにおけるDeepLearning活用事例～

Similar to 運用で泣かないアーキテクチャで動く原稿作成支援システム　～リクルートにおけるDeepLearning活用事例～

makoto15 2017/08/23

リンク

英文の自然言語処理におススメ！お手軽なPolyglotを使ってみた。 - astamuse Lab

こんにちは。白木（@YojiShiraki）です。デザイナーです。今日はPythonで英文形態素解析をする上でお手軽便利なpolyglotについて紹介します。背景当社ではデータを分析・解析する機会がままありまして、こうしたときに自然言語解析の処理のツールを利用しています。特に最近では英語データが多く、このあたりのツールのニーズが高くなっています。しかし、いざ英語の解析となると意外に情報がありません。例えば、日本語の解析ならMeCabやChaSen、Kuromojiといったものはすぐ見つかります。しかし英文の自然言語解析ではTreeTaggerの情報は目につくもののイマイチまとまった情報がありません（このページやこのページに他の選択肢がまとまっていますが）。おそらくこの領域ではNLTKが王道なのかと思いますが、やや重厚感あります。そこでもう少しライトなものをということでPoly

makoto15 2017/07/21

自然言語処理

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

自然言語処理に関するmakoto15のブックマーク (36)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス