[B! NLP] takuma510のブックマーク

大規模言語モデルの驚異と脅威

2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを（Research Preview版ではあるが）無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転換点となり得ることは、驚異的なことである。本講演では、ChatGPTがベースにしているInstructGPTを中心に、大規模言語モデルやプロンプト、人間のフィードバックによる強化学習などの技術を概観する。また、ChatGPTのような生成型の人工知能が社会やビジネス、学術にもたらす脅威について述べる。 https://aip.riken.jp/sympo/sympo202303/

takuma510 2023/03/28

リンク

GiNZAと患者表現辞書を使って患者テキストの表記ゆれを吸収した意味構造検索を試した - エムスリーテックブログ

エムスリーエンジニアリンググループ AI・機械学習チームの中村(@po3rin) です。好きな言語はGo。仕事では主に検索周りを担当しています。最近「医療言語処理」という本を読んで、医療用語の表記ゆれ吸収や意味構造検索などについて学びました。医療言語処理 (自然言語処理シリーズ) 作者:荒牧英治発売日: 2017/08/01メディア: 単行本そこで今回はElasticsearchと患者表現辞書を使った意味構造検索がどのくらい実戦投入できるかを簡単に試したので、概要と実装方法を簡単にご紹介します。患者テキストの表記ゆれ患者テキストの表記ゆれとは MEDNLPの患者表現辞書トークンによる検索の課題と対策の検討主語が違うのにヒットしちゃう？意味構造検索係り受け解析と患者表現辞書を使った意味構造検索の実装患者表現辞書を使った係り受け解析患者表現辞書の表現をクエリに展開する

takuma510 2021/02/20

リンク

ニューラル言語モデルの�研究動向（NL研招待講演資料）

論文解説 EfficientViT: Memory Efficient Vision Transf ormer with Cascaded Group Attention

takuma510 2019/06/19

リンク

リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開 | Recruit - リクルートグループ

リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート（本社：東京都千代田区、代表取締役社長：北村吉弘、以下リクルート）は、このたび、当社のAI研究機関であるMegagon Labsより、国立国語研究所との共同研究成果の学習モデルを用いたPython（※1）向け日本語自然言語処理オープンソースライブラリ「GiNZA」（ギンザ）を公開しました。１．背景自然言語処理技術は、検索エンジンや機械翻訳、対話システム、顧客の声分析など生活・ビジネスにおけるさまざまなシーンで利用されています。自然言語処理を行うには、言語ごとに異なる語彙や文法体系を保持する言語リソースが必要です。日本語テキストを解析するには、形態素解析（※2）や文節係り受け解析（※3）など複数の機能

takuma510 2019/04/03

リンク

畳み込みニューラルネットワークによるテキスト分類を TensorFlow で実装する · けんごのお屋敷

先日、九工大や東工大などの学生さんが LINE Fukuoka に遊びにきてくれました。せっかく学生さんが遊びに来てくれるので LINE Fukuoka の社員と学生さんとで LT 大会をやろうという運びになって、学生さんは普段やっている研究内容を、LINE Fukuoka 側はなんでも良いので適当な話を、それぞれやりました。当日は私を含む LINE Fukuoka の社員 3 人と、学生さん 2 人の合計 5 人が LT をしました。詳細は LINE Fukuoka 公式ブログに書かれていますので、興味のある方は御覧ください。 [社外活動/報告] 学生を招いてのエンジニア技術交流会を開催しました。 LT に使った資料は公開してもいいよ、とのことだったので、せっかくなので公開。当日はテキスト分類のデモをやったのですが、残念ながらデモ環境までは公開できませんでした。ただ、ソースコードは gi

takuma510 2016/11/18

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

takuma510 2016/10/18

NLP

リンク

行列とニューラルネットが手をつなぐ - 武蔵野日記

昨晩から体調がまた悪化したが、情報理論の中間試験を準備しないといけないので、午前5時に起床して作業。しかしいろいろあって一時危ういことに。普段出席を必須としていないので、中間試験の日だけ来る学生もいるし、体調が悪いから、と延期できないため、相当焦る（試験問題を作るのも採点するのも大変だということ、理解していただきたい）。1学期に2回もそういう日があるとしんどいので、期末試験一発にしたほうが自分は楽だなぁ。学生はどっちが楽なのか分からないが……。午前中、なんとか大学に来て無事中間試験を実施する（中間試験とはいえ、前半の45分は普通の授業）。そういえば、夏のIT エンジニアインターンの情報が集まる魔法のスプレッドシートに、インターンシップの内容や期間、報酬がまとまっているので、学部生たちに授業で紹介している。最近はインターンシップのでも待遇がかなりよいので、下手に夏休みを過ごすなら、こういう

takuma510 2015/07/03

word2vec
NLP

リンク

言語処理100本ノック 2015

言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています

takuma510 2015/03/15

リンク

日本語解析API、「gooラボ」で公開　形態素解析やひらがな化など

NTTレゾナントは12月3日、日本語解析技術に関するAPIを「gooラボ」で公開した。NTT研究所が開発し、長年「goo」で利用してきたAPIで、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業などでの活用を想定している。公開したのは、文字列を形態素に分割する「形態素解析」、2つの語句の類似度合いを算出する「語句類似度算出」、文字列から人名や地名、組織名などを抽出する「固有表現抽出」、漢字混じりで書かれた文字列をひらがなかカタカナに変換する「ひらがな化」のAPI。今後も、企業や大学などからニーズが高い技術を公開し、オープンコラボレーションを加速するとしている。関連記事変わるAPIのエコシステム　ヤフーはなぜ、検索APIを有料にしたか TwitterのAPI利用制限が厳しくなり、ヤフーが検索API有料化を発表し……昨年は、大規模サービスのAPI公開姿勢に大きな変化があっ

takuma510 2014/12/03

リンク

捗るリコメンドシステムの裏事情（ハッカドール）

[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...Deep Learning JP

takuma510 2014/10/12

リンク

Java製形態素解析器「Kuromoji」を試してみる

概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。導入まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

takuma510 2014/07/25

リンク

FSNLP Ch.3 Linguistic Essentials

These slides were used for the presentation at tokyotextmining #3. Please let me know if you have any questions or comments.

takuma510 2013/09/19

リンク

Introduction to Automatic Summarization

Tutorial on the topic of automatic summarization given at RANLP2009.

takuma510 2013/09/19

NLP

リンク

テキストからの評判分析と機械学習

テキストからの評判分析と機械学習鍜治伸裕東京大学生産技術研究所講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習（ML）の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介評判分析を概観する評判分析はこんな技術 • 例： Yahoo!ブログ検索における「VAIO」の検索結果肯定的評判と否定的評判の書き込み数を集計して表示肯定的な書き込みと否定的な書き込みを分類して提示背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成，発信するコンテンツである点がポイン

takuma510 2013/09/19

NLP

リンク

テキストセグメンテーションの研究紹介 - Kesinの知見置き場

自分の研究に間接的に使うことになって、最近勉強したのでメモテキストセグメンテーションとは？自然言語処理の一種で、ブログなどの色々なトピックがごちゃまぜに書かれている非構造な文書を、ニュースのようにトピックごとに分割する手法です。例こんな感じに、段落ごとにコロコロとトピックが変わる節操のないブログが記事があったとします。旅行旅行スポーツ仕事スポーツ旅行旅行テキストセグメンテーションはこのような非構造な文書を、トピックが変わったところで分割してくれます。旅行旅行スポーツ仕事スポーツ旅行旅行応用先ではテキストセグメンテーションができると何がうれしいのか？有望な応用先は、評判抽出、検索、要約といった他の自然言語処理の前処理に使用することです。自然言語処理の様々な手法は、１つ１つの文書に対して処理を行うように考えられていますが、あらかじめトピックごとに分割

takuma510 2013/09/13

NLP

リンク

[NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記

この文章について最近言語モデル方面にも少し興味があるので自分の知識を整理する意味で書いてみた。NLPは専門ではないので、おかしなことを書いてある可能性がありますがその場合はご指摘ください。本文章ではn-gramモデル、単語の出現確率がn-1個前の単語のみに依存するモデルを考える。問題 who is * という文が与えられたときに*にくる文字の確率を求めることを考える。この場合だと*には例えばheが当てはまるかもしれないが, isが入ることはまずなさそうに思える。このことは文法的にも説明ができると思うが、文法のルールを作るのは大変だし、文法的に正しい単語の中でどれが出やすいかということはできない。一方で機械学習を使った言語モデルの文脈では文法的知識を余り持たず、与えられたコーパスから自動的に出やすい単語/表現を学習する方針をとる。最尤推定一番簡単なモデルとしては最尤推定を使うもの

takuma510 2013/09/11

NLP
n-gram

リンク

確率的言語モデルによる自由発話認識に関する研究

次へ: 目次目次確率的言語モデルによる自由発話認識に関する研究博士（工学）村上仁一豊橋技術科学大学論文要旨確率的言語モデルによる自由発話認識に関する研究日本文音声入力においては、音声の持つ物理的特性に着目した音声認識装置の限界を克服するため、日本語の文法や意味を用いた自然言語処理を併用することの必要性が指摘されている。この場合の言語処理の方法として、多くの言語モデルがあるが、大きく分類してルールベースの言語モデルと確率ベースの言語モデルがある。言語の確率ベースの研究を行なう場合、基本的には大量のテキストデータ量が必要である。英語ではデータベースの重要性が認識されていて古くから Brown corpusやAP corpusなどがあるが、しかし日本語ではコンピュータに読み込める形式で利用できる大量のデータベースが最近まで存在していなかった。そのため、確率的な言語

takuma510 2013/09/04

NLP

リンク

LDA入門

[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP

takuma510 2013/09/03

リンク

Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

株式会社ゴクロの中路です。以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。一方、LDAの場合は、東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

takuma510 2013/09/03

リンク

Ngram言語モデルメモ - Negative/Positive Thinking

はじめに現在よく使われていると思われる確率的言語モデルについて簡単に調べてみたのでメモ。 Ngram言語モデルとは例えば、「お酒が飲みたい」と「バリウムが飲みたい」という文章があった時に、前者の方がよく聞く文章で、後者はほとんど聞かない文章上記のような「文章の出やすさ」を数学的モデルで表現したい特に確率を使って表現したい(確率的言語モデル) 単語列が与えられたとき、その単語列の生起確率は例えば「お酒/が/飲みたい」は、P(お酒が飲みたい)=P(お酒)*P(が|お酒)*P(飲みたい|お酒が) しかし、P(単語|ながーい文章)を求めるのは実際には難しい単語の種類がmで単語列の長さがnならば、m^n通りをすべて計算して値を推定しなければならない→無理 Ngram言語モデルは、「各単語の生起確率は、直前の(N-1)単語までのみに依存する」モデル(Markovモデル) 2gram3gra

takuma510 2013/09/02

NLP
n-gram

リンク

はてなブックマーク

タグ

関連タグで絞り込む (29)

NLPに関するtakuma510のブックマーク (51)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス