タグ

NLPに関するtakuma510のブックマーク (51)

  • 大規模言語モデルの驚異と脅威

    2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを(Research Preview版ではあるが)無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転換点となり得ることは、驚異的なことである。講演では、ChatGPTがベースにしているInstructGPTを中心に、大規模言語モデルやプロンプト、人間のフィードバックによる強化学習などの技術を概観する。また、ChatGPTのような生成型の人工知能が社会やビジネス、学術にもたらす脅威について述べる。 https://aip.riken.jp/sympo/sympo202303/

    大規模言語モデルの驚異と脅威
  • GiNZAと患者表現辞書を使って患者テキストの表記ゆれを吸収した意味構造検索を試した - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームの中村(@po3rin) です。 好きな言語はGo仕事では主に検索周りを担当しています。 最近「医療言語処理」というを読んで、医療用語の表記ゆれ吸収や意味構造検索などについて学びました。 医療言語処理 (自然言語処理シリーズ) 作者:荒牧 英治発売日: 2017/08/01メディア: 単行 そこで今回はElasticsearchと患者表現辞書を使った意味構造検索がどのくらい実戦投入できるかを簡単に試したので、概要と実装方法を簡単にご紹介します。 患者テキストの表記ゆれ 患者テキストの表記ゆれとは MEDNLPの患者表現辞書 トークンによる検索の課題と対策の検討 主語が違うのにヒットしちゃう? 意味構造検索 係り受け解析と患者表現辞書を使った意味構造検索の実装 患者表現辞書を使った係り受け解析 患者表現辞書の表現をクエリに展開する

    GiNZAと患者表現辞書を使って患者テキストの表記ゆれを吸収した意味構造検索を試した - エムスリーテックブログ
  • ニューラル言語モデルの�研究動向(NL研招待講演資料)

    論文解説 EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

    ニューラル言語モデルの�研究動向(NL研招待講演資料)
  • リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開 | Recruit - リクルートグループ

    リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日語の自然言語処理ライブラリ「GiNZA」を公開 株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート(社:東京都千代田区、代表取締役社長:北村吉弘、以下リクルート)は、このたび、当社のAI研究機関であるMegagon Labsより、国立国語研究所との共同研究成果の学習モデルを用いたPython(※1)向け日語自然言語処理オープンソースライブラリ「GiNZA」(ギンザ)を公開しました。 1.背景 自然言語処理技術は、検索エンジンや機械翻訳、対話システム、顧客の声分析など生活・ビジネスにおけるさまざまなシーンで利用されています。自然言語処理を行うには、言語ごとに異なる語彙や文法体系を保持する言語リソースが必要です。日語テキストを解析するには、形態素解析(※2)や文節係り受け解析(※3)など複数の機能

    リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開 | Recruit - リクルートグループ
  • 畳み込みニューラルネットワークによるテキスト分類を TensorFlow で実装する · けんごのお屋敷

    先日、九工大や東工大などの学生さんが LINE Fukuoka に遊びにきてくれました。せっかく学生さんが遊びに来てくれるので LINE Fukuoka の社員と学生さんとで LT 大会をやろうという運びになって、学生さんは普段やっている研究内容を、LINE Fukuoka 側はなんでも良いので適当な話を、それぞれやりました。当日は私を含む LINE Fukuoka の社員 3 人と、学生さん 2 人の合計 5 人が LT をしました。詳細は LINE Fukuoka 公式ブログに書かれていますので、興味のある方は御覧ください。 [社外活動/報告] 学生を招いてのエンジニア技術交流会を開催しました。 LT に使った資料は公開してもいいよ、とのことだったので、せっかくなので公開。当日はテキスト分類のデモをやったのですが、残念ながらデモ環境までは公開できませんでした。ただ、ソースコードは gi

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • 行列とニューラルネットが手をつなぐ - 武蔵野日記

    昨晩から体調がまた悪化したが、情報理論の中間試験を準備しないといけないので、午前5時に起床して作業。しかしいろいろあって一時危ういことに。普段出席を必須としていないので、中間試験の日だけ来る学生もいるし、体調が悪いから、と延期できないため、相当焦る(試験問題を作るのも採点するのも大変だということ、理解していただきたい)。1学期に2回もそういう日があるとしんどいので、期末試験一発にしたほうが自分は楽だなぁ。学生はどっちが楽なのか分からないが……。 午前中、なんとか大学に来て無事中間試験を実施する(中間試験とはいえ、前半の45分は普通の授業)。 そういえば、夏のITエンジニアインターンの情報が集まる魔法のスプレッドシートに、インターンシップの内容や期間、報酬がまとまっているので、学部生たちに授業で紹介している。最近はインターンシップのでも待遇がかなりよいので、下手に夏休みを過ごすなら、こういう

    行列とニューラルネットが手をつなぐ - 武蔵野日記
  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • 日本語解析API、「gooラボ」で公開 形態素解析やひらがな化など

    NTTレゾナントは12月3日、日語解析技術に関するAPIを「gooラボ」で公開した。NTT研究所が開発し、長年「goo」で利用してきたAPIで、自社コンテンツを提供する企業やビッグデータ解析技術を求める企業などでの活用を想定している。 公開したのは、文字列を形態素に分割する「形態素解析」、2つの語句の類似度合いを算出する「語句類似度算出」、文字列から人名や地名、組織名などを抽出する「固有表現抽出」、漢字混じりで書かれた文字列をひらがなかカタカナに変換する「ひらがな化」のAPI。 今後も、企業や大学などからニーズが高い技術を公開し、オープンコラボレーションを加速するとしている。 関連記事 変わるAPIのエコシステム ヤフーはなぜ、検索APIを有料にしたか TwitterAPI利用制限が厳しくなり、ヤフーが検索API有料化を発表し……昨年は、大規模サービスのAPI公開姿勢に大きな変化があっ

    日本語解析API、「gooラボ」で公開 形態素解析やひらがな化など
  • 捗るリコメンドシステムの裏事情(ハッカドール)

    [DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...Deep Learning JP

    捗るリコメンドシステムの裏事情(ハッカドール)
  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

  • FSNLP Ch.3 Linguistic Essentials

    These slides were used for the presentation at tokyotextmining #3. Please let me know if you have any questions or comments.

    FSNLP Ch.3 Linguistic Essentials
  • Introduction to Automatic Summarization

    Tutorial on the topic of automatic summarization given at RANLP2009.

    Introduction to Automatic Summarization
  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン

  • テキストセグメンテーションの研究紹介 - Kesinの知見置き場

    自分の研究に間接的に使うことになって、最近勉強したのでメモ テキストセグメンテーションとは? 自然言語処理の一種で、ブログなどの色々なトピックがごちゃまぜに書かれている非構造な文書を、ニュースのようにトピックごとに分割する手法です。 例 こんな感じに、段落ごとにコロコロとトピックが変わる節操のないブログが記事があったとします。 旅行 旅行 スポーツ 仕事 スポーツ 旅行 旅行 テキストセグメンテーションはこのような非構造な文書を、トピックが変わったところで分割してくれます。 旅行 旅行 スポーツ 仕事 スポーツ 旅行 旅行 応用先 ではテキストセグメンテーションができると何がうれしいのか? 有望な応用先は、評判抽出、検索、要約といった他の自然言語処理の前処理に使用することです。自然言語処理の様々な手法は、1つ1つの文書に対して処理を行うように考えられていますが、あらかじめトピックごとに分割

  • [NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記

    この文章について 最近言語モデル方面にも少し興味があるので自分の知識を整理する意味で書いてみた。NLPは専門ではないので、おかしなことを書いてある可能性がありますがその場合はご指摘ください。 文章ではn-gramモデル、単語の出現確率がn-1個前の単語のみに依存するモデルを考える。 問題 who is * という文が与えられたときに*にくる文字の確率を求めることを考える。この場合だと*には例えばheが当てはまるかもしれないが, isが入ることはまずなさそうに思える。このことは文法的にも説明ができると思うが、文法のルールを作るのは大変だし、文法的に正しい単語の中でどれが出やすいかということはできない。 一方で機械学習を使った言語モデルの文脈では文法的知識を余り持たず、与えられたコーパスから自動的に出やすい単語/表現を学習する方針をとる。 最尤推定 一番簡単なモデルとしては最尤推定を使うもの

    [NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記
  • 確率的言語モデルによる自由発話認識に関する研究

    次へ: 目次 目次 確率的言語モデルによる自由発話認識に関する研究 博士(工学) 村上仁一 豊橋技術科学大学 論文要旨 確率的言語モデルによる自由発話認識に関する研究 日文音声入力においては、音声の持つ物理的特性に着目した音声認識装置の 限界を克服するため、日語の文法や意味を用いた自然言語処理を併用するこ との必要性が指摘されている。この場合の言語処理の方法として、多くの言語 モデルがあるが、大きく分類してルールベースの言語モデルと確率ベースの言 語モデルがある。 言語の確率ベースの研究を行なう場合、基的には大量のテキストデー タ量が必要である。英語ではデータベースの重要性が認識されていて古くから Brown corpusやAP corpusなどがあるが、しかし日語ではコンピュータに読 み込める形式で利用できる大量のデータベースが最近まで存在していなかった。 そのため、確率的な言語

  • LDA入門

    [DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP

    LDA入門
  • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

    株式会社ゴクロの中路です。 以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例 前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。 一方、LDAの場合は、 東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

  • Ngram言語モデルメモ - Negative/Positive Thinking

    はじめに 現在よく使われていると思われる確率的言語モデルについて簡単に調べてみたのでメモ。 Ngram言語モデルとは 例えば、「お酒が飲みたい」と「バリウムが飲みたい」という文章があった時に、前者の方がよく聞く文章で、後者はほとんど聞かない文章 上記のような「文章の出やすさ」を数学的モデルで表現したい 特に確率を使って表現したい(確率的言語モデル) 単語列が与えられたとき、その単語列の生起確率は 例えば「お酒/が/飲みたい」は、P(お酒が飲みたい)=P(お酒)*P(が|お酒)*P(飲みたい|お酒が) しかし、P(単語|ながーい文章)を求めるのは実際には難しい 単語の種類がmで単語列の長さがnならば、m^n通りをすべて計算して値を推定しなければならない→無理 Ngram言語モデルは、「各単語の生起確率は、直前の(N-1)単語までのみに依存する」モデル(Markovモデル) 2gram3gra

    Ngram言語モデルメモ - Negative/Positive Thinking