2020年7月15日のブックマーク (9件)

  • 【まとめ】自然言語処理における単語分散表現(単語ベクトル)と文書分散表現(文書ベクトル) - Qiita

    自分のメモ代わりに作ったので間違いがあるかもしれません。また、説明が雑な部分もあります。 歴史が分かるように各手法が提案、公開された年も記載しています(※CNN、RNNは理論が発表された年にしています)。 2013年にGoogleのMikolovさん達がWord2Vecを提案して一躍有名に。 「王様」ー「男性」+「女性」=「お姫様」 のように単語の足し算、引き算ができるという画期的な成果を残した。 最初(2013〜2017年頃)は文脈依存なしの分散表現しかなかった。 文脈依存なしの欠点(※後述)を克服するという観点で、2017年以降文脈依存ありの手法が提案され始めた。 文脈依存なし Word2Vec(2013年) 一番有名。Googleの研究者たちが提案。 日語モデルは東北大学や企業が公開済み。 http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawi

    【まとめ】自然言語処理における単語分散表現(単語ベクトル)と文書分散表現(文書ベクトル) - Qiita
  • PythonとMeCabで形態素解析(on Windows) - Qiita

    はじめに Windowsでの形態素解析環境の構築を手伝うことが多くなってきたので、 一連の流れをまとめて備忘録的に書き留めておくことにしました。 以下、Python上で形態素解析器MeCabを使って 形態素の一覧出力が出来るようになることを目標に話を進めていきます。 導入するもの一覧 Anaconda3 64bit MeCab 0.996 64bit mecab-python-windows Anacondaのインストール Pythonの統合環境であるAnacondaのインストールを行います。 Anacondaは、以下のURLからダウンロードできます。 ダウンロードする際は、3.x の最新バージョンを使用OSのbit数に応じて選択してください。 記事においては、3.xの64bit版の環境を想定して話を進めていきます。 なお、2.xの古いバージョンを使うことも出来ますが、サポートが限定され

    PythonとMeCabで形態素解析(on Windows) - Qiita
  • R のテキストマイニングのやり方 - 統計ER

    Rでテキストマイニングするやり方。 ワードクラウドを描く方法。 >>もう統計で悩むのを終わりにしませんか? ↑1万人以上の医療従事者が購読中 テキストマイニングとは? テキストマイニングツールMeCab(和布蕪、めかぶ) RでMeCabを使うにはRMeCabをインストール! Rでテキストの分割をしてみる ワードクラウドとは? Rでテキストマイニングするその他の方法 まとめ Rでテキストマイニングをやろう!ワードクラウドを描こう!【解説動画】 MacでMeCabをインストールしたが文字化けるときの対処法【解説動画】 テキストマイニングとは? テキストデータを名詞、動詞、形容詞など、濃い意味合いを持つ言葉と、助詞、助動詞、感嘆詞、疑問詞など意味合いが強くない言葉に分けて、発生頻度を分析する方法。 たくさんの顧客・症例から発せられる言葉は何か、同時に発せられる言葉は何か、たくさん発せられた言葉は

    R のテキストマイニングのやり方 - 統計ER
  • 「言語処理10本ノック 2020」をC++で - プログラミング素人のはてなブログ

    upura.hatenablog.com nlp100.github.io U++さんのところで見つけたので挑戦してみました。(最初の10だけ) C++の文字列処理が苦手なのでやってみました。Atcoderなどでも文字列の処理は重要なので、ちょうどよい題材です。 01、02は日語が含まれていますが、C++の日語は闇が深いので、問題の意図を変更しない範囲でアルファベットや数字に置き換えました。 また、#includeは省略しますが、以下のようなものを使っています。 #include <iostream> #include <algorithm> #include <vector> #include <numeric> #include <map> #include <random> using namespace std; やってみた 00. 文字列の逆順 文字列”stressed”の

    「言語処理10本ノック 2020」をC++で - プログラミング素人のはてなブログ
  • 金融機関とともに自然言語処理技術の極みへ - bp-A ニュース | Business & Public Affairs Web Site

    人が日常的に使っている言語をコンピュータで処理する。自然言語処理(NLP技術の活用がビジネス界に広がりつつある。顧客コンタクトセンターでの1次受付、Webサイトのチャットボットなどから違和感をなくす基盤がNLPだ。 金融業界でもチャットボットによる顧客対応高度化や、審査支援等にそれが活用されているが、業界特有の用語や言い回しが多く、辞書整備や多数のルール構築を要する、NLPの適用には多大な労力と時間がかかっている。文脈を読める新NLPモデル――Googleが開発したBERTを適用するにしても、大規模なコーパス(言語資料の集合体)で学習させた日語モデルはまだ少ないという(コーパス例@GitHub)。 NTTデータは10日、金融版BERTを用いた自然言語処理技術に関して、銀行や証券会社などの金融関連企業を募り、今月以降順次、実証を開始すると発表した。金融版BERTは、NTT版BERT(NT

    金融機関とともに自然言語処理技術の極みへ - bp-A ニュース | Business & Public Affairs Web Site
  • Boxに保存した社内資料をレコメンド可能に テキスト解析で提案営業をサポートするプラットフォーム「Asales」

    ストックマーク 日語の文章を解析するAI(=自然言語処理技術)を用いて、企業のDXや組織変革、営業業務変革に貢献するSaaSを提供しているストックマーク株式会社(東京都港区:代表取締役CEO 林 達、以下ストックマーク)は、セールスなどの提案資料や社内資料を自然言語処理技術で学習・解析し、売上拡大のために必要な社内ナレッジを共有・レコメンドするWebサービス「Asales」がクラウド・コンテンツ・マネジメントサービスのBoxとエコシステムソリューションとしてシステム連携したことをお知らせいたします。 Asalesは、ファイルの内容を最先端の自然言語処理技術で解析、お客様の課題や自社の強み・ソリューションにつながる内容を自動タグ付けし、提案に必要な“勝てる”スライドを1ページ単位でレコメンドすることで、社内ナレッジシェアと提案業務の高度化/品質向上を実現するサービスです。 https://

    Boxに保存した社内資料をレコメンド可能に テキスト解析で提案営業をサポートするプラットフォーム「Asales」
  • NECとコエドブルワリー、雑誌記事をAIで分析し世代の特徴を表現したクラフトビール「人生醸造craft」を開発

    NECとコエドブルワリー、雑誌記事をAIで分析し世代の特徴を表現したクラフトビール「人生醸造craft」を開発~人とAIの協調で世代間コミュニケーションを促進~ 日電気株式会社(注1、以下 NEC)とクラフトビールメーカーである株式会社協同商事 コエドブルワリー(注2、以下 コエドブルワリー)は、人とAIの協調による世代間コミュニケーションの促進を目的に、トレンドを反映する雑誌記事をAIで分析し、世代の特徴を表現したクラフトビール「人生醸造craft」を開発しました。コエドブルワリーは商品を、日からコエドビールオンラインショップで販売開始します。 ※クラフトビールとは酒税法上、ビールと発泡酒などを指しますが、「人生醸造craft」にはビールと発泡酒が含まれます。 「人生醸造craft」製品写真 「人生醸造craft」の開発には、NECの最先端AI技術群「NEC the WISE」(注

    NECとコエドブルワリー、雑誌記事をAIで分析し世代の特徴を表現したクラフトビール「人生醸造craft」を開発
    gengohouse
    gengohouse 2020/07/15
    自然言語処理とビールの商品開発というのは初めての組み合わせかも。
  • 人工知能エンジン「MUSE」がPepperに対応

    AKAは7月14日、同社が開発する人工知能を活用した英語学習ソリューション「MUSE」(ミューズ)の英語学習機能を、ソフトバンクロボティクスが販売する人型ロボット「Pepper」に搭載できるようになったことを発表した。 今回搭載された機能は3つ。「AI Free Chat」は自然言語処理技術を用いた人工知能エンジンMUSEでの自然な英会話を提供する上級者向けチャット機能で、幅広い話題での自由会話ができるとしている。 「Learner's Chat」はAI Free Chat機能と同様の技術を用いた初心者向けチャット機能で、320以上のトピックやシチュエーションから会話内容を選択し、実践的な会話ができるとのこと。スムーズな返答と会話回数を増やすための返答候補を表示する。 「EDU Mode」はAI Free Chat機能と同様の技術を用いた初心者向けチャット機能に加えて会話フレーズや表現パタ

    人工知能エンジン「MUSE」がPepperに対応
  • BERTによるニュース記事の構造化:企業名抽出

    はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。 先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。 ストックマークが公開した言語モデルの一覧と振り返り 今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。 ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。 弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう

    BERTによるニュース記事の構造化:企業名抽出