2020年8月7日のブックマーク (16件)

  • ACL2020オンライン読み会 (2020/09/06 13:00〜)

    テーマ ACL 2020 の論文読み会です. ACL 2020 で発表された論文から興味ある論文をお選び頂き,プレゼン形式にて発表お願いします。 また、招待講演として先生を2人お招きし、講演をしていただきます。なお、イベントはzoomで行う予定です。 イベントのロゴ画像はACL 2020の公式ホームページからお借りしました 招待講演 お二人の招待講演(40~50分程度)を予定しております. 講師のお二人には「ACL 2020 に限らずご専門分野の最近の動向」についてご講演頂く予定です. 鈴木 潤 様 (東北大学) 乾 健太郎 様 (東北大学) 発表テーマについて ACL 2020 に関する論文から興味ある論文を選んで頂き,プレゼン形式にて発表お願いします.会議のワークショップ等に参加された方はその報告でも大歓迎です。 発表に関して 発表枠の詳細 通常の発表枠は発表・質疑応答含め20min/

    ACL2020オンライン読み会 (2020/09/06 13:00〜)
  • spaCy + GiNZAを使って固有表現抽出とカスタムモデルの学習をしてみる - もふもふ技術部

    自然言語処理をするときはよくRasa NLUを使っているのですが、内部的にはspaCyが使われている模様です。どちらもパイプラインでモジュールをつなげていって自然言語処理をシンプルにするフレームワークだと理解しているのですが、spaCy単独で使うとどういう感じなのか把握したかったんで試してみます。 こちらのエントリを参考にspaCyの基的な動きを確認。 https://qiita.com/moriyamanaoto/items/e98b8a6ff1c8fcf8e293 $ mkdir spacy-ner $ cd spacy-ner 必要なライブラリをインストール。GiNZAはspaCyフレームワークのっかった形で提供されている日語の学習済みモデルを含むライブラリです。簡単にいえばspaCyを日語で動かせるようにするものです。 $ pip install spacy $ pip in

  • ginza(spacy)で固有表現抽出のtrain - iMind Developers Blog

    概要 固有表現抽出を行いたかったので、spacyでnerのtrainを行ってみる。 例として既存のginzaのモデルでは「10,000円」はMONEYとして抽出されるけど「\10,000」は認識されない問題を解決するモデルを作成。 バージョン情報 ginza==2.2.0 Python 3.7.4 参考ページ ner(Named Entity Recognition)の学習については下記ページを参考にした。 https://medium.com/@manivannan_data/how-to-train-ner-with-custom-training-data-using-spacy-188e0e508c6 ginzaではtrain_ner.pyというスクリプトが用意されている。 https://github.com/megagonlabs/ginza/blob/develop/ginz

    ginza(spacy)で固有表現抽出のtrain - iMind Developers Blog
  • 形態素解析器 kagome を Google App Engine で動かす - 押してダメならふて寝しろ

    概要 kagome を GAE で動かしたいってのをチラホラ耳にしてたのですが,先日ついに issue が投げられたので対応してみました. 正確には UniDic をあきらめて IPADic だけ対応してる kagome.ipadic で動かせることを確認しました. 何が問題なのか? golang のプログラムを GAE で動かすには以下の2点の制限があります. GAE では unsafe, syscall, cgo を使ってると動かせない GAE では1ファイル32MBのサイズ制限がある kagome を最初に作ったときは辞書を有限状態トランスデューサー(fst)で構築してて,どうしてもこいつが unsafe 使う実装になってたので対応あきらめてたんですが,なんかの時に辞書を double array trie になおして,辞書からは殆ど unsafe をなくしていたので,今回は1カ所直

    形態素解析器 kagome を Google App Engine で動かす - 押してダメならふて寝しろ
  • DeZeroで日本語文章生成のコードを書いてみた - Qiita

    1.はじめに 今年の4月、「ゼロから作るDeep Learning3 フレームワーク編」が発売されました。ゼロ作は1・2と読んでいて大変勉強になったので、今度はフレームワーク編に挑戦することにしました。 ということで最近を購入したのですが、1ステップづつ勉強を始める前に、まずフレームワークの全体像をザッと知るために、とりあえずコードを書いてみようと思いました。 Githubにある DeZero のライブラリー と example を参考に、をパラパラ見ながら自然言語処理の簡単なコードを google colab 上で書いてみたので、備忘録として残します。 なお、コードは Google Colab で作成し Github に上げてありますので、自分でやってみたい方は、この「リンク」をクリックし表示されたシートの先頭にある「Colab on Web」ボタンをクリックすると動かせます。 2.

    DeZeroで日本語文章生成のコードを書いてみた - Qiita
  • 自然言語処理とそのデータ前処理の概要 - Qiita

    はじめに 機械学習のシステム化に際して、データの前処理に要する時間やリソースを考慮し、設計に活かすノウハウが求められています。 今回は、自然言語を対象としたデータ前処理の概要と、感情極性分析の実装例であるchABSA-datasetにおけるデータ前処理を題材とした性能検証結果を紹介します。 投稿一覧 1. 自然言語処理とそのデータ前処理の概要 ... 投稿 2. 自然言語処理におけるデータ前処理の性能検証 投稿の目次は以下です。 1. 自然言語処理とそのデータ前処理 1.1 自然言語処理とは 1.2 機械学習システムにおける自然言語処理のデータ前処理とは 2. 感情極性分析の前処理を題材とした前処理の例 2.1 自然言語処理のユースケース選定 2.2 取り扱う前処理の概要 2.3 データ量見積もり 2.4 前処理のためのOSS選定 2.4.1 分かち書き(単語分割)について 2.4.2

    自然言語処理とそのデータ前処理の概要 - Qiita
  • PythonとSeleniumでDeepLに英文流して自動翻訳させる - Qiita

    改変履歴 '21/1/26 DeepLのテキストエリアのCSSセレクタが変更になったようなので、関数の方も修正。 `21/5/18 またまたCSSセレクタが変更になったようなので、修正 やりたいこと とりあえず、Science Directから書誌情報+アブストをゲットした。次は、これをDeepLに流し込んで翻訳させていく、っていう処理をしたい。有料プランに契約すれば、ファイルを一気に翻訳させることが可能になるけど、まあ、ものは試しということでselenimuとchromedriverでやってみようということでチャレンジ。 準備 とりあえずCSVファイルをpythonに読み込む。 import pandas as pd df = pd.read_csv("DB.csv",header=None, delimiter=",", quoting=1) print(df.at[0,1]) # タ

    PythonとSeleniumでDeepLに英文流して自動翻訳させる - Qiita
  • 【Python】英文PDF(に限らないけど)をDeepLやGoogle翻訳で自動で翻訳させてテキストファイルにしてしまおう。 - Qiita

    Python】英文PDF(に限らないけど)をDeepLGoogle翻訳で自動で翻訳させてテキストファイルにしてしまおう。PythonSeleniumPDF翻訳 8/6追記 出力結果を見やすくする改良を加えました 続【Python】英文PDF(に限らないけど)をDeepLGoogle翻訳で自動で翻訳させてテキストファイル、いやHTMLにしてしまおう。 はじめに 英語論文、読むのしんどいですよね。翻訳してもらいましょう、見通しがグッと良くなりますよ。 ※文中ではPDF用のように書いていますが要はクリップボードに翻訳したい文をコピーできれば使えます。 方法 PDFを翻訳する際に問題となるのがPDFファイルの扱いにくさです。 ライブラリに頼って自動で文字を抽出せようにも上手く行かなかったり、文の順番がめちゃくちゃになったりします。 そこで今回はクリップボード経由で翻訳したいと思います。 流れ

    【Python】英文PDF(に限らないけど)をDeepLやGoogle翻訳で自動で翻訳させてテキストファイルにしてしまおう。 - Qiita
  • A3RTを使って日本語チャットボットを実装する – ピクアカインフォ

    今回はGoolgle ColaboratoryとA3RTを使った日AIチャットボットの開発の仕方を解説します。Google ColabAPIを利用することで5分程度実装が行えます。 まずはリクルート社が提供しているA3RTのAPIを利用するために下記のリンクからメールアドレスを登録して、APIキーを取得します。 A3RT 具体的な手順としては下記のようになります。 1.メールアドレスの登録 2.メールアドレスの認証 3.メールアドレスに送られてくるAPIキーの取得です。 APIキーが発行されると下図のようにメールアドレスにAPIキーが送られきます。この際空白部分などをコピーしないように注意しましょう。 APIキーの取得 次にGoogle Colabのメニューバーのファイルからノートブックを新規作成を選択して新しいノートブックを開きます。 新しいノートブック(Untitled.ipyn

  • 富士通、記事要約AIを期間限定で無償公開。180字と54字の短文に | Ledge.ai

    さまざまな手段で情報発信できるようになり、情報社会と呼ばれている現代、プラットフォームや媒体によって文字数制限があることも多々ある。 そのため、紙面などに掲載した記事を他メディアにも配信している新聞社などは、その都度制限文字数に応じて人手で記事を要約している。 その工程を全て代替してくれるかもしれないAIが登場した。富士通株式会社は、AI技術「FUJITSU Human Centric AI Zinrai」を活用し、記事の自動要約や顔写真の背景を着色できる無償のトライアルサイトを、企業向けに7月8日より公開した。 高精度で瞬時に記事の要約を可能にトライアルサイトでは、自動記事要約システムと顔写真の背景を自動着色するシステムを利用できる。 自動記事要約システムは、さらに重要文抽出機能と生成型要約機能に分かれる。 自動記事要約システム 重要文抽出機能 記事全文から重要度の高い文章をAIが判定し

    富士通、記事要約AIを期間限定で無償公開。180字と54字の短文に | Ledge.ai
  • ACL 2020 オンラインLT会 (2020/08/17 19:00〜)

    お知らせ connpassではさらなる価値のあるデータを提供するため、2024年5月23日(木)を以ちましてイベントサーチAPIの無料での提供の廃止を決定いたしました。 2024年5月23日(木)以降より開始予定の「connpass 有料API」の料金プランにつきましてはこちらをご覧ください。 なお有料の対象となるのはAPIのみであり、connpassのサービスにつきましては今後も無料でご利用いただけます。

    ACL 2020 オンラインLT会 (2020/08/17 19:00〜)
  • AutoML Natural Language API の感情分析モデルでシャニマスアイドルの台詞を分析 - Qiita

    概要 稿では、シャニマスに登場するアイドル23人の台詞をAutoML Natural Language APIの感情分析モデルを使用して分析してみます。 シャニマスとは 2018年4月24日にサービスを開始した『THE IDOLM@STER』シリーズの育成シミュレーションブラウザゲーム アイドルマスターシャイニーカラーズ 略してシャニマスです。 とりあえずプレイしてください。 AutoML Natural Language API とは GoogleGoogle Cloudで公開している機械学習モデル構築サービス「AutoML Natural Language」に用意されたAPIで、 APIを通して分類、エンティティ抽出、感情分析、構文解析などのサービスを利用できます。 詳細は公式ドキュメントを御覧ください。 Google Cloud 公式ドキュメント AutoML Natural L

    AutoML Natural Language API の感情分析モデルでシャニマスアイドルの台詞を分析 - Qiita
  • https://modelzoo.co/model/open-source-mit-neural-machine-translation-nmt-system

  • 本気で自然言語処理やらないエンジニアでもできる、イベントアンケートの意見抽出 - OPTiM TECH BLOG

    まえがき R&Dチームの徳田(@dakuton)です。 私の開発業務としては自然言語処理をメインとした業務ではありませんが、必要に応じてテキスト解析に携わることもあります。 今回は、がっつり自然言語処理やらないエンジニアからみたときのテキスト解析の使いどころを簡単にご紹介します。 業務での使いどころ 簡単に申し上げると、分類問題として解けそうなデータか?当たりをつけるためにテキスト解析を利用します。 私の業務では時系列データや定量データのような数値データなどをメインに取り扱っていますが、テキスト解析をあわせて行う必要が出てくる場合があります。 これは解析依頼をいただくデータが、数値情報に加えてテキスト情報が付随されているようなデータであることが多いためです。 例えば故障検知の場合、単に正常稼働時の数値データをもとに異常を定義するのではなく 過去レポート(故障時の部品や原因をまとめたテキスト

    本気で自然言語処理やらないエンジニアでもできる、イベントアンケートの意見抽出 - OPTiM TECH BLOG
  • macOS Catalinaに自然言語処理フレームワークAllenNLPの環境構築 - Qiita

    記事のゴール 普段、言語処理まわりのモデルをPyTorchで構築することが多いのですが、もっと楽にコードを書くためにAllenNLPを使ってみることにしました。 記事では、公式ページに従って、自然言語処理フレームワークAllenNLPの環境構築を行います。

    macOS Catalinaに自然言語処理フレームワークAllenNLPの環境構築 - Qiita
  • AIの「自然言語処理」技術がここへきて劇的な進化を遂げている(小林 雅一) @gendai_biz

    人間ならではの領域に踏み込むAI AI人工知能)が言葉の意味を理解する方向へと大きく舵を切った。 先日、シリコンバレーで限定的にリリースされた「GPT-3」という言語モデルを使うと、コンピュータ(AI)がかなり高度な文章を書いたり、私たち人間の言葉による命令に従って簡単なアプリ開発などの仕事ができるようになる。 GPT-3は現時点で米国のプレスや一部関係者らに限ってリリースされたが、実際にそれを使ってみた人たちからは驚くべき結果が報告されている。 たとえば、「この度、一身上の都合により退社することを決めました」あるいは「ベン、ごめんね、あたし貴方と別れなければならない」という冒頭の一文を入力するだけで、GPT-3はそれに続く文章をしたためて、普通なら書くのが気が重い退職願や別れの手紙を手際よく仕上げてくれるという。 これらの機能は、一般にAIの中でも「自然言語処理」と呼ばれる分野に属する

    AIの「自然言語処理」技術がここへきて劇的な進化を遂げている(小林 雅一) @gendai_biz
    gengohouse
    gengohouse 2020/08/07
    副題にある「小論文や業務レポートを代筆する時代に」というのは誤解を与えそうで少し言い過ぎだと思う。