gengohouseのブックマーク / 2020年8月7日

ACL2020オンライン読み会 (2020/09/06 13:00〜)

テーマ ACL 2020 の論文読み会です． ACL 2020 で発表された論文から興味ある論文をお選び頂き，プレゼン形式にて発表お願いします。また、招待講演として先生を2人お招きし、講演をしていただきます。なお、イベントはzoomで行う予定です。イベントのロゴ画像はACL 2020の公式ホームページからお借りしました招待講演お二人の招待講演(40~50分程度)を予定しております．講師のお二人には「ACL 2020 に限らずご専門分野の最近の動向」についてご講演頂く予定です．鈴木潤様 (東北大学) 乾健太郎様 (東北大学) 発表テーマについて ACL 2020 に関する論文から興味ある論文を選んで頂き，プレゼン形式にて発表お願いします．会議のワークショップ等に参加された方はその報告でも大歓迎です。発表に関して発表枠の詳細通常の発表枠は発表・質疑応答含め20min/

gengohouse 2020/08/07

イベント

リンク

spaCy + GiNZAを使って固有表現抽出とカスタムモデルの学習をしてみる - もふもふ技術部

自然言語処理をするときはよくRasa NLUを使っているのですが、内部的にはspaCyが使われている模様です。どちらもパイプラインでモジュールをつなげていって自然言語処理をシンプルにするフレームワークだと理解しているのですが、spaCy単独で使うとどういう感じなのか把握したかったんで試してみます。こちらのエントリを参考にspaCyの基本的な動きを確認。 https://qiita.com/moriyamanaoto/it ems/e98b8a6ff1c8fcf8e293 $ mkdir spacy-ner $ cd spacy-ner 必要なライブラリをインストール。GiNZAはspaCyフレームワークのっかった形で提供されている日本語の学習済みモデルを含むライブラリです。簡単にいえばspaCyを日本語で動かせるようにするものです。 $ pip install spacy $ pip in

gengohouse 2020/08/07

固有表現

リンク

ginza(spacy)で固有表現抽出のtrain - iMind Developers Blog

概要固有表現抽出を行いたかったので、spacyでnerのtrainを行ってみる。例として既存のginzaのモデルでは「10,000円」はMONEYとして抽出されるけど「\10,000」は認識されない問題を解決するモデルを作成。バージョン情報 ginza==2.2.0 Python 3.7.4 参考ページ ner（Named Entity Recognition）の学習については下記ページを参考にした。 https://medium.com/@manivannan_data/how-to-train-ner-with-custom-training-data-using-spacy-188e0e508c6 ginzaではtrain_ner.pyというスクリプトが用意されている。 https://github.com/megagonlabs/ginza/blob/develop/ginz

gengohouse 2020/08/07

固有表現

リンク

形態素解析器 kagome を Google App Engine で動かす - 押してダメならふて寝しろ

概要 kagome を GAE で動かしたいってのをチラホラ耳にしてたのですが，先日ついに issue が投げられたので対応してみました．正確には UniDic をあきらめて IPADic だけ対応してる kagome.ipadic で動かせることを確認しました．何が問題なのか？ golang のプログラムを GAE で動かすには以下の2点の制限があります． GAE では unsafe, syscall, cgo を使ってると動かせない GAE では1ファイル32MBのサイズ制限がある kagome を最初に作ったときは辞書を有限状態トランスデューサー(fst)で構築してて，どうしてもこいつが unsafe 使う実装になってたので対応あきらめてたんですが，なんかの時に辞書を double array trie になおして，辞書からは殆ど unsafe をなくしていたので，今回は1カ所直

gengohouse 2020/08/07

形態素解析

リンク

DeZeroで日本語文章生成のコードを書いてみた - Qiita

1.はじめに今年の４月、「ゼロから作るDeep Learning3 フレームワーク編」が発売されました。ゼロ作は１・２と読んでいて大変勉強になったので、今度はフレームワーク編に挑戦することにしました。ということで最近本を購入したのですが、１ステップづつ勉強を始める前に、まずフレームワークの全体像をザッと知るために、とりあえずコードを書いてみようと思いました。 Githubにある DeZero のライブラリーと example を参考に、本をパラパラ見ながら自然言語処理の簡単なコードを google colab 上で書いてみたので、備忘録として残します。なお、コードは Google Colab で作成し Github に上げてありますので、自分でやってみたい方は、この「リンク」をクリックし表示されたシートの先頭にある「Colab on Web」ボタンをクリックすると動かせます。 2.

gengohouse 2020/08/07

生成

リンク

自然言語処理とそのデータ前処理の概要 - Qiita

はじめに機械学習のシステム化に際して、データの前処理に要する時間やリソースを考慮し、設計に活かすノウハウが求められています。今回は、自然言語を対象としたデータ前処理の概要と、感情極性分析の実装例であるchABSA-datasetにおけるデータ前処理を題材とした性能検証結果を紹介します。投稿一覧 1. 自然言語処理とそのデータ前処理の概要 ... 本投稿 2. 自然言語処理におけるデータ前処理の性能検証本投稿の目次は以下です。 1. 自然言語処理とそのデータ前処理 1.1 自然言語処理とは 1.2 機械学習システムにおける自然言語処理のデータ前処理とは 2. 感情極性分析の前処理を題材とした前処理の例 2.1 自然言語処理のユースケース選定 2.2 取り扱う前処理の概要 2.3 データ量見積もり 2.4 前処理のためのOSS選定 2.4.1 分かち書き(単語分割)について 2.4.2

gengohouse 2020/08/07

前処理

リンク

PythonとSeleniumでDeepLに英文流して自動翻訳させる - Qiita

改変履歴 '21/1/26 DeepLのテキストエリアのCSSセレクタが変更になったようなので、関数の方も修正。 `21/5/18　またまたCSSセレクタが変更になったようなので、修正やりたいこととりあえず、Science Directから書誌情報＋アブストをゲットした。次は、これをDeepLに流し込んで翻訳させていく、っていう処理をしたい。有料プランに契約すれば、ファイルを一気に翻訳させることが可能になるけど、まあ、ものは試しということでselenimuとchromedriverでやってみようということでチャレンジ。準備とりあえずCSVファイルをpythonに読み込む。 import pandas as pd df = pd.read_csv("DB.csv",header=None, delimiter=",", quoting=1) print(df.at[0,1]) # タ

gengohouse 2020/08/07

機械翻訳

リンク

【Python】英文PDF（に限らないけど）をDeepLやGoogle翻訳で自動で翻訳させてテキストファイルにしてしまおう。 - Qiita

【Python】英文PDF（に限らないけど）をDeepLやGoogle翻訳で自動で翻訳させてテキストファイルにしてしまおう。PythonSeleniumPDF翻訳 8/6追記出力結果を見やすくする改良を加えました続【Python】英文PDF（に限らないけど）をDeepLやGoogle翻訳で自動で翻訳させてテキストファイル、いやHTMLにしてしまおう。はじめに英語論文、読むのしんどいですよね。翻訳してもらいましょう、見通しがグッと良くなりますよ。 ※文中ではPDF用のように書いていますが要はクリップボードに翻訳したい文をコピーできれば使えます。方法 PDFを翻訳する際に問題となるのがPDFファイルの扱いにくさです。ライブラリに頼って自動で文字を抽出せようにも上手く行かなかったり、文の順番がめちゃくちゃになったりします。そこで今回はクリップボード経由で翻訳したいと思います。流れ

gengohouse 2020/08/07

機械翻訳

リンク

A3RTを使って日本語チャットボットを実装する – ピクアカインフォ

gengohouse 2020/08/07

対話

リンク

富士通、記事要約AIを期間限定で無償公開。180字と54字の短文に | Ledge.ai

さまざまな手段で情報発信できるようになり、情報社会と呼ばれている現代、プラットフォームや媒体によって文字数制限があることも多々ある。そのため、紙面などに掲載した記事を他メディアにも配信している新聞社などは、その都度制限文字数に応じて人手で記事を要約している。その工程を全て代替してくれるかもしれないAIが登場した。富士通株式会社は、AI 技術「FUJITSU Human Centric AI Zinrai」を活用し、記事の自動要約や顔写真の背景を着色できる無償のトライアルサイトを、企業向けに7月8日より公開した。高精度で瞬時に記事の要約を可能にトライアルサイトでは、自動記事要約システムと顔写真の背景を自動着色するシステムを利用できる。自動記事要約システムは、さらに重要文抽出機能と生成型要約機能に分かれる。自動記事要約システム重要文抽出機能記事全文から重要度の高い文章をAIが判定し

gengohouse 2020/08/07

要約

リンク

ACL 2020 オンラインLT会 (2020/08/17 19:00〜)

お知らせ 2024年9月1日より、connpassではスクレイピングを禁止し、利用規約に明記しました。以降の情報取得にはconnpass APIをご利用ください。APIご利用についてはヘルプページをご確認ください。新機能「QRコード読み取りによる出席機能」をリリースしました。事前に入場受付が必要な場合や、受付時に参加枠などによって個別の誘導が必要な場合にご利用ください。詳しくはこちらをご覧ください。新機能 connpass APIに新しく、ユーザーのプロフィールを取得できるユーザーAPIを追加しました。APIリファレンスはこちらを、またAPI利用希望の方はこちらをご覧ください。

gengohouse 2020/08/07

イベント

リンク

AutoML Natural Language API の感情分析モデルでシャニマスアイドルの台詞を分析 - Qiita

概要本稿では、シャニマスに登場するアイドル23人の台詞をAutoML Natural Language APIの感情分析モデルを使用して分析してみます。シャニマスとは 2018年4月24日にサービスを開始した『THE IDOLM@STER』シリーズの育成シミュレーションブラウザゲームアイドルマスターシャイニーカラーズ略してシャニマスです。とりあえずプレイしてください。 AutoML Natural Language API とは GoogleがGoogle Cloudで公開している機械学習モデル構築サービス「AutoML Natural Language」に用意されたAPIで、 APIを通して分類、エンティティ抽出、感情分析、構文解析などのサービスを利用できます。詳細は公式ドキュメントを御覧ください。 Google Cloud　公式ドキュメント AutoML Natural L

gengohouse 2020/08/07

リンク

https://modelzoo.co/model/open-source-mit-neural-machine-translation-nmt-system

gengohouse 2020/08/07

機械翻訳

リンク

本気で自然言語処理やらないエンジニアでもできる、イベントアンケートの意見抽出 - OPTiM TECH BLOG

まえがき R&Dチームの徳田(@dakuton)です。私の開発業務としては自然言語処理をメインとした業務ではありませんが、必要に応じてテキスト解析に携わることもあります。今回は、がっつり自然言語処理やらないエンジニアからみたときのテキスト解析の使いどころを簡単にご紹介します。業務での使いどころ簡単に申し上げると、分類問題として解けそうなデータか？当たりをつけるためにテキスト解析を利用します。私の業務では時系列データや定量データのような数値データなどをメインに取り扱っていますが、テキスト解析をあわせて行う必要が出てくる場合があります。これは解析依頼をいただくデータが、数値情報に加えてテキスト情報が付随されているようなデータであることが多いためです。例えば故障検知の場合、単に正常稼働時の数値データをもとに異常を定義するのではなく過去レポート(故障時の部品や原因をまとめたテキスト

gengohouse 2020/08/07

リンク

macOS Catalinaに自然言語処理フレームワークAllenNLPの環境構築 - Qiita

本記事のゴール普段、言語処理まわりのモデルをPyTorchで構築することが多いのですが、もっと楽にコードを書くためにAllenNLPを使ってみることにしました。本記事では、公式ページに従って、自然言語処理フレームワークAllenNLPの環境構築を行います。

gengohouse 2020/08/07

リンク

AIの「自然言語処理」技術がここへきて劇的な進化を遂げている（小林雅一） @gendai_biz

人間ならではの領域に踏み込むAI AI（人工知能）が言葉の意味を理解する方向へと大きく舵を切った。先日、シリコンバレーで限定的にリリースされた「GPT-3」という言語モデルを使うと、コンピュータ（AI）がかなり高度な文章を書いたり、私たち人間の言葉による命令に従って簡単なアプリ開発などの仕事ができるようになる。 GPT-3は現時点で米国のプレスや一部関係者らに限ってリリースされたが、実際にそれを使ってみた人たちからは驚くべき結果が報告されている。たとえば、「この度、一身上の都合により退社することを決めました」あるいは「ベン、ごめんね、あたし貴方と別れなければならない」という冒頭の一文を入力するだけで、GPT-3はそれに続く文章をしたためて、普通なら書くのが気が重い退職願や別れの手紙を手際よく仕上げてくれるという。これらの機能は、一般にAIの中でも「自然言語処理」と呼ばれる分野に属する

gengohouse 2020/08/07

副題にある「小論文や業務レポートを代筆する時代に」というのは誤解を与えそうで少し言い過ぎだと思う。

リンク

はてなブックマーク

タグ

2020年8月7日のブックマーク (16件)

ACL2020オンライン読み会 (2020/09/06 13:00〜)

spaCy + GiNZAを使って固有表現抽出とカスタムモデルの学習をしてみる - もふもふ技術部

ginza(spacy)で固有表現抽出のtrain - iMind Developers Blog

形態素解析器 kagome を Google App Engine で動かす - 押してダメならふて寝しろ

DeZeroで日本語文章生成のコードを書いてみた - Qiita

自然言語処理とそのデータ前処理の概要 - Qiita

PythonとSeleniumでDeepLに英文流して自動翻訳させる - Qiita

【Python】英文PDF（に限らないけど）をDeepLやGoogle翻訳で自動で翻訳させてテキストファイルにしてしまおう。 - Qiita

A3RTを使って日本語チャットボットを実装する – ピクアカインフォ

富士通、記事要約AIを期間限定で無償公開。180字と54字の短文に | Ledge.ai

ACL 2020 オンラインLT会 (2020/08/17 19:00〜)

AutoML Natural Language API の感情分析モデルでシャニマスアイドルの台詞を分析 - Qiita

https://modelzoo.co/model/open-source-mit-neural-machine-translation-nmt-system

本気で自然言語処理やらないエンジニアでもできる、イベントアンケートの意見抽出 - OPTiM TECH BLOG

macOS Catalinaに自然言語処理フレームワークAllenNLPの環境構築 - Qiita

AIの「自然言語処理」技術がここへきて劇的な進化を遂げている（小林雅一） @gendai_biz

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス