[B! 自然言語処理(NLP)][あとで試す] nikkie-ftnextのブックマーク

日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

概要こんにちは@kajyuuenです。日本語自然言語処理のData Augmentationライブラリdaajaを作成しました。この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。日本語ではデータ拡張という名前で知られています。ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。対応している手法現在daajaは

nikkie-ftnext 2022/03/15

リンク

公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

nikkie-ftnext 2021/04/30

自然言語処理で会社名を認識したいケースにおいて名寄せタスクをエンティティリンキング的に解くため、2つの日本の会社名辞書を紹介：国税庁法人番号データ、NISTEP企業名辞書。前者からTISがJCLdicという企業名辞書を公

リンク

【Python】MeCabのTaggerオブジェクトを持つ単語分割器をpickleで保存する方法

nikkie-ftnext 2021/02/27

scikit-learnのTfidfVectorizerはtokenizer引数にcallableを指定できる。MeCabのTaggerを持ち、__call__でそれを呼び出すクラスを設定可能。MeCabのTaggerはpickle時に除き、unpickle時に再作成 https://docs.python.org/ja/3/library/pickle.html#object.__reduce_ex__

リンク

日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ

前回記事に続いてHugging Faceネタです。Transf ormers本体ではなく、分かち書きを行うTokenizersライブラリの紹介をします。 Hugging Faceが開発しているTransf ormersでは、事前学習モデルと用いた分かち書き処理を同梱して配布している。機械学習モデルの学習時と推論時の間で分かち書き設定が異なったり、分かち書き済み公開データと分かち書き設定が揃っていなかったりすると、モデルの挙動が正しく再現できないので、この設定が揃うように仕組みで吸収できる良いプラクティスといえる。比較的古いバージョン*1のTransf ormersが用いるトークナイザは、ライブラリ内に同梱されるPython実装のものであった。日本語で配布されているTransf ormersモデルの事例でいうと、例えば東北大学の乾研究室から公開されている日本語BERTモデルでは、Transfo

nikkie-ftnext 2021/02/27

リンク

Transformerによる時系列データ予測のご紹介 - Platinum Data Blog by BrainPad

本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。発展を続ける「自然言語処理」技術。その中でも幅広く使用される深層学習モデルTransf ormerは、自然言語処理以外の音楽生成や物体検出などの領域でも適用できます。本ブログでは、 Transf ormerを時系列データに適用する方法をご紹介します。こんにちは、AIソリューションサービス部の井出と申します。この記事では、特に自然言語処理分野で幅広く使用される深層学習モデルTransf ormerを時系列データへ適用する方法に関してご紹介します。以前の記事では、Transf ormerの構造や特徴などについて、自然言語処理分野の機械翻訳を例としてご紹介しております。はじめに、こちらの記事をご一読していただくことで、より本記事でご紹介する内容に対する理解が深まるかと思います。 Transf orm

nikkie-ftnext 2021/02/18

リンク

PythonでPDFからテキストを読み取る方法について - ガンマソフト

PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを１つにまとめるプログラムなどがすぐに作れます。しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日本語や帳票であればもっと難易度が上がります。この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。本記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra

nikkie-ftnext 2021/01/03

リンク

PDFファイルに目次(アウトライン)を追加するPythonスクリプトを書いた | takemikami's note

macos版の Microsoft WordでPDF出力をする場合、目次の設定が出来ないようなので、スクリプトを書いてなんとかしてみました。このエントリでは、その調査を行った際のメモを残しておきます。 # Windows版では、目次付きのPDFが出力できるようですが作成したスクリプト実際に作成したスクリプトは、以下のようなスクリプトです。 add_outline_to_pdf.py https://gist.github.com/takemikami/7ac487f664a72cc25b49229b535b4c9e # PDFにoutlineをつけるスクリプト # # 概要: # PDFファイルの本文中にある目次の文字列を解析し、 # 解析結果を元にPDFにアウトラインを設定する # セットアップ: # pip install pdfminer.six # pip install p

nikkie-ftnext 2021/01/03

リンク

BERTによるニュース記事の構造化：企業名抽出

はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。ストックマークが公開した言語モデルの一覧と振り返り今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう

nikkie-ftnext 2020/09/21

BERTの出力を企業名か否かで識別するアプローチ。法人名は国税庁がデータベースを公開している（辞書に使える）。アノテーション時間削減のために、暫定的なモデルに次のアノテーション記事を推論させる（なるほど）

リンク

GPT-3の衝撃 - ディープラーニングブログ

この1週間はGPT-3のユースケースの広さに驚かされる毎日でした．シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので，勢いで書くことにしました． GPT-3はOpenAIが開発した言語生成モデルです．名前の由来であるGenerative Pretrained Transf ormerの通り，自然言語処理で広く使われるTransf ormerモデルを言語生成タスクで事前学習しています．先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され，様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています．特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め，誇大広告気味だと警鐘を鳴らす事態に発展しています． This is mind blowing. With GPT-3, I built

nikkie-ftnext 2020/07/21

リンク

小さく始めて大きく育てるMLOps2020 | | AI tech studio

AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、本稿では本番運用を見据えた機械学習ライフサイクル（実験ログやワークフロー）の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、多くのデータサイエンティストは、ローカルでの作業と本番環境に大きなギャップを抱えているクラウド含む本番環境でのモデルのホスティングが考慮されないローカルでの作業本番のデータボリュームやス

nikkie-ftnext 2020/06/27

リンク

スペル修正プログラムはどう書くか

Peter Norvig / 青木靖訳先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、別に彼らが知っているべき理由はないのだった。間違っていたのは彼らの知識ではなく、私の仮定の方だ。このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの

nikkie-ftnext 2020/04/26

textlintを触った後、欲しかったものは日本語スペルチェッカーと気づく。英語の実装は https://github.com/barrust/pyspellchecker にあり、そこからリンクされていた記事の日本語訳。typo検知をPythonにやらせようは今後のもくもく題材

リンク

「企業分析における自然言語処理を学ぼう」にオンライン参加した #carenlp - u++の備忘録

「企業分析における自然言語処理を学ぼう」と題した勉強会*1に参加しました。初めての大規模なオンライン勉強会への参加でしたが、画質も全く問題なくChatやtwitterのハッシュタグでコミュニケーションが取れて「これはこれで良いな」という感想を抱きました。発表終了時に、拍手の意で「8888888」のコメントが流れるのは往年のニコニコ動画を思い出しました。以下、発表メモを共有します。発表1: 「財務・非財務一体型の企業分析に向けて」by @icoxfog417 財務・非財務一体型の企業分析に向けて from Takahiro Kubo TISで企業分析に取り組む@icoxfog417さんの発表 TISが公開したデータセットを用いた、Nishikaというプラットフォームで「財務・非財務情報を活用した株主価値予測」コンペ*2も開催中企業分析の中で、非財務情報の活用は進んでいるとは言いづらい

nikkie-ftnext 2020/03/24

u++さんによる #carenlp の光速まとめレポート。参考リンク集が充実し大変ありがたいです。勉強会を聞いての私の発見は係り受け解析で機械でも意味が取れるということ。実例を目の当たりにしてやってみたくなりました

リンク

Nishika competitions 2nd solution - エムスリーテックブログ

はじめにはじめまして、エムスリー AI・機械学習チームの河合(@vaaaaanquish)です。最近、以下機械学習コンペティションにて 182人中 2位になりました。 Nishikaサービスローンチコンペ AIは芥川龍之介を見分けられるのか？ competitions summary(https://www.nishika.com/competitions/1/summary)より本記事は、コンペティションの解法の紹介をしつつ、3月7より開催されている技術書典応援祭にて販売される、私も執筆に参加したエムスリーテックブック２を宣伝するものです。はじめにコンペティション概要利用したfeatureとmodel コンペティション開催中の行動機械学習パイプラインの選定としてgokartはどうだったかおわりに We are hiring !! コンペティション概要青空文庫に登録さ

nikkie-ftnext 2020/03/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

自然言語処理(NLP)とあとで試すに関するnikkie-ftnextのブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス