自然言語処理(NLP)とあとで試すに関するnikkie-ftnextのブックマーク (13)

  • 日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

    概要 こんにちは@kajyuuenです。 日語自然言語処理のData Augmentationライブラリdaajaを作成しました。 この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。 ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。 はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。 日語ではデータ拡張という名前で知られています。 ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。 対応している手法 現在daajaは

    日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園
  • 公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

    特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

    公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
    nikkie-ftnext
    nikkie-ftnext 2021/04/30
    自然言語処理で会社名を認識したいケースにおいて名寄せタスクをエンティティリンキング的に解くため、2つの日本の会社名辞書を紹介:国税庁法人番号データ、NISTEP企業名辞書。前者からTISがJCLdicという企業名辞書を公
  • 【Python】MeCabのTaggerオブジェクトを持つ単語分割器をpickleで保存する方法

    【Python】MeCabのTaggerオブジェクトを持つ単語分割器をpickleで保存する方法
    nikkie-ftnext
    nikkie-ftnext 2021/02/27
    scikit-learnのTfidfVectorizerはtokenizer引数にcallableを指定できる。MeCabのTaggerを持ち、__call__でそれを呼び出すクラスを設定可能。MeCabのTaggerはpickle時に除き、unpickle時に再作成 https://docs.python.org/ja/3/library/pickle.html#object.__reduce_ex__
  • 日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ

    前回記事に続いてHugging Faceネタです。Transformers体ではなく、分かち書きを行うTokenizersライブラリの紹介をします。 Hugging Faceが開発しているTransformersでは、事前学習モデルと用いた分かち書き処理を同梱して配布している。 機械学習モデルの学習時と推論時の間で分かち書き設定が異なったり、分かち書き済み公開データと分かち書き設定が揃っていなかったりすると、モデルの挙動が正しく再現できないので、この設定が揃うように仕組みで吸収できる良いプラクティスといえる。 比較的古いバージョン*1のTransformersが用いるトークナイザは、ライブラリ内に同梱されるPython実装のものであった。 日語で配布されているTransformersモデルの事例でいうと、例えば東北大学の乾研究室から公開されている日語BERTモデルでは、Transfo

    日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ
  • Transformerによる時系列データ予測のご紹介 - Platinum Data Blog by BrainPad

    記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 発展を続ける「自然言語処理」技術。その中でも幅広く使用される深層学習モデルTransformerは、自然言語処理以外の音楽生成や物体検出などの領域でも適用できます。ブログでは、 Transformerを時系列データに適用する方法をご紹介します。 こんにちは、AIソリューションサービス部の井出と申します。 この記事では、特に自然言語処理分野で幅広く使用される深層学習モデルTransformerを時系列データへ適用する方法に関してご紹介します。 以前の記事では、Transformerの構造や特徴などについて、自然言語処理分野の機械翻訳を例としてご紹介しております。はじめに、こちらの記事をご一読していただくことで、より記事でご紹介する内容に対する理解が深まるかと思います。 Transform

    Transformerによる時系列データ予測のご紹介 - Platinum Data Blog by BrainPad
  • PythonでPDFからテキストを読み取る方法について - ガンマソフト

    PDFのページ抜粋、結合、重ね合わせのようなPDFのページ操作ならば、PythonでPyPDF2を利用すれば簡単にプログラミングできます。例えば、フォルダ内のPDFを1つにまとめるプログラムなどがすぐに作れます。 しかし、PDFの中身のテキストをプログラムで読み取るのは大抵一筋縄ではいきません。日語や帳票であればもっと難易度が上がります。 この方法ならどんなPDFでも大丈夫という決定版はありません。目的や原稿のPDFの状態により、適した方法を選択する必要があります。今回はその候補となる方法を紹介します。 記事の目次 PyPDF2 pdfminer.six Apache Tika Tesseract OCR 最後に PyPDF2 PyPDF2 でもテキストを読み取れます。PyPDF2は以下のようにpipでインストールできます。 pip install PyPDF2 以下のようにextra

    PythonでPDFからテキストを読み取る方法について - ガンマソフト
  • PDFファイルに目次(アウトライン)を追加するPythonスクリプトを書いた | takemikami's note

    macos版の Microsoft WordでPDF出力をする場合、 目次の設定が出来ないようなので、スクリプトを書いてなんとかしてみました。 このエントリでは、その調査を行った際のメモを残しておきます。 # Windows版では、目次付きのPDFが出力できるようですが 作成したスクリプト実際に作成したスクリプトは、以下のようなスクリプトです。 add_outline_to_pdf.py https://gist.github.com/takemikami/7ac487f664a72cc25b49229b535b4c9e # PDFにoutlineをつけるスクリプト # # 概要: # PDFファイルの文中にある目次の文字列を解析し、 # 解析結果を元にPDFにアウトラインを設定する # セットアップ: # pip install pdfminer.six # pip install p

    PDFファイルに目次(アウトライン)を追加するPythonスクリプトを書いた | takemikami's note
  • BERTによるニュース記事の構造化:企業名抽出

    はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。 先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。 ストックマークが公開した言語モデルの一覧と振り返り 今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。 ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。 弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう

    BERTによるニュース記事の構造化:企業名抽出
    nikkie-ftnext
    nikkie-ftnext 2020/09/21
    BERTの出力を企業名か否かで識別するアプローチ。法人名は国税庁がデータベースを公開している(辞書に使える)。アノテーション時間削減のために、暫定的なモデルに次のアノテーション記事を推論させる(なるほど)
  • GPT-3の衝撃 - ディープラーニングブログ

    この1週間はGPT-3のユースケースの広さに驚かされる毎日でした. シリコンバレーでは話題騒然ですが日ではほとんど話題になっていないので,勢いで書くことにしました. GPT-3OpenAIが開発した言語生成モデルです.名前の由来であるGenerative Pretrained Transformerの通り,自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています. 先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され,様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています. 特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め,誇大広告気味だと警鐘を鳴らす事態に発展しています. This is mind blowing. With GPT-3, I built

    GPT-3の衝撃 - ディープラーニングブログ
  • 小さく始めて大きく育てるMLOps2020 | | AI tech studio

    AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、稿では番運用を見据えた機械学習ライフサイクル(実験ログやワークフロー)の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、 エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、 多くのデータサイエンティストは、ローカルでの作業と番環境に大きなギャップを抱えている クラウド含む番環境でのモデルのホスティングが考慮されないローカルでの作業 番のデータボリュームやス

    小さく始めて大きく育てるMLOps2020 | | AI tech studio
  • スペル修正プログラムはどう書くか

    Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Google

    nikkie-ftnext
    nikkie-ftnext 2020/04/26
    textlintを触った後、欲しかったものは日本語スペルチェッカーと気づく。英語の実装は https://github.com/barrust/pyspellchecker にあり、そこからリンクされていた記事の日本語訳。typo検知をPythonにやらせようは今後のもくもく題材
  • 「企業分析における自然言語処理を学ぼう」にオンライン参加した #carenlp - u++の備忘録

    「企業分析における自然言語処理を学ぼう」と題した勉強会*1に参加しました。初めての大規模なオンライン勉強会への参加でしたが、画質も全く問題なくChatやtwitterのハッシュタグでコミュニケーションが取れて「これはこれで良いな」という感想を抱きました。発表終了時に、拍手の意で「8888888」のコメントが流れるのは往年のニコニコ動画を思い出しました。 以下、発表メモを共有します。 発表1: 「財務・非財務一体型の企業分析に向けて」by @icoxfog417 財務・非財務一体型の企業分析に向けて from Takahiro Kubo TISで企業分析に取り組む@icoxfog417さんの発表 TISが公開したデータセットを用いた、Nishikaというプラットフォームで「財務・非財務情報を活用した株主価値予測」コンペ*2も開催中 企業分析の中で、非財務情報の活用は進んでいるとは言いづらい

    「企業分析における自然言語処理を学ぼう」にオンライン参加した #carenlp - u++の備忘録
    nikkie-ftnext
    nikkie-ftnext 2020/03/24
    u++さんによる #carenlp の光速まとめレポート。参考リンク集が充実し大変ありがたいです。勉強会を聞いての私の発見は係り受け解析で機械でも意味が取れるということ。実例を目の当たりにしてやってみたくなりました
  • Nishika competitions 2nd solution - エムスリーテックブログ

    はじめに はじめまして、エムスリー AI機械学習チームの河合(@vaaaaanquish)です。 最近、以下機械学習コンペティションにて 182人中 2位 になりました。 Nishikaサービスローンチコンペ AIは芥川龍之介を見分けられるのか? competitions summary(https://www.nishika.com/competitions/1/summary)より 記事は、コンペティションの解法の紹介をしつつ、3月7より開催されている技術書典 応援祭にて販売される、私も執筆に参加したエムスリーテックブック2を宣伝するものです。 はじめに コンペティション概要 利用したfeatureとmodel コンペティション開催中の行動 機械学習パイプラインの選定としてgokartはどうだったか おわりに We are hiring !! コンペティション概要 青空文庫に登録さ

    Nishika competitions 2nd solution - エムスリーテックブログ
  • 1