ikutani41のブックマーク - はてなブックマーク

英文法律関連テキストを対象とした文境界推定の論文を読む - ヤドカリラボ
はじめに法律ドメインに特化した自然言語処理は、ビジネス上重要な位置を占めるにもかかわらず、金融や医療等の他の分野と比べいままであまり重きをおかれることがなかった分野でした。法律関連のタスクに電子機器が使われる機会は徐々に高まっており、自然言語処理を応用し、法律の実務家や法律関連SaaSのユーザに価値を提供する機会もまた増えてきています。このような状況の中で、自然言語処理の研究者と法律の実務家が一堂に会する機会を設けるためにNLLP (Natural Legal Language Processing)ワークショップが設立されました。今年はCovid19の影響でバーチャル開催され、KDD(Knowledge Discovery and Data Mining)と同時期に行われています。 sites.google.com 本記事ではNLLP 2019で発表された論文：Sentence
ikutani41 2020/09/11
リンク
ブートストラッピング法による情報抽出の論文まとめ - ヤドカリラボ
はじめに自然言語処理におけるタスクの一つとして、構造化されていないテキストから情報や知識を自動または半自動で取り出すことを情報抽出といいます。最近では深層学習系の論文が国際学会ではメジャーですが、訓練・ベンチマークに用いているデータセットのレコード数が膨大であり、また高価なGPU環境が言語モデルの訓練のために必要など、必ずしも現実の要件で扱われる問題と合致していない部分があります。また、抽出の際に起こる問題や、抽出の際に用いる指標を古典的な手法を通じて押さえておくことで、実際のデータに既存手法や経験的な手法をいろいろ適用してみるときの手がかりになります。そこで本記事では情報抽出の領域で深層学習が流行る前に比較的メジャーであったブートストラッピング法にフォーカスし、抽出の概念、手法の解説、論文のタスクや手法の詳細などを追っていきます。論文の流れを追うことで情報抽出の応用をしようとし
ikutani41 2020/05/25
NLP

自然言語処理

情報抽出

ブートストラッピング
リンク
正規表現を用いる際のパフォーマンスチェックリスト - ヤドカリラボ
Python で正規表現を書いて分析や機械学習のモデル構築、予測に活用する際には、正規表現実行時のパフォーマンスが足かせとなる場合があります。正規表現の処理に用いられる実行時間がどのくらいになるかはテキストデータの分量や機械学習モデルの精度検証の実行回数に応じて変わってきます。一つのテキストデータに対する正規表現の実行時間を少なくすることで、タスクによっては全体として大幅な処理時間の短縮が見込まれます。そのことによって精度検証を素早く回したり、テキスト処理実行時の前処理の実行時間を削減する等の効果が得られます。精度検証の間の実行待ち時間やバッチ・キューによる予測時の時間が減り、最終的には精度向上の機会の向上やサービスのユーザ体験の向上に繋がるというわけです。本記事では Python を用いた場合の正規表現のパフォーマンス改善候補についてリストアップし、具体的な対応方法について見ていき
ikutani41 2020/03/06
正規表現

パフォーマンス

機械学習

リーガルテック
リンク
1