特許データや各種の統計データを用いて、日本の産業における研究開発やイノベーションについての分析を行うための企業名辞書を公開しています。 お知らせ 2023年9月13日 NISTEP企業名辞書Ver.2023_1の公開を行いました←NEW! 2023年8月18日 NISTEP大学・公的機関名辞書と特許出願情報との対応テーブルVer.2023_1の公開を行いました。 2022年11月10日 NISTEP企業名辞書Ver.2022_1の公開を行いました。 2021年10月4日 NISTEP企業名辞書Ver.2021_1の公開を行いました。 2020年9月23日 NISTEP企業名辞書Ver.2020_2の公開を行いました。 2020年2月25日 各データへのDOI付与とライブラリへの移行を行いました。 データ整備についての概要 産業における研究開発・イノベーションに関するデー
特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ
前回こんな記事を書いたが、どこに置いておくのが効率よいのか気になったので調べてみた https://blog.hatena.ne.jp/y-kamiya/jsapachehtml.hatenablog.com/edit?entry=26006613718710543 colaboratoryは起動のたびにまっさらの状態になるためデータセットなどのリソースは永続化可能な別の場所に置いておく必要がある。publicなデータセットを使う場合であっても、ダウンロード速度の問題で自前で用意した場所に置いた方がよい場合もある。 よって以下のような条件を満たす最適な場所を探したい ダウンロードが速い 無料で使える(or なるべく安価で) ちなみにuploadの計測で使った環境はこちら 場所: 東京 アップロード速度: 200Mbps こちらで計測(https://fast.com/ja/) 試したパター
ArchiveBox - A tool which maintains an additive archive from RSS feeds, bookmarks, and links using wget, Chrome headless, and other methods (formerly Bookmark Archiver). (In Development) archivenow - A Python library to push web resources into on-demand web archives. (Stable) ArchiveWeb.Page - A plugin for Chrome and other Chromium based browsers that lets you interactively archive web pages, repl
We help companies test and improve machine learning models via our global AI Community of 1 million+ annotators and linguists. Our proprietary Ground Truth AI training platform handles all data types across 500+ languages and dialects. Our AI Data Solutions vastly enhance AI systems across a range of applications from advanced smart products, to better search results, to expanded speech recognitio
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く