アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ
![AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai](https://cdn-ak-scissors.b.st-hatena.com/image/square/0bff1c5dc554763cf4de3a65ec89695b094f43ee/height=288;version=1;width=512/https%3A%2F%2Fs3-ap-northeast-1.amazonaws.com%2Fledge-assets%2Fmedia%2Fwp-content%2Fuploads%2F2020%2F11%2F17163808%2Fmain55.png)