[B! 技術] ikutani41のブックマーク

ikutani41 id:ikutani41

技術に関するikutani41のブックマーク (2)

MNTSQからみらい翻訳に転職しました - moriyamaのエンジニアリング備忘録
2020年11月末でMNTSQ株式会社を退職し、2020年12月より株式会社みらい翻訳に入社しました。 MNTSQは自然言語処理技術を主力とした法務領域向けプロダクトを展開するスタートアップです。みらい翻訳は機械翻訳プロダクトを提供している会社で、どちらも自然言語処理技術をコアとしたプロダクトを作っている会社です。 MNTSQでは、法務というドメインの固有の課題に取り組む面白さを感じていたところだったのですが、みらい翻訳での機械翻訳という自分が最も固有の価値を発揮できそうなドメインに出会い、転職を決意しました。 AI（機械学習）という季節が常に冬か春しかない業界にいて、自分がキャリアについて考える際に、よく尊敬する人たちの入社/退職エントリを参考にしました。自分の話が誰かの役に立つことは少ないと思うものの、一例として残してみようと思います。自分について私のMNTSQ入社までの話は、過
ikutani41 2020/12/24
技術

法務

エンジニア

転職エントリー
リンク
GPT-3の学習データはどのように作られたか - moriyamaのエンジニアリング備忘録
OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、（アーキテクチャではなく）学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。
ikutani41 2020/10/09
legaltech

NLP

GPT-3

技術
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx