言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは,実用的でワクワクするような課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です. 詳細 ツイート
![言語処理100本ノック 2020 (Rev 2)](https://cdn-ak-scissors.b.st-hatena.com/image/square/4575170ed42d119a02efa1ec4ee1e9336e655ba1/height=288;version=1;width=512/https%3A%2F%2Fnlp100.github.io%2Fassets%2Fimages%2Fnlp100.jpg)
今回は、話題のGPT-2学習済みモデルを使ってサクッと文章生成してみます。 こんにちは cedro です。 2/14 OpenAIは自然言語の文章を生成するモデル GPT-2 を発表しました。但し、あまりにも完成度が高いために、悪意を持った利用を恐れ、GPT-2 そのものではなく、縮小版モデルと論文のみが公開されています。 先回のブログでご紹介した様に、画像については、StyleGANという本物と見分けの付かないフェイク顔画像を生成するモデルが発表される中、今度は文章というわけですね。 ということで、今回は、話題のGPT-2学習済みモデルを使ってサクッと文章生成してみます。 GPT-2とは? この図はGPTのアーキテクチャーを表したものです。以前、文章生成と言えば RNNモデル を使っていましたが、GPTはAttentionモデルを使っています。 私たちが言語を理解するとき、単語1つ1つを
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト テキストデータの特徴量化について 仕事ではテキストデータを多用するので、機械学習などで扱うためにテキストデータを特徴量にするためのアプローチを色々と整理してソースコードを残しておきたいと思います。今回はあくまでも私の知っているものだけなので、網羅性はないかもしれませんが悪しからず。 (2019/08/18 追記)Stackingをカジュアルに行えるvecstackというモジュールを用いた予測も試してみました。下の方の追記をご覧ください。 アプローチ テキストデータを特
We help companies test and improve machine learning models via our global AI Community of 1 million+ annotators and linguists. Our proprietary Ground Truth AI training platform handles all data types across 500+ languages and dialects. Our AI Data Solutions vastly enhance AI systems across a range of applications from advanced smart products, to better search results, to expanded speech recognitio
Microsoftは米国時間2019年5月15日、Web検索などで用いるC++をPythonでラップしたライブラリ「SPTAG(Space Partition Tree and Graph)」をGitHubで公開した。公式ブログによれば、SPTAGを利用することで深層学習モデルを利用して、ベクトルと呼ばれる何十億もの情報をミリ秒単位で検索可能となり、より関連性の高い結果を迅速に利用者へ提供できる。同社は一例として、ユーザーが「パリの塔の高さはどれくらい?」と入力した場合、Bingは『Eiffel』を含まなくとも『Tall』を鍵にして、1,063フィート(324メートル)と回答すると説明した。 Bingによる検索結果 先の一例からも分かるとおりSPTAGは、BingチームやMSRA(Microsoft Researc Asia)の研究者による成果であり、すでにBingに組み込まれている。Bi
1.簡単な概要 この記事では都内ラーメン屋の食べログ口コミを自然言語処理して、「可愛い店員さんがいるラーメン店」を探す方法について解説していきます。 先日、食べログの口コミを読んでいる中で、「美人すぎるラーメン店主」という世の男性なら思わず「なぬ!」と立ち止まってしまうワードを見つけたので、ガチで調べてみたら面白そうだなと思いやってみました。 まずは、口コミデータの取得から。 2.口コミデータの取得 詳しくはこちら↓↓で説明しています。 第1弾:【Python】ラーメンガチ勢によるガチ勢のための食べログスクレイピング 口コミを1件ずつ取得した後に、データフレームにまとめました。 ※食べログ規約にもとづき口コミに関する箇所にはモザイクをいれております。ご了承ください。 3.可愛い店員さんがいるお店の定義 可愛い店員さんをどのようにして探すかが一番のポイントですが、 まずは、文章の中で「可愛い
はじめに 本記事はあなたの文章に合った「いらすとや」画像をレコメンド♪シリーズの第2回、アルゴリズム解説編です。 文章を与えると、それに近い意味を持った「いらすとや」画像を探してレコメンドしてくれるアプリのアルゴリズムについて解説します。 機能概要は第1回、あなたの文章に合った「いらすとや」画像をレコメンド♪(機能概要編)をご参照ください。 アルゴリズムの概要 本アプリの基本的なアイディアは次のとおりです。 与えられた文や画像の説明文を、それぞれ文の分散表現(つまりはベクトル)に変換する。 与えられた文と画像の説明文の意味の近さを、それぞれの文の分散表現を使って計算する(意味の近さ = 2つのベクトルのなす角の小ささ = コサイン類似度の大きさとする)。 コサイン類似度が大きい説明文を持つ画像トップN個を選ぶことで、与えられた文と意味が近い画像を発見できる。 模式図にすると、次のようになり
はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
ガイヨウ オレ オマエ ゲンシジンスル プログラム カイタ ゲンシジン ジョシ ツカワナイ ゲンゴショリ スル ジョシ ケス ゲンシジン カンジ ヒラガナ シラナイ ゼンブ カタカナ スル サンプル import requests import json import sys BASE_URL = "https://api.ce-cotoha.com/api/dev/" CLIENT_ID = "オマエ アイディ イレル" CLIENT_SECRET = "オマエ シークレット イレル" def auth(client_id, client_secret): token_url = "https://api.ce-cotoha.com/v1/oauth/accesstokens" headers = { "Content-Type": "application/json", "charse
自然言語処理をサービスで活用しよう! Sansanに学ぶ「多種多様なテキスト」からのデータ分析 自然言語処理をサービスに投入し、“できること”とは?名刺管理サービス「Sansan」を提供するSansan社では、名刺に記載された情報のデータ化において、自然言語処理を徹底的に活用しています。同社のデータ統括部門DSOCで日夜研究を続ける奥田裕樹さんと高橋寛治さんの2人に、サービスの裏で動く、自然言語処理のユースケースを語っていただきました。 名前や企業名、電話番号、メールアドレス──。名刺のなかには、重要な個人情報がテキストの形で記載されています。 そういった情報や企業のWebページ情報などを解析し、ユーザーに有効活用してもらうべく研究開発を続けているのが、法人向けクラウド名刺管理サービス「Sansan」や個人向け名刺アプリ「Eight」を提供するSansan株式会社です。同社はいわば、日本で
ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize
つい先週,機械翻訳で驚くべき進展がありました. 教師なし機械翻訳がヤバい進化を遂げててびっくりした.たった半年でBLEUスコアを15から25に改善したのブレイクスルーでは?https://t.co/SVQlYYu2Pt 教師なし学習でこのクオリティの機械翻訳できるのまじで感動するし,ちょっと語っていい? pic.twitter.com/fBllGtTkgb— Ryobot | りょぼっと (@_Ryobot) 2018年4月23日 要約すると教師なし学習でもひと昔前の教師あり学習の機械翻訳に匹敵する性能を獲得できたというのです.この記事では機械翻訳を知らない初心者にもわかるように魔法のような教師なし機械翻訳の仕組みを説明したいと思います. 教師あり学習の限界 機械翻訳はディープラーニングを適用することで急激に進歩した分野の1つだと思います.Google 翻訳はニューラル機械翻訳を導入するこ
スマートスピーカーが日本で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。 今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この
【2019/2月更新】Watson Discovery Serviceが日本語対応したので、触ってみた【何、それ?】編BluemixWatsonibmcloudDiscovery 当記事の初版は2017/9月に書いたものですが、Discoveryは日本語フル・サポート始めガンガン機能拡張が入っているので、2019/2月時点で内容を最新版にアップデート1しました。 当記事は2部構成とし、①「何、それ?」という方向けの「ご紹介編」と②実際の手順をご紹介する「やってみた編」に分けてます。大筋だけ知りたいけど手を動かすほどじゃない、って方は当記事だけお目をお通しくださいませ。 【やってみた】編はこちらです ( 2019/2月 SDUを使った最新版に更新済) Watson Discovery Serviceって何? 一言で言えば「コグニティブ・クエリー」でしょうか。ホームページでの謳い文句を翻訳する
機械学習でテキスト分類をできないかと調べたところ、2種類の手法が提案されていました。 CNNによるテキスト分類 RNNで文書分類(Text Classification) 前者の手法は既にTensorFlowによる実装があったのと、直接Chainerで記述できなかった(covolution_2dではx軸固定の畳み込みができない)ので、後者を実装してみました。 追記 この記事を書いた当時はフィルタの幅と入力行列の幅を同じにしたとき、0除算例外が出てしまっていたのですが、今は問題なくできるようになっていました。自分が試した頃は確かversion 1.6あたりだったと思います。 ChainerによるCNN実装例がQiitaにもあります。 【Chainer】畳み込みニューラルネットワークによる文書分類 こちらの実装では、単語埋め込み表現をword2vecで既に学習させたものを利用していますが、li
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く