[B! 自然言語処理] yoshiwebのブックマーク

yoshiweb id:yoshiweb

自然言語処理に関するyoshiwebのブックマーク (16)

言語処理100本ノック 2020 (Rev 2)
言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは，実用的でワクワクするような課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です．詳細ツイート
yoshiweb 2020/04/08
言語処理

自然言語処理
リンク
PyTorch GPT-2でサクッと文章生成してみる | cedro-blog
今回は、話題のGPT-2学習済みモデルを使ってサクッと文章生成してみます。こんにちは cedro です。 2/14 OpenAIは自然言語の文章を生成するモデル GPT-2 を発表しました。但し、あまりにも完成度が高いために、悪意を持った利用を恐れ、GPT-2 そのものではなく、縮小版モデルと論文のみが公開されています。先回のブログでご紹介した様に、画像については、StyleGANという本物と見分けの付かないフェイク顔画像を生成するモデルが発表される中、今度は文章というわけですね。ということで、今回は、話題のGPT-2学習済みモデルを使ってサクッと文章生成してみます。 GPT-2とは？この図はGPTのアーキテクチャーを表したものです。以前、文章生成と言えば RNNモデルを使っていましたが、GPTはAttentionモデルを使っています。私たちが言語を理解するとき、単語１つ１つを
yoshiweb 2019/06/28
自然言語処理
リンク
[Python]機械学習などでテキストデータを特徴量にする際のソースコード集 – かものはしの分析ブログ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストテキストデータの特徴量化について仕事ではテキストデータを多用するので、機械学習などで扱うためにテキストデータを特徴量にするためのアプローチを色々と整理してソースコードを残しておきたいと思います。今回はあくまでも私の知っているものだけなので、網羅性はないかもしれませんが悪しからず。（2019/08/18 追記）Stackingをカジュアルに行えるvecstackというモジュールを用いた予測も試してみました。下の方の追記をご覧ください。アプローチテキストデータを特
yoshiweb 2019/06/25
機械学習

python

自然言語処理
リンク
人間参加型（human-in-the-loop）機械学習とは？
We help companies test and improve machine learning models via our global AI Community of 1 million+ annotators and linguists. Our proprietary Ground Truth AI training platform handles all data types across 500+ languages and dialects. Our AI Data Solutions vastly enhance AI systems across a range of applications from advanced smart products, to better search results, to expanded speech recognitio
yoshiweb 2019/06/05
機械学習

自然言語処理

データ

日本語
リンク
MS、自然言語処理ライブラリをオープンソース化
Microsoftは米国時間2019年5月15日、Web検索などで用いるC++をPythonでラップしたライブラリ「SPTAG(Space Partition Tree and Graph)」をGitHubで公開した。公式ブログによれば、SPTAGを利用することで深層学習モデルを利用して、ベクトルと呼ばれる何十億もの情報をミリ秒単位で検索可能となり、より関連性の高い結果を迅速に利用者へ提供できる。同社は一例として、ユーザーが「パリの塔の高さはどれくらい?」と入力した場合、Bingは『Eiffel』を含まなくとも『Tall』を鍵にして、1,063フィート(324メートル)と回答すると説明した。 Bingによる検索結果先の一例からも分かるとおりSPTAGは、BingチームやMSRA(Microsoft Researc Asia)の研究者による成果であり、すでにBingに組み込まれている。Bi
yoshiweb 2019/05/23
microsoft

機械学習

自然言語処理
リンク
【Python】🍜可愛い店員さんがいるラーメン店を食べログ口コミから自然言語処理で抽出してみた。🍜 - Qiita
１.簡単な概要この記事では都内ラーメン屋の食べログ口コミを自然言語処理して、「可愛い店員さんがいるラーメン店」を探す方法について解説していきます。先日、食べログの口コミを読んでいる中で、「美人すぎるラーメン店主」という世の男性なら思わず「なぬ！」と立ち止まってしまうワードを見つけたので、ガチで調べてみたら面白そうだなと思いやってみました。まずは、口コミデータの取得から。２.口コミデータの取得詳しくはこちら↓↓で説明しています。第１弾：【Python】ラーメンガチ勢によるガチ勢のための食べログスクレイピング口コミを１件ずつ取得した後に、データフレームにまとめました。 ※食べログ規約にもとづき口コミに関する箇所にはモザイクをいれております。ご了承ください。３.可愛い店員さんがいるお店の定義可愛い店員さんをどのようにして探すかが一番のポイントですが、まずは、文章の中で「可愛い
yoshiweb 2019/05/14
Qiita

python

自然言語処理
リンク
あなたの文章に合った「いらすとや」画像をレコメンド♪（アルゴリズム解説編） - Qiita
はじめに本記事はあなたの文章に合った「いらすとや」画像をレコメンド♪シリーズの第2回、アルゴリズム解説編です。文章を与えると、それに近い意味を持った「いらすとや」画像を探してレコメンドしてくれるアプリのアルゴリズムについて解説します。機能概要は第1回、あなたの文章に合った「いらすとや」画像をレコメンド♪（機能概要編）をご参照ください。アルゴリズムの概要本アプリの基本的なアイディアは次のとおりです。与えられた文や画像の説明文を、それぞれ文の分散表現（つまりはベクトル）に変換する。与えられた文と画像の説明文の意味の近さを、それぞれの文の分散表現を使って計算する（意味の近さ = 2つのベクトルのなす角の小ささ = コサイン類似度の大きさとする）。コサイン類似度が大きい説明文を持つ画像トップN個を選ぶことで、与えられた文と意味が近い画像を発見できる。模式図にすると、次のようになり
yoshiweb 2019/03/02
Qiita

自然言語処理
リンク
言語処理100本ノック 2015
言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています
yoshiweb 2019/03/02
自然言語処理

機械学習
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
yoshiweb 2019/02/27
python

自然言語処理

NLP
リンク
オレプログラムウゴカスオマエゲンシジンナル - Qiita
ガイヨウオレオマエゲンシジンスルプログラムカイタゲンシジンジョシツカワナイゲンゴショリスルジョシケスゲンシジンカンジヒラガナシラナイゼンブカタカナスルサンプル import requests import json import sys BASE_URL = "https://api.ce-cotoha.com/api/dev/" CLIENT_ID = "オマエアイディイレル" CLIENT_SECRET = "オマエシークレットイレル" def auth(client_id, client_secret): token_url = "https://api.ce-cotoha.com/v1/oauth/accesstokens" headers = { "Content-Type": "application/json", "charse
yoshiweb 2019/02/17
Qiita

ネタ

python

自然言語処理
リンク
自然言語処理をサービスで活用しよう！ Sansanに学ぶ「多種多様なテキスト」からのデータ分析｜ハイクラス転職・求人情報サイト AMBI（アンビ）
自然言語処理をサービスで活用しよう！ Sansanに学ぶ「多種多様なテキスト」からのデータ分析自然言語処理をサービスに投入し、“できること”とは？名刺管理サービス「Sansan」を提供するSansan社では、名刺に記載された情報のデータ化において、自然言語処理を徹底的に活用しています。同社のデータ統括部門DSOCで日夜研究を続ける奥田裕樹さんと高橋寛治さんの2人に、サービスの裏で動く、自然言語処理のユースケースを語っていただきました。名前や企業名、電話番号、メールアドレス──。名刺のなかには、重要な個人情報がテキストの形で記載されています。そういった情報や企業のWebページ情報などを解析し、ユーザーに有効活用してもらうべく研究開発を続けているのが、法人向けクラウド名刺管理サービス「Sansan」や個人向け名刺アプリ「Eight」を提供するSansan株式会社です。同社はいわば、日本で
yoshiweb 2019/02/05
自然言語処理
リンク
自然言語処理の前処理・素性いろいろ - Debug me
ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋智光技術評論社Amazon 前処理余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ﾊﾝｶｸｶﾅ') # => 'ハンカクカナ' neologdn.normalize
yoshiweb 2018/06/14
自然言語処理

前処理
リンク
教師なし学習は機械翻訳に魔法をかけるか？ - ディープラーニングブログ
つい先週，機械翻訳で驚くべき進展がありました．教師なし機械翻訳がヤバい進化を遂げててびっくりした．たった半年でBLEUスコアを15から25に改善したのブレイクスルーでは？https://t.co/SVQlYYu2Pt 教師なし学習でこのクオリティの機械翻訳できるのまじで感動するし，ちょっと語っていい？ pic.twitter.com/fBllGtTkgb— Ryobot | りょぼっと (@_Ryobot) 2018年4月23日要約すると教師なし学習でもひと昔前の教師あり学習の機械翻訳に匹敵する性能を獲得できたというのです．この記事では機械翻訳を知らない初心者にもわかるように魔法のような教師なし機械翻訳の仕組みを説明したいと思います．教師あり学習の限界機械翻訳はディープラーニングを適用することで急激に進歩した分野の１つだと思います．Google 翻訳はニューラル機械翻訳を導入するこ
yoshiweb 2018/04/29
機械学習

自然言語処理

翻訳
リンク
『自然言語処理の基本と技術』が面白い！ - toricago
スマートスピーカーが日本で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この
yoshiweb 2018/03/06
自然言語処理

機械学習
リンク
【2019/2月更新】Watson Discovery Serviceが日本語対応したので、触ってみた【何、それ？】編 - Qiita
【2019/2月更新】Watson Discovery Serviceが日本語対応したので、触ってみた【何、それ？】編BluemixWatsonibmcloudDiscovery 当記事の初版は2017/9月に書いたものですが、Discoveryは日本語フル・サポート始めガンガン機能拡張が入っているので、2019/2月時点で内容を最新版にアップデート1しました。当記事は2部構成とし、①「何、それ?」という方向けの「ご紹介編」と②実際の手順をご紹介する「やってみた編」に分けてます。大筋だけ知りたいけど手を動かすほどじゃない、って方は当記事だけお目をお通しくださいませ。【やってみた】編はこちらです ( 2019/2月　SDUを使った最新版に更新済） Watson Discovery Serviceって何? 一言で言えば「コグニティブ・クエリー」でしょうか。ホームページでの謳い文句を翻訳する
yoshiweb 2017/11/10
Watson

IBM

IBMCloud

Discovery

自然言語処理
リンク
Recurrent Convolutional NNでテキスト分類 - Qiita
機械学習でテキスト分類をできないかと調べたところ、2種類の手法が提案されていました。 CNNによるテキスト分類 RNNで文書分類（Text Classification）前者の手法は既にTensorFlowによる実装があったのと、直接Chainerで記述できなかった(covolution_2dではx軸固定の畳み込みができない)ので、後者を実装してみました。追記この記事を書いた当時はフィルタの幅と入力行列の幅を同じにしたとき、0除算例外が出てしまっていたのですが、今は問題なくできるようになっていました。自分が試した頃は確かversion 1.6あたりだったと思います。 ChainerによるCNN実装例がQiitaにもあります。【Chainer】畳み込みニューラルネットワークによる文書分類こちらの実装では、単語埋め込み表現をword2vecで既に学習させたものを利用していますが、li
yoshiweb 2017/08/28
自然言語処理

機械学習

chainer

Qiita
リンク
1