並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 112件

新着順 人気順

Word2vecの検索結果1 - 40 件 / 112件

  • 機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ - エンジニアHub|若手Webエンジニアのキャリアを考える!

    機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ 機械学習を学ぶために、まず知っておきたいPythonライブラリを、機械学習エンジニアの「ばんくし」こと河合俊典さんに厳選し、そのエッセンスをつづってもらいました。機械学習入門に向けたスタートアップガイドです! こんにちは。機械学習エンジニアの「ばんくし」こと河合俊典(かわい・しゅんすけ/ @vaaaaanquish )です。 近年の機械学習関連の開発では、多くの場合Pythonが用いられます。 本記事は、「機械学習をこれから初めてみたいけど何から始めればいいか分からない」「基本のキから学びたい」という方に向けて執筆しました。プログラミング言語「Python」の中でも、特に機械学習における使用頻度の高いライブラリを厳選し、その解説を目的としています。 「この記事の内容に沿ってPythonを学習すれば、機械学習エンジニアとして入

      機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ - エンジニアHub|若手Webエンジニアのキャリアを考える!
    • 夏の技術職インターンシップ講義資料公開 - クックパッド開発者ブログ

      こんにちは!クックパッド編集室メディア開発グループ長の @yoshiori です。 このまえ夏の技術職インターンシップの前半の開発講義・課題部分が終わったのでさっそく公開しちゃいます! ちなみにこのインターンの対象者はプログラミングはわかるし自分で(授業とかではなく)コード書いている人なので超初心者向けでは無く、少なくともひとつ以上の言語でプログラミングが出来る人向けです。 一日目 TDD + git 編(@yoshiori) 講義初日なのでまずは簡単に肩慣らし & 開発の基礎の部分として TDD と git で始めました。 git については軽く説明し TDD は基本のテストファーストで進めて行きました。 ちゃんと何かをするたびにテストを実行し、メッセージを見れば次にすることが分かるというのを体験してもらい、GREEN が良くて RED が悪いのではなく、GREEN を想定しているのに

        夏の技術職インターンシップ講義資料公開 - クックパッド開発者ブログ
      • これから推薦システムを作る方向けの推薦システム入門|masa_kazama

        イントロ「Amazonのこの商品をチェックした人はこの商品もチェックしています」や「YouTubeのあなたへのおすすめ」、「Twitterのおすすめユーザー」などのレコメンド機能は多くのWebサービスに組み込まれております。そのレコメンドによって、ついつい商品をたくさん買ってしまったり、夜遅くまで動画を見てしまった経験はないでしょうか。 この記事では、レコメンドシステムの裏側はどのような仕組みになっているのか、そもそもレコメンドとはどういうものなのかを具体例を交えながら俯瞰できればと思います。レコメンドシステムのアルゴリズムの詳細には触れず、ビジネスにおいてどのような形で実装されているかにフォーカスしています。ネット上に公開されているレコメンドに関するスライドや記事、論文のリンクをまとめましたので、アルゴリズムの詳細などはリンク先の記事でご確認ください。 対象の読者は、自社のサービスにレコ

          これから推薦システムを作る方向けの推薦システム入門|masa_kazama
        • 制御工学の基礎あれこれ

          In English ■初めに PID制御や現代制御などの制御工学(理論)の基礎や、制御工学に必要な物理、数学、ツール等について説明します。 私のプロフィールを簡単に説明しますと、私は自動車関連企業に勤めており、そこで日々制御工学(理論)を利用しながら設計開発をしております。 ここで説明する内容は、制御理論を扱い実際にモノに実装していく上で最低限理解しておいた方が良い内容と思います。 少しでも皆様の役に立ち、学力の底上げに貢献し、ひいては日本の発展、ひいては人類の発展に貢献できたらこの上ない喜びです。 内容を説明する際に次のことを心掛けています。 ① できるだけシンプルに。より少ない文章で内容を的確に説明する。 ② 1ページの記事のボリュームを多くし過ぎない ③ 文字のフォントは大きすぎず、行間を開けすぎない。(画面スクロールが頻繁になると情報が伝わりづらくなる) ④ 内容の説明とは直接関

          • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

            概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日本"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

              自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
            • Google Colaboratoryを使えば環境構築不要・無料でPythonの機械学習ができて最高 - karaage. [からあげ]

              Google Colaboratoryが便利 最近、Google Colaboratoryがちょっと気になっていたのですが、タダケン (id:tadaken3)さんの以下記事に分かりやすく使い方が書いてあったのをきっかけに試して見ました。 結論から言うと、これ良いですね。Google Colaboratoryには以下の特徴(利点)があります。 ローカルPCに必要なのはブラウザ(Google Chrome)のみ クラウド上にPython環境がありPython2/3 両方使える 機械学習に必要なライブラリは、ある程度プリインストールされている(numpy, matplotlib, TensorFlow等) 必要なライブラリは !pip installでインストールできる 日本語フォントも(ちょっと工夫すれば)使える 無料で使える。なんとGPUも12時間分を無料で使える! これ死角無さすぎでは…

                Google Colaboratoryを使えば環境構築不要・無料でPythonの機械学習ができて最高 - karaage. [からあげ]
              • Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita

                みなさん、こんにちは。Retty CTO の樽石です。 この記事は Retty Advent Calendar 25日目です。メリークリスマス。 昨日は @ttakeoka の『MFIにむけてRettyの取り組み』でした。 今年も残りわずかになりました。いかがお過ごしですか? Retty はこの 1 年でエンジニアがほぼ倍増しました。それによって、情報発信者が増え、Advent Calendar に参加出来るようになりました。みんな楽しそうにしていて、うれしいです。 Retty Inc. Advent Calendar 2016 - Qiita さて、今年最後の Retty Advent Calendar 記事を書くということで、はじめは 1年のまとめ的内容にしようかと思いましたが、それでは平凡で面白くありません。そこで、ネタになりそうなマニアックな技術的記事で締めくくりたいと思います。

                  Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita
                • 相変わらず半端ないディープラーニング、感動した最新の研究結果を2つ

                  ディープラーニングが猛威を振るっています。私の周りでは昨年から多く聞かれるようになり、私も日経BPさんの連載で昨年5月にGoogleの買収したDeep Mind社について触れました。今年はさらに今までディープラーニングについて触れていなかったメディアでも触れられるようになってきましたね。例えば、イケダハヤトさんも先日。高知でも話題になっているのですね。 私事ですが、今度湯川鶴章さんのTheWaveという勉強会で、人工知能とビジネスについて一時間ほど登壇させていただくことになりました。有料セミナーということです。チャールズべバッジの解析機関についてはこのブログでも以前触れましたが、「機械が人間を置き換える」みたいな妄想は100年位は言われていることですね。「解析機関」「機械学習」「人工知能」「シンギュラリティー」など、呼び名はどんどん変わり、流行り廃りもありますが、最近ロボットの発達も相まっ

                    相変わらず半端ないディープラーニング、感動した最新の研究結果を2つ
                  • データ分析・解析をやりたいエンジニアにおすすめ!Pythonの入門スライド13選

                    Pythonには「NumPy」や「Pandas」などデータ分析に役立つライブラリが充実しており、中にはPythonからRを呼び出すことができるライブラリもあります。 これからデータ分析を始めるエンジニアのために、Pythonでのデータ分析に関する入門スライドを13個まとめてご紹介いたします。 データ分析の初心者向けのスライドを中心にピックアップしていますので、これからデータ分析を学びたいというエンジニアの方はぜひご覧ください。 【ご自身のデータ分析スキルの価値を知りたい方はご相談ください】 ・市場価値を知りたい方の個別相談会 ・キャリアアップを目指す方の個別相談会 ・転職のタイミングや業界動向を知りたい方の相談会 10分でわかるPythonの開発環境 10分でわかるPythonの開発環境 from Hisao Soyama Pythonを書く前にやっておくべき開発環境の構築についてまとめた

                      データ分析・解析をやりたいエンジニアにおすすめ!Pythonの入門スライド13選
                    • エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ

                      (『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊

                        エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
                      • 図解Stable Diffusion

                        ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生

                          図解Stable Diffusion
                        • 【保存版・初心者向け】僕が本気でオススメするPythonと機械学習の良書12選

                          ※実際記事で紹介する書籍は12冊ですが、メンバーが借りてオフィスになかったため、上記画像内に3冊ないものがあります。 はじめに AI Academyを開発・運営しています、株式会社エーアイアカデミー代表の谷です。 6ヶ月ほど前に書いた下記記事は約1200のいいねと7万viewsを超える記事になりました。 【保存版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 お読み頂いた方々、またいいねして頂いた方々ありがとうございました! あれから6ヶ月ほど経ちまして、さらにPythonや機械学習の書籍が増えて参りましたので、改めて初心者向けにPythonと機械学習の良書12選を紹介し、初学者が独学でも機械学習プログラミングの基礎スキルUPに貢献できたらと思います。 また、AIプログラミングを作りながら学べるプログラミング学習サービスAI Academyを無料でご利用頂けますので

                            【保存版・初心者向け】僕が本気でオススメするPythonと機械学習の良書12選
                          • 達人出版会:技術系電子出版・電子書籍

                            探検! Python Flask Robert Picard, 濱野 司(訳) BareMetalで遊ぶ Raspberry Pi 西永俊文 なるほどUnixプロセス ― Rubyで学ぶUnixの基礎 Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳) 知る、読む、使う! オープンソースライセンス 可知豊 きつねさんでもわかるLLVM 柏木餅子, 風薬 Blenderでアニメ絵キャラクターを作ろう!トゥーンレンダリングの巻 夏森轄 サイバーセキュリティの教科書 Thomas Kranz(著), Smoky(訳), IPUSIRON(監訳) ゲーム作りで楽しく学ぶ オブジェクト指向のきほん 森 巧尚 ブランドスイッチの法則 田中 宏樹 Blenderでアニメ絵キャラクターを作ろう!モデリングの巻 夏森轄 R/RStudioでやさしく学ぶプログラミングとデータ分析 掌田津耶

                              達人出版会:技術系電子出版・電子書籍
                            • ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama

                              イントロChatGPTやBing、NotionAIなどの大規模自然言語モデル(LLM)を活用したサービスが注目を集めています。対話、要約、翻訳、アイデア生成などの多様なタスクにおいて、とても性能が高いです。ただ、ChatGPTでは、ときどき嘘が混じっていたり、文献が捏造されたりすることがあります。 ChatGPTとの対話画面(結果の書籍は存在しない)それを防ぐために、BingやPerplexityでは、文献を引用した上で、なるべく嘘が紛れ込まない形で回答してくれます。 Perplexityでは引用もつけてくれるしかし、これらのAIは、Web上の公開されている一部のデータを元に学習しているので、公開されてないデータに対しては当然ながら、正しく回答できません。 そこで、この記事では、自社が保有しているデータをChatGPTに組み込んで、自社オリジナルのPerplexityのようなシステムを作る

                                ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama
                              • Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース

                                統計処理用のマシンを使って、自然言語処理で遊ぼう! BTOパソコンで有名な「パソコン工房」から「統計処理用のPCを企画しているので、何かできないか」と相談された編集部は、はてなエンジニアと相談して「word2vec」を使って遊んでみることに。はてなブログのデータとかっこいいパソコンを使って、最新の自然言語処理で楽しむ様子をお楽しみください! 記事の終わりには2TBの外付けHDDが当たるプレゼントのお知らせも。 (※この記事は株式会社ユニットコムによるPR記事です) ―― BTOパソコンのショップ/サイトで有名な「パソコン工房」さんから、以下のような依頼が来ました。 データサイエンティスト向けに、統計処理用に使えるパソコンをいろいろと考えています。なので、何か面白い処理に使って、PR記事にしてほしいんです! ▽ 【パソコン工房公式サイト】BTOパソコン(PC)の通販 ―― ということで、はて

                                  Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース
                                • クックパッド開発者ブログ

                                  レシピ事業部バックエンド基盤グループの石川です。 2024 年 5 月 15 日から 17 日にかけて、RubyKaigi 2024 が開かれました。クックパッドは Wi-Fi スポンサーとして協賛しており、また 16 日の夜には Cookpad Drinkup at RubyKaigi 2024 と称して懇親会を開きました。 クックパッド一行 懇親会のお店の様子 この記事では、カンファレンスで懇親会を開くにあたって気をつけていたことや、うまくいったこと、うまくいかなかったことをまとめます。RubyKaigi に関わらず、技術者コミュニティを盛り上げる手段のひとつとしてご覧ください。 続きを読む はじめに こんにちは。レシピ事業部プロダクト開発グループの堀内 (@Sota_Horiuchi)です。普段はバックエンドの開発を行っている新卒2年目のエンジニアです。 RubyKaigi 2024

                                    クックパッド開発者ブログ
                                  • Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog

                                    この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook 機械学習編1(基礎編)では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基本について勉強しました。機械学習編2(実用編)では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴリズムの使い分け、高次元データへの対処法、といったトピックについて解説していきます。 実問題に機械学習を適用する タスクを定義する データを特徴ベクトルに変換する 評価方法を決める 正解データの正例と負例は均等に ベースラインとなる手法を実装する 実データに向き合うときの心構え 機械学習のワークフロー 1. 前処理 データセット作成 サンプリング 特徴抽出 欠損値・欠測値への対応 値のスケーリング 特徴選択 次元削減 2. 学習 モデ

                                      Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog
                                    • Google機械翻訳の仕組み&できるようになったこと/まだ難しいことについて、社内の機械学習勉強会で説明します - yasuhisa's blog

                                      社内の機械学習勉強会で最近話題になった機械学習関連のエントリを取り上げているのですが、ここ一ヶ月ではGoogle Neural Machine Translation(GNMT)がとても話題になっていました。GNMTで使われているEncoder-Decoderやattentionのような仕組みを直近で使う予定は特にはないですが、機械学習を使うエンジニアとして知っておいて損はないし、技術的に何が変わったことにより何ができるようになって、何はまだできないのかを知ろう、というのが目的です。技術的な項目は興味ない人も多そうなので、最後に持っていきました。 Google Neural Machine Translation(GNMT)の最近の進化について できるようになったこと 定量的な評価 まだまだ難しいこと 技術的な詳細 Encoder-decoder Attention based encod

                                        Google機械翻訳の仕組み&できるようになったこと/まだ難しいことについて、社内の機械学習勉強会で説明します - yasuhisa's blog
                                      • Deep Learning リンク集 - 人工知能に関する断創録

                                        乗るしかないこのビッグウェーブに Deep Learning(深層学習)に関連するまとめページとして使用する予定です。Deep Learningに関する記事・スライド・論文・動画・書籍へのリンクをまとめています。最新の研究動向は全然把握できていないので今後研究を進めるなかで記録していきたいと思います。読んだ論文の概要も簡単にまとめていく予定です。本ブログでは、当面の間、Theanoを使って各種Deep Learningアルゴリズムを実装していきたいと思います。 関連ニュースなどはTwitterでも流しているので興味があったらフォローしてください。 すべてに目が通せず更新が追いついていません。私のはてなブックマークで[Deep Learning]というタグを付けて登録しています。まったく整理できていませんがご参考まで。 Theano編 TheanoをWindowsにインストール(2015/1

                                          Deep Learning リンク集 - 人工知能に関する断創録
                                        • AI・Python活用レシピ100選 - Qiita

                                          ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

                                            AI・Python活用レシピ100選 - Qiita
                                          • 今、人工知能研究で何が起こっているのか

                                            半年前くらいに書いた草稿が、投稿されずに残ってたのでちゃんと書きました。 最近、人工知能という言葉がまた流行しているような印象を受けます。 ブームということの本質は2つ有ると思っています。 1つは学術会で、最近良い成果が立て続けに出てきたという側面です。 もう一つは、それに呼応して大きな会社、特にIBMやGoogle、Facebookといった大きなコンピュータ系、インターネット関連企業が力を入れていることが大々的に報道されたことです。 両者はもちろん関係していて、いくつか技術的ブレークスルーがあって、それが企業の投資を呼んでいる、それと呼応するように学術的な成果が企業からでているという、正のスパイラルが生まれている様に見えます。 こうした流れをいち早くとらえた新書として、「クラウドからAIへ」という本があったので読んでみたのですが、一般のビジネスマンを意識して、歴史、現在、未来について大局

                                              今、人工知能研究で何が起こっているのか
                                            • Chainerで顔イラストの自動生成 - Qiita

                                              PFNのmattyaです。chainerを使ったイラスト自動生成をやってみました(上の画像もその一例です)。 20日目の@rezoolabさんの記事(Chainerを使ってコンピュータにイラストを描かせる)とネタが被っちゃったので、本記事ではさらに発展的なところを書いていきたいと思います。一緒に読んでいただくとよいかと。 概要 Chainerで画像を生成するニューラルネットであるDCGANを実装した→github safebooruから顔イラストを集めてきて学習させた 学習済みモデルをconvnetjsで読み込ませて、ブラウザ上で動くデモを作成した→こちら(ローディングに20秒程度かかります) アルゴリズム 今回実装したDCGAN(元論文)はGenerative Adversarial Networkというアルゴリズムの発展形です。GANの目標は、学習データセットと見分けがつかないようなデ

                                                Chainerで顔イラストの自動生成 - Qiita
                                              • 『コーディングを支える技術』の西尾泰和と考える、エンジニアが学ぶべき技術の原理原則|ハイクラス転職・求人情報サイト AMBI(アンビ)

                                                『コーディングを支える技術』の西尾泰和と考える、エンジニアが学ぶべき技術の原理原則 名著として知られる『コーディングを支える技術』を著者の西尾泰和さんと、現役エンジニアの池田惇さんが読み解きます。成長を続けるために必要な「インプットの深度」を探ると、エンジニアとしての生存戦略が見えてきました。 数多くの開発者から支持を受け、読み継がれてきた名著。そこには読み継がれる理由があります。名著には、内容・ボリュームともに充実した書籍が多く、概要に目を通しただけで本を読んだつもりになっていたり、腰を据えて読む時間がなく「積ん読」してしまいがち。「エンジニアが絶対読むべき書籍●選」といった記事をブックマークするだけで読んだつもりになっていないでしょうか。ポイントを押さえつつ内容を深掘りし、名著の根底に流れるエッセンスを開発に活かしましょう。 エンジニア向け名著を読み解いていく当企画。第5回に取り上げる

                                                  『コーディングを支える技術』の西尾泰和と考える、エンジニアが学ぶべき技術の原理原則|ハイクラス転職・求人情報サイト AMBI(アンビ)
                                                • 【Day-23】機械学習で使う"距離"や"空間"をまとめてみた - プロクラシスト

                                                  データ分析ガチ勉強アドベントカレンダー 23日目。 ここまでデータをどういう風に処理したり、どういうタスクをこなしていくかについて勉強してきたが、 一度基礎的な事項に戻ってみたいと思う。基礎だから簡単というわけではない。基礎だからこそ難しく、また本質的な内容。 データ分析で使われている手法などをまとめて集約して、簡単な説明を付け加えていく。 しかし、このあたりの数学*1は苦手なので、なるべく直感的に自分のイメージを書いていく。 われわれが生きている空間や、距離は"正しい"のか ユークリッド空間/ユークリッド距離 点の距離 分布の距離 wasserstein計量 カーネル(再生核ヒルベルト空間) Topological Data Analysis(TDA) 次元削減/Embedding PCA(principal component analysis) t-SNE(t-Distributed

                                                    【Day-23】機械学習で使う"距離"や"空間"をまとめてみた - プロクラシスト
                                                  • ビーフストロガノフはどのくらい強いのか - Qiita

                                                    # !wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ja.300.vec.gzで落とせます model = gensim.models.KeyedVectors.load_word2vec_format('cc.ja.300.vec.gz', binary=False) repat = re.compile(r'^[あ-ん\u30A1-\u30F4\u4E00-\u9FD0]+$') vocab_list = [w for w in list(model.vocab.keys())[10000:50000] if len(w) > 2 and repat.fullmatch(w) and w[-1] != 'っ' and w not in list(ww_df.word) and w not in list(sw

                                                      ビーフストロガノフはどのくらい強いのか - Qiita
                                                    • B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常

                                                      1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。 このグループ1つ1つを「トピック」と呼びます。 例えば、大量のニュース記事にLDAを適用する例を考えます。 ニュース記事データにLDAを適用した例 LDAでは「各トピック(トピック数は予め指定)における各単語の所属確率」が算出されます。 理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法 との理解で大丈夫です。 よく勘違いされることとして以下の2点を示します。 トピック数(いくつ

                                                        B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常
                                                      • word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室

                                                        久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

                                                          word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室
                                                        • 自然言語処理の前処理・素性いろいろ - Debug me

                                                          ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

                                                            自然言語処理の前処理・素性いろいろ - Debug me
                                                          • 初心者でも機械学習の基本的なアルゴリズムを学べる11のスライド - paiza times

                                                            Photo by fdecomite こんにちは。谷口です。 最近、機械学習の勉強をしている人や、機械学習関連の求人が増えてきましたね。弊社のエンジニアにも、機械学習を勉強中の人達が何人かいます。 ただ、初心者だと「機械学習を勉強したいけど、難しいし何から手を付けたらいいのかよくわからない」という人も多いかと思います。 そこで今回は、機械学習の勉強を始めたばかりという初心者の方向けに、機械学習でよく使われるアルゴリズムがわかるスライドをいくつかご紹介します。 ■機械学習以前 そもそも「機械学習で何ができるのか・どんなものなのか知りたい」という段階の人が機械学習の概要をつかむには、このあたりのスライドが参考になるかと思います。 If文から機械学習への道 from nishio www.slideshare.net 機械学習入門以前 from mrtc0 www.slideshare.net

                                                              初心者でも機械学習の基本的なアルゴリズムを学べる11のスライド - paiza times
                                                            • 形態素解析ツールの比較 (NLP2018) - Qiita

                                                              NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。 間違っている部分、追加したい内容があればコメントでお願いします。 追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから 趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。 さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま

                                                                形態素解析ツールの比較 (NLP2018) - Qiita
                                                              • パソコン工房のPCで遊ぼう第2弾! あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース

                                                                (これまでのあらすじ)前回、パソコン工房から「統計処理用のPCのPR企画をやりたい」と依頼を受けて、はてなエンジニアと一緒にword2vecで遊んでみた編集部。読者の皆さまにも好評だったので、調子に乗って第2弾を実施することにしました。今回は「"word2vec"で艦これ加賀さんから乳を引いてみる」で一世を風靡した、あの統計屋さんが全面協力です! 記事の最後にはプレゼントのお知らせも。 (※この記事は株式会社ユニットコムによるPR記事です) 皆さまは前回の記事を、覚えておりますでしょうか? ▽ Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース パソコン工房の統計処理用PC × はてなブログのデータ × word2vec という記事でした。ブックマークコメントから感想をいくつかピックアップし

                                                                  パソコン工房のPCで遊ぼう第2弾! あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース
                                                                • pixiv小説で機械学習したらどうなるのっと【学習済みモデルデータ配布あり】 - pixiv inside [archive]

                                                                  こんばんは。プログラマーのhakatashiです。2ヶ月ぶりですね。普段はpixivコミックやpixivノベルの開発を手伝っていますが、今回もそれとは全く関係ない話をします。 pixiv×機械学習 「機械学習」「深層学習」といった単語がプログラマーの間でも広く囁かれるようになって既に幾年月経とうとしています。ここpixivの開発陣においても、人口に膾炙する機械学習の輝かしい成果に関する話題は尽きることがなく、常に最新のトピックに目を光らせています。 そんな取り組みの一環として、今回は弊社が運営するpixivの小説機能の投稿データで機械学習を行ってみたので、簡単に紹介したいと思います。 ※この記事における「pixiv小説」とは「pixivの小説投稿機能およびそれによってpixivに投稿された小説」を指し、「pixivノベル」とは異なります。 word2vecとは 自然言語処理における機械学習

                                                                    pixiv小説で機械学習したらどうなるのっと【学習済みモデルデータ配布あり】 - pixiv inside [archive]
                                                                  • 「人工知能に対する楽観的な妄想」はいつか来た道 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                    こんな名文が話題になっていたようで。 非常に面白い文章で、特に以下の下りは痛快だなと感心しながら読んでました。 2006 年頃、「現在の人工知能研究の先には新興宗教にはまる計算機が出てくる」というネタを思いついたが、知人の反応が悪かったのでお蔵入りした。それから 10 年近くたったが状態に変化はない。人間を超える知能という楽観的な妄想がどこから来るのか不思議で仕方がない。 同じような光景を以前見たことがあるなぁと思い出したので、その時のことを回想しながら現在の「人工知能ブーム」ないし「人工知能に対する楽観的な妄想」についてちょっと思うところを書いてみました。 なお、僕自身は人工知能というか機械学習の専門家ではなくどちらかというとそれらのアルゴリズムのユーザーという立場なので、その立場から主に世論の動きについて論じてみましたという立ち位置です。 人工知能そしてsingularityという「夢

                                                                      「人工知能に対する楽観的な妄想」はいつか来た道 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                    • 自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷

                                                                      最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。 以下

                                                                        自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷
                                                                      • 【Python】🍜機械学習で「隠れた名店」を探してみた。(そして実際に行ってみた)🍜 - Qiita

                                                                        1.簡単な概要 この記事では都内ラーメン屋の食べログ口コミを使って隠れた名店をレコメンドで発掘するやり方を解説していきます。 私自身🍜が大好きで昔は年間100杯以上食べ歩いてきた自称ラーメンガチ勢です。しかしながら、直近の健康診断にひっかかり、医者からドクターストップをかけられてしまいました。。。 行き場をなくしたラーメン熱を発散すべく機械学習でラーメンレコメンド(隠れた名店をレコメンドで発掘)に挑戦してみることにしました。 今回は、集大成として、Word2vecでモデリングしたmodelを使って隠れた名店をガチで発掘し、実際にそのお店に行って確かめるところまでやります! 有名店のラーメンに対して類似度が高いラーメン店を探すイメージです。 techgymさんのブログに掲載いただきました!ありがとうございます。 【人工知能の無駄遣い?】AIプログラミングの面白記事をまとめてみました。 2.

                                                                          【Python】🍜機械学習で「隠れた名店」を探してみた。(そして実際に行ってみた)🍜 - Qiita
                                                                        • 2016年のディープラーニング論文100選 - Qiita

                                                                          これはFujitsu Advent Calendar 2016の11日目の記事です。 掲載内容は個人の意見・見解であり、富士通グループを代表するものではありません。なお、内容の正確性には注意を払っていますが無保証です。 はじめに この記事では先月今年発表されたディープラーニング論文(ArXivでの発表時期、発表された国際会議が2016年開催またはジャーナル掲載が2016年のもの)から私が個人的に重要だと思った論文を収集しています。また、2015年末ごろの論文も重要なものは採用しています。 以下の投稿も合わせてご覧ください。 2017年のディープラーニング論文100選 DeepLearning研究 2016年のまとめ 2016年の深層学習を用いた画像認識モデル foobarNet: ディープラーニング関連の○○Netまとめ NIPS2016実装集 ディープラーニングにとっての2016年 20

                                                                            2016年のディープラーニング論文100選 - Qiita
                                                                          • Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ

                                                                            研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前(以下、材料名)の正規化があります。 クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。 さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。 これは異表記同義(いわゆる表記揺れ)の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。

                                                                              Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ
                                                                            • はじめてのGAN

                                                                              今回はGAN(Generative Adversarial Network)を解説していきます。 GANは“Deep Learning”という本の著者でもあるIan Goodfellowが考案したモデルです。NIPS 2016でもGANのチュートリアルが行われるなど非常に注目を集めている分野で、次々に論文が出てきています。 また、QuoraのセッションでYann LeCunが、この10年の機械学習で最も面白いアイディアと述べていたりもします。 “The most interesting idea in the last 10 years in ML, in my opinion.” –Yann LeCun GANは聞いたことはあるけれどあまり追えてないという人向けに基礎から解説していきたいと思います。それでは順に見ていきましょう。 目次 基礎理論 DCGAN 実装 論文紹介 まとめ 基礎理

                                                                                はじめてのGAN
                                                                              • 自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData

                                                                                言語データの分析と応用のために自然言語処理と呼ばれる分野で長年研究が行われて来た。同分野が昨年から大きく沸き立っている。米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法「Word2Vec」が、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にしたのだ。 この手法によって得られるベクトル空間には、今まで定量的に捉えることの難しかった言葉の「意味」を極めて直接的に表現しているかのような性質が認められている。今年9月、当社がスポンサー参加した自然言語処理系の研究発表会「NLP若手の会 第9回シンポジウム」でも、多くの研究がWord2Vecに関連したテーマについて取り上げていた。今後、意味解析、文書分類、機械翻訳など様々な分野でWord2Vecの応用が期待されている。 「意味ベクトル」の驚異的な性質 Word2Vecは、その名前の表す通り、単語をベクトル化して表現する

                                                                                  自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData
                                                                                • 自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々

                                                                                  雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています. 最終更新 2018年02月03日 チュートリアル 言語処理100本ノック 言語処理100本ノック 2015 東工大の岡崎先生が作られたチュートリアルです. 他大学の研究室でも利用されています. 簡単な内容からはじまるので,プログラミングの導入としてもいいと思います. NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです. Githubにサンプルコードが公開されています. 各チュートリアルにはテストがついているので,実装が正しいかを確かめることができます. 扱っているトピックが広いので,かなり勉強になると思います. ソフト 形態素解析器 日本

                                                                                    自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々