並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 123件

新着順 人気順

tf-idfの検索結果1 - 40 件 / 123件

  • 機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ - エンジニアHub|若手Webエンジニアのキャリアを考える!

    機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ 機械学習を学ぶために、まず知っておきたいPythonライブラリを、機械学習エンジニアの「ばんくし」こと河合俊典さんに厳選し、そのエッセンスをつづってもらいました。機械学習入門に向けたスタートアップガイドです! こんにちは。機械学習エンジニアの「ばんくし」こと河合俊典(かわい・しゅんすけ/ @vaaaaanquish )です。 近年の機械学習関連の開発では、多くの場合Pythonが用いられます。 本記事は、「機械学習をこれから初めてみたいけど何から始めればいいか分からない」「基本のキから学びたい」という方に向けて執筆しました。プログラミング言語「Python」の中でも、特に機械学習における使用頻度の高いライブラリを厳選し、その解説を目的としています。 「この記事の内容に沿ってPythonを学習すれば、機械学習エンジニアとして入

      機械学習入門 - 基本のPythonライブラリ、9つを触って学ぶ - エンジニアHub|若手Webエンジニアのキャリアを考える!
    • MySQLノウハウ

      いろいろな本からメモってきたメモのメモ。出典を書いておくのを忘れた。思い出し次第補完するかも。 deleteのコストは高いので、無効化を示すフィールドを作ってupdateすべき slow query logに要注意 多くのエントリでほとんどのフィールドが同じ値を持つ場合はインデックスの効果が小さい →複合インデックスの効果が大きい 複合インデックスは指定の順番が大切。AとBという指定の場合、A単独でもインデックスの効果がある。逆は真でない。 インデックスが使われる場面は フィールド値を定数と比較するとき (where name = 'hogehoge') フィールド値でJOINするとき (where a.name = b.name) フィールド値の範囲を求めるとき (<,>,between) LIKE句が文字列から始まるとき (where name like 'hoge%') min(),

      • 3年かけてたどり着いた英語記事を読むための方法 - Qiita

        2023/07/03 要約ツールに「ChatGPTを利用する場合」を追加し、サンプルの生成結果を記載しました。 以前は英語の記事の読み書きが苦手だったのを、このようにして克服した、という話を書きます。 成果を数値で測ってないですが、RSSフィードに登録している英語メディアの数が大幅に増えました。以前は全体の5%程度に対し、今は50%以上が英語メディアになっています。英語に対する心理的ハードルは大きく下がりました。 また、読む力を付けたことで自作のOSSのREADMEもほぼ自力で書けるようになりました。 https://github.com/goodwithtech/dockle/blob/master/README.md では始めます。 全体像 僕の場合、1000文字以上の英文記事を読む場合、STEP1に含まれる内容は必ず行います。 STEP2に含まれるものは、辞書なしで読めないときだけ行

          3年かけてたどり着いた英語記事を読むための方法 - Qiita
        • 機械学習に本気で取り組むためにやった数学周り 前半戦結果 - きのこる庭

          自分と同じようなバックグラウンドで「機械学習周辺の数学まわりの勉強をしたい」という人の助けに少しでもなれればと思い、半年間の勉強の軌跡を公開することにした。 ● 前提 ・数学の勉強と言える勉強は高校数学で言う所の数II・Bまでしかやってこなかった。 ・数学が超得意だったかというとそういうわけではなく、まあ普通なライン。 ・大学は情報系で文理一緒だけど、正直大学数学らしい数学はあまりやってこなかった。 ・社会人になって以来ずっと数学コンプレックスで「大学の時もっと理系の勉強をしておけばよかった」と後悔する日々だった。 ・「とにかくツールとか沢山触りまくって慣れた方が良い」という意見も沢山頂いていたのだけど、 – やはり専門の文献を読むとブワーッと数式が出て来て「うっ」となる自分が情けなく感じる経験をした – このまま勉強しないで年をとった後に「あの時やっておけば」という後悔はしたくなかった

            機械学習に本気で取り組むためにやった数学周り 前半戦結果 - きのこる庭
          • はてなブックマーク全文検索機能の裏側

            そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。 はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。 全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

              はてなブックマーク全文検索機能の裏側
            • 自然言語処理における前処理の種類とその威力 - Qiita

              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? **自然言語処理に前処理は不可欠です。**テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグ や JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。 出典: [Deep learning for computational biology](http://msb.embopress.org/content/12/7/878) 本記事では自然言語処理における前処理の種類とその

                自然言語処理における前処理の種類とその威力 - Qiita
              • ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama

                イントロChatGPTやBing、NotionAIなどの大規模自然言語モデル(LLM)を活用したサービスが注目を集めています。対話、要約、翻訳、アイデア生成などの多様なタスクにおいて、とても性能が高いです。ただ、ChatGPTでは、ときどき嘘が混じっていたり、文献が捏造されたりすることがあります。 ChatGPTとの対話画面(結果の書籍は存在しない)それを防ぐために、BingやPerplexityでは、文献を引用した上で、なるべく嘘が紛れ込まない形で回答してくれます。 Perplexityでは引用もつけてくれるしかし、これらのAIは、Web上の公開されている一部のデータを元に学習しているので、公開されてないデータに対しては当然ながら、正しく回答できません。 そこで、この記事では、自社が保有しているデータをChatGPTに組み込んで、自社オリジナルのPerplexityのようなシステムを作る

                  ChatGPTに自社データを組み込んで新しい検索体験を模索してみました|masa_kazama
                • 30種類以上のSEOツールを無料公開している「DoctorSEO」のSEO診察室 - GIGAZINE

                  SEO対策にかかる「時間」と「コスト」を大幅に削減させるSEO対策ツール「DoctorSEO」から、30種類以上のSEOツールが無料公開されています。 検索エンジンでの順位確認、リンクの状況の確認、HTTPのレスポンスヘッダ表示、Google・Yahoo・MSNの各検索エンジンについて検索文字列を入力し、検索結果(SERP:Search Engine Result Page)を1つの画面に表示するなど、非常に多彩な機能が山のようにあります。 アクセスは以下から。 SEOツール:検索エンジン対策総合ツール「DoctorSEO」| SEO診察室 用意されているツールは以下のようになります。 SEOクイックレポート URLとキーワードを指定して、いくつかのツールをまとめて実行し、結果をレポート風に表示してくれます。 ページ比較レポート URLで指定した2つのページについて、現在の状態をまとめたレ

                    30種類以上のSEOツールを無料公開している「DoctorSEO」のSEO診察室 - GIGAZINE
                  • YSTのSEOとYahoo! Japanからのトラフィック誘導 - SEO 検索エンジン最適化

                    テクニカルSEOとは、オンページSEOの一部であり、検索結果での順位を向上させるためにウェブサイトの技術的な側面を改善することを指します。検索エンジンにとって、クロールしやすく理解しやすくすることがテクニカルSEOの中心です。具体的には、サイト内のリンク構造を最適化したり、ページ内の論理的な構造を最適化したり、ページの読み込みを高速化することなどの技術的な最適化が含まれます。 テクニカルSEOとは、検索エンジンがウェブサイトの内容を確実かつ効率的に取得できるように、また内容を理解しやすくなるように、ウェブサイトの技術的な側面を最適化することをいいます。ウェブサイトの構造やコンテンツを理解しやすくし、正しくクロールやインデックスすることを助けます。

                      YSTのSEOとYahoo! Japanからのトラフィック誘導 - SEO 検索エンジン最適化
                    • はてなブックマーク全文検索の精度改善

                      Hatena Engineer Seminar #5 での発表スライド

                        はてなブックマーク全文検索の精度改善
                      • Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog

                        この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook 機械学習編1(基礎編)では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基本について勉強しました。機械学習編2(実用編)では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴリズムの使い分け、高次元データへの対処法、といったトピックについて解説していきます。 実問題に機械学習を適用する タスクを定義する データを特徴ベクトルに変換する 評価方法を決める 正解データの正例と負例は均等に ベースラインとなる手法を実装する 実データに向き合うときの心構え 機械学習のワークフロー 1. 前処理 データセット作成 サンプリング 特徴抽出 欠損値・欠測値への対応 値のスケーリング 特徴選択 次元削減 2. 学習 モデ

                          Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog
                        • Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web

                          検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏 作者:山田 浩之,末永 匡発売日: 2014/09/25メディア: 単行本(ソフトカバー) (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析 検索エンジンの構築 データをMongoDBに格納 Fl

                            Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web
                          • 自分流Elasticsearch入門 - $shibayu36->blog;

                            【2016/09/10追記】 勉強しなおして、Elasticsearchの知識についてさらにまとめた記事を書いたので、そちらを参照してもらうと良さそうです。 blog.shibayu36.org 最近Elasticsearchの勉強をした。ただ、入門のためどのような資料が適しているかを知るのが大変だった。そこでどのように勉強したかについてメモをしておく。少しまとめエントリー的なノリになりそう。 Elasticsearchの概念を知る 全文検索技術の基本を知る Elasticsearchのドキュメントのたどり方を知る の順に学習を進めていった。 Elasticsearchの概念を知る Elasticsearchの学習を始めようとした時に、まずは基本からということで以下の本を読んでいた。 高速スケーラブル検索エンジン ElasticSearch Server (アスキー書籍) 作者:Rafal

                              自分流Elasticsearch入門 - $shibayu36->blog;
                            • B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常

                              1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。 このグループ1つ1つを「トピック」と呼びます。 例えば、大量のニュース記事にLDAを適用する例を考えます。 ニュース記事データにLDAを適用した例 LDAでは「各トピック(トピック数は予め指定)における各単語の所属確率」が算出されます。 理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法 との理解で大丈夫です。 よく勘違いされることとして以下の2点を示します。 トピック数(いくつ

                                B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常
                              • 自然言語処理の前処理・素性いろいろ - Debug me

                                ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

                                  自然言語処理の前処理・素性いろいろ - Debug me
                                • 特許情報とGoogleの発表から導き出した”順位決定にプラスに働く”外部要因54項目

                                  Googleの数々の発表から、現在検索順位の決定に使われているアルゴリズムには数百の要素があることが伺えます。 その要素についてGoogleは毎日のように改良を加えており、その中にはパンダアップデートやペンギンアップデートのような大規模なものから、名前のない小さなものまで様々なアルゴリズムが存在します。 今回は独自の調査やGoogle社員の発言から、Googleがアルゴリズムとして検索順位の決定に利用していると考えられる項目を導き出し、発表した記事を翻訳してご紹介します。Google公式のものではなく、あくまで1個人(会社)の調査と考察よるものですが、各要因の信憑性まで書かれており、SEOを実践する上で非常に参考になる内容になっています。 ※なるべく原文の表現を曲げないように翻訳しているため、日本語として読みづらい点等ございますが、ご容赦頂ければと思います。 元記事:Google Rank

                                    特許情報とGoogleの発表から導き出した”順位決定にプラスに働く”外部要因54項目
                                  • 「関連する○○」機能を手軽に実現できる。そう、Elasticsearch ならね。 - クックパッド開発者ブログ

                                    セコン (id:secondlife, @hotchpotch) です。ウェブサービスにはよく「このエントリーに関連するブログ記事」や「このレシピに関連するレシピ」という機能が実現されてますよね。さて、この機能はどのように実現すれば良いでしょうか。例えば tf-idf で単語の類似度を求め…といった実装が必要になり、いささか面倒です。 しかしながら Elasticsearch や Solr *1を使うと手軽に実現できます。例えば、クックパッドニュースの記事では Solr を使い「この記事を読んだ人におすすめ」の機能に、最近クックパッドにジョインしたインドネシアの会社の DapurMasak では Elasticsearch を使い「Resep serupa(関連レシピ)」の機能で利用しています。 クックパッドニュースでのこの記事を読んだ人におすすめ DapurMasak での関連レシピ 使

                                      「関連する○○」機能を手軽に実現できる。そう、Elasticsearch ならね。 - クックパッド開発者ブログ
                                    • 【Python】🍜機械学習で「隠れた名店」を探してみた。(そして実際に行ってみた)🍜 - Qiita

                                      1.簡単な概要 この記事では都内ラーメン屋の食べログ口コミを使って隠れた名店をレコメンドで発掘するやり方を解説していきます。 私自身🍜が大好きで昔は年間100杯以上食べ歩いてきた自称ラーメンガチ勢です。しかしながら、直近の健康診断にひっかかり、医者からドクターストップをかけられてしまいました。。。 行き場をなくしたラーメン熱を発散すべく機械学習でラーメンレコメンド(隠れた名店をレコメンドで発掘)に挑戦してみることにしました。 今回は、集大成として、Word2vecでモデリングしたmodelを使って隠れた名店をガチで発掘し、実際にそのお店に行って確かめるところまでやります! 有名店のラーメンに対して類似度が高いラーメン店を探すイメージです。 techgymさんのブログに掲載いただきました!ありがとうございます。 【人工知能の無駄遣い?】AIプログラミングの面白記事をまとめてみました。 2.

                                        【Python】🍜機械学習で「隠れた名店」を探してみた。(そして実際に行ってみた)🍜 - Qiita
                                      • 【Day 2】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita

                                        自己紹介 データサイエンティストを目指して日々勉強している、慶應大学理工学部4年生(202.01.09時点) 取得資格、コンペ優勝経験など、リアルタイムの情報は👇👇👇をみてね X: @A7_data←普段はXで活動しています。ありがたいことに、フォロワーは6500人を超えました😌 プロフィールページ👇👇👇 X👇👇👇 Day2の概要 Day2のテーマは「Prompting and Augmented Language Model」ということで、LLMの活用法に焦点が当てられている。(学習済みLLMを追加学習なしで活用する技術について) 項目としては大きく3つ。 プロンプティングや文脈内学習とは何か プロンプティングによる性能改善方法 Augmented Language Modelの概要 LLMの使い方に焦点を絞っているので、今回の授業だけでも幅広い人に役立ちそう。 言語

                                          【Day 2】東大松尾研のLLM講座資料が公開されたから、詳しく読んでいくよ【備忘録】 - Qiita
                                        • 【SEO対策】Googleの200の上位表示アルゴリズムを一挙公開!! - Evergreen Blog ~弱者のためのファン創造コンテンツマーケティング~

                                          GoogleのSEO対策をする上で、アルゴリズムを理解しておくことは非常に重要です。 Googleのアルゴリズムについて「キーワード」や「被リンク」など、 代表的なものを解説したサイトは多数見つかります。 しかし、200近く存在するといわれているGoogleのアルゴリズムについて、 詳細な情報を発信しているサイトはほとんどありません。 もっと具体的な情報がわかれば、SEO対策もしやすくなりますよね ちょっとした差かもしれませんが、細かいSEO対策をするとしないとで、 ライバルサイトと差をつけることができます。 Googleは検索順位を決めるのに機械的に処理しています。 コンテンツの質がまったく同じなら、 アルゴリズムの細かい指標が基準となって、ランキングが決められます。 今の時代、代表的なアルゴリズムは皆対策しているので、 ライバルと差別化するのが難しいです。 ライバルがSEO対策できてい

                                            【SEO対策】Googleの200の上位表示アルゴリズムを一挙公開!! - Evergreen Blog ~弱者のためのファン創造コンテンツマーケティング~
                                          • プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ

                                            勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基本的なことがらについて説明しました。その資料を公開します。 プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。 プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。

                                              プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ
                                            • ついに明かされる「りんな」の“脳内” マイクロソフト、「女子高生AI」の自然言語処理アルゴリズムを公開

                                              日本マイクロソフトは都内で開いた開発者向けイベント「de:code 2016」で、同社が独自に開発する“女子高生AI”「りんな」の自然言語処理アルゴリズムの詳細を語った。りんなのアルゴリズムのキモは「ランク付け」だという。自然な“女子高生らしさ”を生み出している秘密とは? りんなは2015年7月にLINEアカウントとして登場し、同年12月にはTwitterアカウントも開設。「マジで?!やば!」など“日本の女子高生”をイメージした受け答えができるのが特徴で、現在LINEとTwitterを合わせて340万人以上のユーザーと会話しているという。 Microsoftが開発しているAIとして「Cortana」がよく引き合いに出されるが、Cortanaのコンセプトが「Productivity」(生産性向上)であるのに対し、りんなのコンセプトは「Emotional」(感情的)。例えば、「明日晴れるかなぁ

                                                ついに明かされる「りんな」の“脳内” マイクロソフト、「女子高生AI」の自然言語処理アルゴリズムを公開
                                              • 『自然言語処理の基本と技術』が面白い! - toricago

                                                スマートスピーカーが日本で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。 今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この

                                                  『自然言語処理の基本と技術』が面白い! - toricago
                                                • グーグルが普及する前、みんな何使ってた?

                                                  グーグルが普及する前、みんな何使ってた?2020.08.01 11:0026,977 Daniel Kolitz - Gizmodo US [原文] ( Rina Fukazu ) 今でこそ、たいていのことは「ググればわかる」時代だけど...。 1997年、最近お気に入りの映画『オースティン・パワーズ』のことを友達にアツ〜く語るあなた。すると友達は「ランディ・クエイドが最高だった」と一言。あなたの頭のなかでは「あれ? 」と戸惑いつつ、話を聞いていたら友達がクリント・ハワードのことを言っていることに気づく。友達にそう伝えてみるも、お互い納得しあえず...。一日モヤモヤしつつ、家に帰ってパソコンを立ち上げてから40分ほど経過...「やっぱり、ランディ・クエイドは出演してないよ!」 2020年、Google(グーグル)が広く使われる前の時代、人々はどのようにして日常の疑問を解決したり、情報収集し

                                                    グーグルが普及する前、みんな何使ってた?
                                                  • 機械学習ライブラリ scikit-learn で簡単ツイート分類 | ぱろすけのメモ帳

                                                    皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。本記事では、過去の

                                                    • はてなブログ | 無料ブログを作成しよう

                                                      オーベルジーヌ実食レポ 食べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか 都内にあるデリバリー専門のカレー屋で、 ロケ弁などで大人気の本格欧風カレーが楽しめるらしい いいな〜 いいな〜オブザイヤー 都内の奴らはこんな良いモン食ってんのか 許せねえよ………

                                                        はてなブログ | 無料ブログを作成しよう
                                                      • ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

                                                        今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス

                                                          ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
                                                        • [を] 転置インデックスによる検索システムを作ってみよう!

                                                          転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

                                                            [を] 転置インデックスによる検索システムを作ってみよう!
                                                          • “LLM for SRE“の世界探索 - ゆううきブログ

                                                            ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

                                                              “LLM for SRE“の世界探索 - ゆううきブログ
                                                            • 今日の井原. - blog検索エンジン「NAMAAN」の中身

                                                              2008年09月 (1) 2008年05月 (6) 2008年04月 (3) 2008年03月 (4) 2006年10月 (3) 2006年09月 (2) 2006年08月 (5) 2006年07月 (4) 2006年06月 (8) 2006年05月 (7) 2006年03月 (3) 2006年02月 (3) 2006年01月 (6) 2005年12月 (3) 2005年11月 (10) 2005年10月 (23) 2005年09月 (22) 2005年08月 (25) 2005年07月 (22) 2005年06月 (11) 2005年05月 (20) 2005年04月 (13) 2005年03月 (18) 2005年02月 (22) 2005年01月 (3) 2004年12月 (7) 2004年11月 (31) 2004年10月 (4

                                                              • 形態素解析と検索APIとTF-IDFでキーワード抽出

                                                                形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基本中の基本ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

                                                                  形態素解析と検索APIとTF-IDFでキーワード抽出
                                                                • 機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン) 読んだ - 糞糞糞ネット弁慶

                                                                  www.amazon.co.jp 訳者よりご恵贈いただきました.8年前に kaggle のアカウントを作ったきりの人間であるため,この文章にさほど価値があるとは思えませんが感想を書きたいと思います. ロジスティック回帰や決定木,ランダムフォレストやニューラルネットワークなどの機械学習アルゴリズムにどのようにデータを入力するか,ただのデータをよりアルゴリズムのパフォーマンスが改善するように加工する作業を「特徴量エンジニアリング」と呼びます. 本書はその特徴量エンジニアリングの基礎である 変数の値をそのまま使うのか,二値化するのか,区分に分けて離散化するのか,対数を取るのか,値を一定の区間に揃えるのか テキストをどのように特徴量にするのか,どう処理すべきか,どう重み付けるのか カテゴリ変数をどのように扱うのか,カテゴリの数が増えた時にどう対処するか 変数の数が多い時にどう減らせば良いのか k-

                                                                    機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン) 読んだ - 糞糞糞ネット弁慶
                                                                  • 実践 機械学習システム

                                                                    本書は、実際に手を動かしながらシステムを作成し、そのエッセンスを身につけることを目的とした機械学習システムの実践的な解説書です。「データといかに向き合うか」という視点から、生のデータからパターンを見つける方法を解説します。Pythonと機械学習の基本、ライブラリの使い方をはじめ、具体的な例に基づいたデータセット、モデル化、レコメンドと、その改良、音声や画像の処理など、より重要な問題についても解説します。さらに、テキストや画像、音声に対して機械学習の手法を適用する方法を学び、機械学習関連技術の評価方法や、最適な選択を行うための比較方法について学びます。本書で学んだツールと知識があれば、実際の問題を解決できる独自のシステムを作成できるようになるでしょう。 謝辞 原書の監修者について はじめに 1章  Pythonではじめる機械学習 1.1 機械学習と Pythonはドリームチーム 1.2 本書

                                                                      実践 機械学習システム
                                                                    • scikit-learn から学ぶ機械学習の手法の概要 - Qiita

                                                                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 前回、株式の時系列データを分析する話で、後半にちょっとだけ機械学習の話をしました。今日は機械学習ライブラリ scikit-learn に触れます。 scikit-learn といえば以前にも簡単なクラスタリングの例をあげたり、サポートベクトルマシンやクラスタリングで問題を解く、 TF-IDF を計算する、回帰モデルの可視化、 DBSCAN によるクラスタリングといったことをしてきましたが、あらためてライブラリの機能を整理します。 機械学習と言うと難しい数学を駆使するイメージがつきまといますが、完成度の高いライブラリを使えば利用者が機械学

                                                                        scikit-learn から学ぶ機械学習の手法の概要 - Qiita
                                                                      • ほとんどの「論理マークアップ」はクローラにとってはクソの役にも立たない : ひろ式めもちょう

                                                                        Japan.internet.com Webビジネス - SEO のキホン―なぜ論理構造が必要なのか http://japan.internet.com/busnews/20070402/6.html てなことをあやしげSEO系マーケターが書いてるわけだが。 こういう神話が一人歩きしている状態がイヤだ。いくぶん極論ではあるが、これが「間違っている」ということをネット辺境のきわみであるこのページに、せめてメモっておこう。 ほとんどの場合、クローラにとってHTMLごときの論理マークアップなんてクソの役にも立たない! …だって作ってる本人が最初にタグを削除してるって言ってんだから、役に立つわけないじゃん。 フィードリーダや特殊なスパイダーでもない限り、細かい論理マークアップを見たりなんかしないよ。フィードリーダは埋め込まれているフィード情報をチェックするからしかたない。特殊なスパイダーというのは

                                                                          ほとんどの「論理マークアップ」はクローラにとってはクソの役にも立たない : ひろ式めもちょう
                                                                        • 本当に役立つFAQ検索システムを目指して - Nota TechConf

                                                                          Nota Tech Conf 2021 Spring 3日目の発表資料です 2021/3/11 こんばんは daiizdaiiz.iconです Helpfeelの検索技術の話をします 開発、運用チーム プロダクトオーナー daiiz.icon プロジェクトマネージャー akix.icon Webディレクター akix.icon など テクニカルライター カスタマーサクセス エンジニア、デザイナー rakusai.iconakix.icondaiiz.iconshokai.icontakeru.iconTiro.icon 予測検索 Helpfeel CTO /masui/増井俊之.iconの展開ヘルプをベースとするFAQ検索システム PayPayフリマ様 FAQ テキパキと高速に検索できている クエリの表現に合わせて柔軟に結果が提示される Agenda いかにして探すか 1. 入力に対して遅

                                                                            本当に役立つFAQ検索システムを目指して - Nota TechConf
                                                                          • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

                                                                            « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

                                                                            • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

                                                                              形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基本中の基本ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

                                                                              • 自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録

                                                                                はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。 自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。 また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransformersによりわずか10行程度でBERTモデルを記述できます。 一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり

                                                                                  自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録
                                                                                • 情報検索に興味が沸いたのでGoで検索エンジンを自作している - 🤖

                                                                                  この記事はRecruit Engineers Advent Calendar 2020の11日目の記事です。 TL;DR 対象読者は転置インデックスを少し知ってるくらいの検索初心者です 検索エンジンに興味が湧き、仕組みを知るためにGoで自作しています 自作検索エンジンのAnalyzerとIndexerとSearcherを紹介します はじめに ここ最近、以下の観点から情報検索への興味が強いです。 技術面: フリーワード検索機能を実装した際にElasticsearchの使いやすさと多機能さに圧倒されたこと。 プロダクト面: 検索がプロダクトに不可欠な機能かつ、 非エンジニアにとって検索エンジンは未知であり知識の乖離が大きいため、エンジニアだからこその価値を提供しやすいこと。 検索エンジンの仕組みを知り情報検索分野に詳しくなるために自作し始めました。 プログラミング言語Goを読んで学んでいるので

                                                                                    情報検索に興味が沸いたのでGoで検索エンジンを自作している - 🤖