[B! nlp] somathorのブックマーク

自社用LLM構築にむけて　RAG評価ってどうやればいいの？　最新フレームワーク「Auepora」をチェック

生成AIの推論精度向上を目的としてRAGの実装が進んでいますが、その性能を適切に評価することも重要です。複雑な評価プロセスに対応するために提案された「Auepora」と呼ばれる評価方法分析フレームワークを紹介します。

somathor 2024/07/27

リンク

誰でもわかる全文検索入門

全文検索エンジンも、事前に検索対象のデータを調べてこのような索引を作っておくことで、高速な検索を実現しています。インターネット検索の例たとえばインターネット検索の場合、まず各サイトからデータを収集して、その中から索引に載せる単語を選んで索引を作ります。索引のデータは下の図の右側のような表になっています。各単語と、それがどのサイトのどこにあったのかを記録しておく形です。検索の時は、この索引データを調べます。例えば利用者が「理解」という言葉で検索したら、索引の「理解」のところを調べます。そうすると「サイトAの8文字目と18文字目、サイトGの……」と出現場所がわかるので、すぐに結果を返せます。なお、この図では索引の単語の並び方が適当ですが、実際には本と同じように「あいうえお順」などに並べておいて、すぐに単語を見つけられるようにしてあります。索引にない単語この仕組みの場合、索引にある単

somathor 2024/05/23

リンク

生成AIの用語10選～一般ユーザーが知っておくべき基礎知識

連載目次本連載『AI・機械学習の用語辞典』では、AIや機械学習に関連する専門用語をできるだけかみ砕いて分かりやすく解説しています。コンパクトながらも、必要十分な知識が得られる内容を目指しています。これまでに公開した用語は149語です。詳しくはabc／あいうえお順のキーワード目次を参照してください。今回は第150回を記念して、これまでに公開した「生成AI」に関連する用語を厳選してピックアップし、合計10個の用語をまとめてみました（図1）。新しい生成AI時代を生きる現在の社会人にとって必須の基礎知識になると思います。ぜひ社内教育などで知識ゼロの人に「まずは、これを読んでおいてね！」とお勧めしていただけるとうれしいです。 1. 生成系AI（GenAI）生成系AI（GenAI：Generative AI）とは、全く新しいオリジナルのアウトプットを生み出すAIです。具体的には、デジタルの画

somathor 2024/03/29

ai
nlp

リンク

第2回 LLM 勉強会

2023年6月19日（月）に国立情報学研究所にて第2回 LLM 勉強会を開催しました。プログラム勉強会の運営に関する議論（黒橋） NII からの話題提供（相澤） [資料] NICT の活動報告（鳥澤） [資料] ABCI トライアルの報告（坂口） [資料] レトリバからの話題提供（西鳥羽） [資料] サイバーエージェントからの話題提供（石上・佐々木） mdx プロジェクトに関する議論（ポリシー、各WGの進捗報告、mdx 利用方法）（河原・空閑） [資料1] [資料2] 参加者現地15名・オンライン50名程度

somathor 2023/06/22

リンク

東京大学深層学習（Deep Learning基礎講座2022）深層学習と自然言語処理

東京大学深層学習（Deep Learning基礎講座2022）https://deeplearning.jp/lectures/dlb2022/ 「深層学習と自然言語処理」の講義資料です。

somathor 2022/06/03

slide
nlp

リンク

オープンソースとしての形態素解析器Sudachi / WAP NLP Tech Talk #4

https://github.com/WorksApplications/Sudachi WAP NLP Tech Talk#4 Sudachi ユーザーLT大会 - connpass *** スライド中に登場したリンク法律版のGoogle、正式ローンチしたLegalscapeがめざす「法のインフラ」とは何か？ | Coral Capital 日本語における評価用データセットの構築と利用性の向上（JED2022） | NLP 2022 Workshop on Japanese Evaluation Dataset 自然言語系AIサービスと著作権侵害 | STORIA法律事務所 Sudachi プラグインのチュートリアル Rustによる自然言語処理ツールの実装: 形態素解析器「sudachi.rs」 - Qiita 日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか

somathor 2021/11/28

slide
nlp

リンク

Elasticsearchで日本語検索を扱うためのマッピング定義 - ZOZO TECH BLOG

こんにちは、検索基盤部検索基盤ブロックの渡です。私は検索基盤ブロックで、主にZOZOTOWNの検索周りのシステム開発に従事しています。以前の記事では、Elasticsearchのマッピング設定の最適化について取り上げました。そして、今回は日本語による形態素解析を実現するまでの手順をご紹介します。 tech blog.zozo.com 目次目次はじめに Elasticsearchで全文検索を実現させる手順全文検索のためのマッピング定義 Analyzerの構造日本語対応のAnalyzer 日本語対応のためのプラグイン追加 kuromoji Analyzerを指定したマッピング定義の例 kuromojiプラグイン機能カスタムしたAnalyzerのマッピング定義 Analyzerの動作確認 modeを選択した場合のマッピング定義の例 Analyzer適用の注意点 kuromoji以外の

somathor 2021/11/08

リンク

日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita

先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。さいわい先日経産省が公開した IMI コンポーネントツールである程度のことをやってくれるのですが（というかそうであることを期待したのですが）、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ

somathor 2020/06/05

nlp

リンク

word2vec（Skip-Gram Model）の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて！世界一やさしいデータ分析教室

久しぶりの記事更新です。今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非！ Pythonと実データで遊んで学ぶデータ分析講座作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本（ソフトカバー）この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

somathor 2018/01/18

リンク

Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ

研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上クックパッドで以前から解決したかった課題の一つに材料の名前（以下、材料名）の正規化があります。クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。これは異表記同義（いわゆる表記揺れ）の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。

somathor 2017/10/31

cookpad
nlp

リンク

自然言語処理における前処理の種類とその威力 - Qiita

自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ

somathor 2017/04/18

リンク

新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話

JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。導入方法前提 OS X Yosem ite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr

somathor 2016/10/14

nlp

リンク

TensorFlowで会話AIを作ってみた。

1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio

somathor 2016/07/29

リンク

機械学習を使って作る対話システム - Qiita

このような対話を通じて、レストランの検索に必要な情報をユーザから取得し、レストラン検索を行います。今回、レストラン検索にはHotPepperグルメサーチAPIを利用させていただきました。ありがとうございます。システムアーキテクチャ対話システムは複数のモジュールから構成されています。今回は、各モジュールは独立に動作させず、前段階のモジュールの処理が終わった段階で駆動されるようにしています。最終的なシステムアーキテクチャは以下の図のようになりました。今回のアーキテクチャに沿って処理の流れを説明すると以下のようになります。ユーザがテキストを入力すると、入力したテキストは言語理解部に入力されます。言語理解部では入力されたテキストを解析して、対話行為と呼ばれる抽象的な意味表現に変換します。言語理解部から出力された対話行為は、対話管理部に入力されます。対話管理部では入力された対話行為を

somathor 2016/06/03

リンク

日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推

somathor 2016/05/18

リンク

ニューラルネットワークが任意の関数を表現できることの視覚的証明 - ニューラルネットワークと深層学習

ニューラルネットワークと深層学習 What this book is about On the exercises and probl ems ニューラルネットワークを用いた手書き文字認識逆伝播の仕組みニューラルネットワークの学習の改善ニューラルネットワークが任意の関数を表現できることの視覚的証明ニューラルネットワークを訓練するのはなぜ難しいのか深層学習 Appendix: 知性のあるシンプルなアルゴリズムはあるか? Acknowledgements Frequently Asked Questions Sponsors Resources ニューラルネットワークに関して最も衝撃的な事実の1つは任意の関数を表現できることです。例えば誰かから複雑で波打った関数$f(x)$を与えられたとします：この結果はニューラルネットワークが一種の普遍性を持っている事を示しています。計算し

somathor 2015/10/20

リンク

ハッカドールにおけるElasticsearch利用法について発表しました - mosa_siru’s blog

DeNA社内でのElasticsearch勉強会にて、アプリ「ハッカドール」におけるElasitcsearch利用法について発表してきました。スライドはこちら。 Elasticsearch for Hackadoll from mosa siru Elasitcsearchの中身や運用について濃く触れるというよりは、ちゃんとした検索エンジン作るための泥臭い話がメインになっています。（ある意味で昨年Tokyo WebMiningにて発表した捗るリコメンドシステムの裏事情（ハッカドール）の派生スライドです。）ハッカドールは1周年を迎え、来月にはアニメ化もされます。ニュースアプリがアニメ化とか開発者としてもどうなるか予想がつきませんが、放映時には全裸待機しようと思います！ hackadoll-anime.com

somathor 2015/09/04

リンク

言語処理100本ノック 2015

言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています

somathor 2015/07/05

リンク

単語の数学的表現メモ - Negative/Positive Thinking

はじめに単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。しかし、「どのようなベクトル・確率分布にすべきか？」などはタスクに依存したりして、自明じゃない。たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現各次元が「その単語か否か」を表すベクトルで表現次元の大きさ＝ボキャブラリ数例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる未知語はゼロベクトルになってしまう文字nグラムによる表現単語の表層から得られる情報を利用単語に出現している文字nグラムを利用カタカナ語とか有効そう例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

somathor 2014/04/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

nlpに関するsomathorのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス