並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 7584件

新着順 人気順

言語処理の検索結果321 - 360 件 / 7584件

  • 村上春樹風に語るスレジェネレーター

    Warning: file_get_contents() [function.file-get-contents]: HTTP request failed! in /var/www/html/pha/tools/spam/gethotkwd.php on line 75 Warning: file_get_contents(http://ranking.goo.ne.jp/rss/keyword/main/keyword/index.rdf) [function.file-get-contents]: failed to open stream: Success in /var/www/html/pha/tools/spam/gethotkwd.php on line 75 お問い合わせなどはこちらのアドレスにお願いします→: pha22.net

    • 自然言語処理

      • 2019年末版 形態素解析器の比較 - Qiita

        形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

          2019年末版 形態素解析器の比較 - Qiita
        • なにこれ、超楽じゃん。会議の議事録を自動でいい感じに作成するclarke.aiがイケてる | Ledge.ai

          みなさん、会議や打ち合わせのときに議事録をとると思います。 相手との認識のズレを防いだり、決定事項を周知したりするのに非常に重要だと思います。 ただ正直、議事録とるのってめんどくさくないですか? せっかく作った議事録もあまり読まれてなかったり…なんてのもよく聞く話。 そんなめんどくさいことは機械に任せて、もっと会議に集中したいものです。 今回はまさにそんなことをしてくれる議事録自動作成AI『clarke.ai』を紹介します。 このツールは、会議の生産性を変えるかもしれません。 サマリーだけでなくToDo管理も。めちゃくちゃできる書記AI“clarke.ai” clarke.aiは会議の音声を認識・分析し、議事録を作ってくれるツールです。 しかも、ただのメモをするのではなく、会議で、何が重要で、でてきたタスクをだれがいつまでにしないといけないか、などまで整理してまとめてくれるんです! しかも

            なにこれ、超楽じゃん。会議の議事録を自動でいい感じに作成するclarke.aiがイケてる | Ledge.ai
          • 非公開サイト

            サイトの構築。作品の販売。ブログの投稿。この他にもさまざまな機能があります。 ログイン サイトをはじめよう 非公開サイト このサイトは現在プライベート設定になっています。

              非公開サイト
            • 無題のドキュメント Google先生がヤバイ

              1 :以下、名無しにかわりましてVIPがお送りします[]:2009/04/04(土) 13:57:53.85 ID:Gilr9uWT0 6 :以下、名無しにかわりましてVIPがお送りします[sage]:2009/04/04(土) 14:01:31.08 ID:4vm6HwcR0 お、願い ジュゼッピーナぁ やめ……はぁ 8 :以下、名無しにかわりましてVIPがお送りします[sage]:2009/04/04(土) 14:03:10.80 ID:XfkkBGUk0 あ、ありのまま・・・ があってワロス 7 :以下、名無しにかわりましてVIPがお送りします[]:2009/04/04(土) 14:02:29.95 ID:pIDWl8650 >>1が一生懸命画像作ってるの想像して泣けた 9 :以下、名無しにかわりましてVIPがお送りします[]:2009/04/04(土) 14:03:12.31 ID

              • 軽量データクラスタリングツールbayon - mixi engineer blog

                逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

                  軽量データクラスタリングツールbayon - mixi engineer blog
                • 自然言語処理ってなに?課題は? 研究者に聞く、エンジニアが学術論文を読み解くための技術 - エンジニアHub|若手Webエンジニアのキャリアを考える!

                  自然言語処理ってなに?課題は? 研究者に聞く、エンジニアが学術論文を読み解くための技術 多くのサービスに実装される自然言語処理ですが、そもそも一体どのような技術なのでしょうか?東京工業大学で研究にあたる、西川 仁助教に自然言語処理の歴史と現在。そしてどのような課題があるかをうかがい、さらにエンジニアが学術論文を読み解き、役立つ情報を手にするための手法も聞きました。 技術に関する最新の情報を得るための手段は様々ですが、“学術論文を読む”とは、その有力な手段の一つでしょう。しかし、数多くある論文から、自分の目的とする情報をいかに探し出し、いかに読むのが効率的なのでしょうか。そして、日頃から論文にふれる機会の多い研究者の方はどのように論文から情報収集を読み解いているのでしょうか。 今回お話をうかがったのは、自然言語処理研究のフロントランナーとして、東京工業大学に所属し、自動要約の研究をされている

                    自然言語処理ってなに?課題は? 研究者に聞く、エンジニアが学術論文を読み解くための技術 - エンジニアHub|若手Webエンジニアのキャリアを考える!
                  • M1 MacBook ProでStable Diffusionを動かすまでのメモ

                    画像生成AIのStable Diffusionがオープンソースとして公開されましたね。さっそく動かしてみたいなと思って触ってみることにしましたが、手元にあるのはMacBookだけなので、なかなか大変でした。 ありがたいことに、先人がたくさんいるので参考にして環境構築ができました! たぶんそれなりにすぐにすんなり動かせるようになると思いますけど、今すぐやってみたくてトラブってる人の参考になればと、わりとなぐり書きで恐縮ですが書いておきます。 動作速度とか ちなみに気になる実行速度ですが、自分が使っているのはMacBookPro 14インチモデルの一番スペックが低いやつでして 8コアCPU、14コアGPU、16コアNeural Engine搭載Apple M1 Pro メモリ32GB です。 画像生成中は15〜20GBほどメモリを消費し、5分ほどで画像が6枚生成できます。 学習モデルを取得する

                      M1 MacBook ProでStable Diffusionを動かすまでのメモ
                    • これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei

                      最近では企業における機械学習の認知度も高まっていてエンジニアの求人募集でも「望ましいスキル:機械学習」というのをよく見かける。特にweb系の企業だと当たり前のように機械学習を活用した魅力的なサービスが生み出されているようだ。 そんなわけで先日書いた機械学習の入門記事もそれなりに好評で末尾の教科書リストも結構参考にしていただいた様子。ということで、これから機械学習をはじめる人のためにオススメの教科書を10冊ほどピックアップしてみた。 幸いにして機械学習の分野には良書が多い。5年前はナイーブベイズすら知らなかった私も、これらの教科書のおかげでなんとか機械学習を使えるようになりました!(個人の体験談です。効果には個人差があります) 参考: 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 最初に既存の機械学習の教科書まとめを挙げておくの

                        これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei
                      • Colabで動かすStableDiffusion実装|深津 貴之 (fladdict)

                        自分がつかってる、Google Colab用StableDiffusion環境を公開しました。 海外のWEB UIのが重いのと、やりたいことが微妙に違うので自分なりに作った。公式のDiffuserを使わないので軽いです。無課金のcolabでも動くのではないかと思います。 使い方GitHubページの「Open in Colab」ボタンをおして、colabで開く。 このページ上部のメニューで、「ランタイム > ランタイムのタイプを変更」からGPUを有効化を確認 HuggingFaceでアカウントを作成 StableDiffusionのモデルページで、「利用規約」に合意する。 モデルファイル sd-v1-4.ckpt をダウンロード モデルファイルを Google Drive等にアップロード 下のセル 「1-1. Google Driveとの接続」を実行 下のセル 「1-2. のフォーム」に、G

                          Colabで動かすStableDiffusion実装|深津 貴之 (fladdict)
                        • はてブおせっかい

                          This domain may be for sale!

                          • ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する

                            こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、MecabからDouble-Array処理の部分を切り出したDartsというライブラリがあります。しかし、なぜMecabを使うかというと、PerlだとDartsのバインディングが公開されているのですが、現時点でPHP版はありません。また、最近のLinuxディストリビューションでは、Mecabのパッケージが最初から用意されているため、より簡単に利用できると思ったからです。 それでは、順を追って説明

                            • 【業務効率革命】GAS Interpreter の衝撃|ChatGPT研究所

                              今までで最もインパクトのあるGPTsが完成しました。 その名も、「GAS Interpreter」です。 このGPTは名前の通り、Code Interpreter のように Google Apps Script コードを生成し、その実行までを行います。 他者に使ってもらうものではなく、自分専用のプライベートGPTです。 人によっては、Code Interpreter よりも便利です。なぜかというと、インターネットアクセスができることに加えて、GAS の便利で豊富なライブラリやリソースが活用できるためです。 例を示します。 GAS Interpreter の可能性以下に示す、いくつかの業務フローの実例をGAS Interpreterで行い、業務活用への可能性を示します。 今日の予定を聞きます今日の予定を教えて下さい 正確に今日の予定を教えてくれました。 会議参加者の相手に連絡したいので、その

                                【業務効率革命】GAS Interpreter の衝撃|ChatGPT研究所
                              • Google 日本語入力がオープンソースになりました

                                メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

                                  Google 日本語入力がオープンソースになりました
                                • ChatGPTのライバル「Claude 3」の使い方 良い点、悪い点まとめ (1/5)

                                  3月4日の公開以来、「Claudeやばくない?」「GPT-4を越えた」と、界隈で話題の「Claude 3」は、OpenAIの元メンバーによって設立されたAIベンチャー「Anthropic」が開発する最新の大規模言語モデル(LLM)だ。今回はChatGPTのライバルClaude 3の有料版を2週間ほどヘビーに使ってみて感じたことを、良い点と悪い点どちらも書いていきたいと思う。 Claude 3とは? 既報の通り、Claude 3はAnthropicが開発する大規模言語モデルの名称だ。 パラメーターのサイズなどが異なる3つのモデルがラインアップされている。 「Claude 3 Opus」は最も知能が高く、複雑なタスクでも最高のパフォーマンスを発揮する強力なモデル。APIやデータベースを介した複雑なアクションの計画や実行、インタラクティブコーディングなどの高度な活用が想定されている。 「Clau

                                    ChatGPTのライバル「Claude 3」の使い方 良い点、悪い点まとめ (1/5)
                                  • Google Similar Images

                                    Refine your image search with visual similarity Similar Images allows you to search for images using pictures rather than words. Click the "Similar images" link under an image to find other images that look like it. Try a search of your own or click on an example below. paris

                                    • GitHub - google/budoux

                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                        GitHub - google/budoux
                                      • HTML5のアウトラインって何?xhtmlとHTML5のコードを比較してアウトラインを理解しよう! | HTML5でサイトをつくろう

                                        前回のエントリーではサンプルソースを基にHTML5の新要素について確認しました。前回のエントリーをご覧になっていない方はこちらからご覧になれます。 【前回のエントリー】 HTML5は難しくない? HTML5から追加された新要素を理解しよう!【初級編 第2回:HTML5のマークアップ】 HTML5は難しくない!? XHTML1.0とHTML5のコーディングの違いを確認してみよう!【初級編:HTML5のマークアップ】 今回はそのサンプルソースからアウトラインを確認していきます。アウトラインはHTML5でコーディングする場合にとても重要な部分になりますが、構造的な話になるのでわかりにくく感じしてしまうと思いますので、アウトラインを視覚化する『HTML 5 Outliner』を利用してxhtmlとHTML5の違いを比較しながら理解を深めていきたいと思います。 アウトラインとは まずはアウトラインに

                                          HTML5のアウトラインって何?xhtmlとHTML5のコードを比較してアウトラインを理解しよう! | HTML5でサイトをつくろう
                                        • クチコミポータル:SHOOTI(シューティ)

                                          This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

                                          • ChatGPTはどのように学習を行なっているのか

                                            はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。 あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。 もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。 特徴としては、 前の対話内容に続く質問への回答が可能。 間違いを認めることもできる。 正しくない前提に対する異議を唱えることもできる。 不適切なリクエストには応じない。

                                              ChatGPTはどのように学習を行なっているのか
                                            • LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

                                              ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。 既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日 昨年の年末振り返り記事でも話題にしたChatGPT(そして後続の各種LLM chatbot)ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な

                                                LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
                                              • astamuse(アスタミューゼ) - 世界中の課題を解決し、未来を創る人のプラットフォーム

                                                挑戦したい社会課題を見る 未来に向けて挑戦したい社会課題(Issue)をastamuse独自の切り口でまとめ、技術やベンチャー企業等の関連情報と共に公開しています。 分野別動向を見る 約38万を超える分野情報を公開しています。事業推進に欠かせない、主力企業や技術力のランキング、共同研究や競合情報、参入撤退の情報を掲載しています。 キーワードを見る 収録件数480万件に及ぶ、あらゆる技術や素材、発明に関する専門用語や単語を収録しています。意味や用法を知るだけでなく、活用できる市場や分野の情報も得られます。 法人情報を見る 約30万を超える法人・企業のデータを、保有する技術情報を切り口に注力している分野、提携・競合の関係、関連する人物など目的に合った法人情報を見つけることができます。 技術情報を見る astamuseでは、約1,100万件の技術情報を閲覧することができます。分野別の技術情報・最

                                                  astamuse(アスタミューゼ) - 世界中の課題を解決し、未来を創る人のプラットフォーム
                                                • Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog

                                                  Rapidly Realizing Practical Applications of Cutting-edge Technologies

                                                    Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog
                                                  • ビーフストロガノフはどのくらい強いのか - Qiita

                                                    # !wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ja.300.vec.gzで落とせます model = gensim.models.KeyedVectors.load_word2vec_format('cc.ja.300.vec.gz', binary=False) repat = re.compile(r'^[あ-ん\u30A1-\u30F4\u4E00-\u9FD0]+$') vocab_list = [w for w in list(model.vocab.keys())[10000:50000] if len(w) > 2 and repat.fullmatch(w) and w[-1] != 'っ' and w not in list(ww_df.word) and w not in list(sw

                                                      ビーフストロガノフはどのくらい強いのか - Qiita
                                                    • GPT-4が労働市場に与える影響と各職種のリスク評価──OpenAIの研究者が論文発表

                                                      大規模言語モデル(LLM)の「GPT-4」を手掛けた米OpenAIとペンシルベニア大学の研究者らは3月17日、「GPTはGPT:LLMの労働市場への影響の可能性に関する初期の考察」と題した論文を公開した。「GPT(Generative Pre-trained Transformer)モデルと関連技術が米国の労働市場に与える潜在的な影響を調査」したとしている。 調査の結果、米国の労働力の約80%が、GPTの導入によって少なくとも仕事の10%に影響を受ける可能性があり、約19%の労働者は仕事の50%に影響を受ける可能性があることが示されたという。 ほぼすべての職種に影響するが、特に現在高収入な職種のリスクが高いとしている。 調査は、学習達成度を表を用いて測定するルーブリック評価によって、職業別の人間の専門知識とGPT-4を使った場合を比較した。 方法は、1016の職業について、職業ごとに測定す

                                                        GPT-4が労働市場に与える影響と各職種のリスク評価──OpenAIの研究者が論文発表
                                                      • 作って理解するAjax (1):IT Pro

                                                        最近,Webエンジニアのまわりで注目されている技術に「Ajax」(エイジャックス)があります。従来のWebアプリケーションはインタラクティブな処理の際,ユーザーにページのリロード作業を強いることが多く,決して操作性が良いとは言えませんでした。しかしAjaxを利用すると,サーバーと非同期な通信ができるので,ページをリロードすることなくコンテンツを更新できます。このためデスクトップ・アプリケーションと同様な操作性を持つWebアプリケーションを作成できます。本連載では,実際にAjaxアプリケーションを開発しながら,Ajaxアプリケーションの動作の仕組みや,既存のWebアプリケーションとの違い,実装上の注意点などについて紹介していきます。 「枯れた技術」を組み合わせる 筆者にとってAjaxの第一印象は強烈でした。「Google Map」のスムーズな地図操作,「Google Suggest」のリアル

                                                          作って理解するAjax (1):IT Pro
                                                        • B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常

                                                          1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。 このグループ1つ1つを「トピック」と呼びます。 例えば、大量のニュース記事にLDAを適用する例を考えます。 ニュース記事データにLDAを適用した例 LDAでは「各トピック(トピック数は予め指定)における各単語の所属確率」が算出されます。 理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法 との理解で大丈夫です。 よく勘違いされることとして以下の2点を示します。 トピック数(いくつ

                                                            B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - 下町データサイエンティストの日常
                                                          • 「たけのこの里」を「きのこの山」に『正しく』自動で修正して差し上げるプログラム - Qiita

                                                            はじめに ~素晴らしいお菓子の紹介と後発劣化品の存在~ みなさんご存知かと思いますが、「きのこの山」1という素晴らしいお菓子があります。株式会社明治様が1975年から製造・販売されているチョコレートスナック菓子です。きのこのような可愛らしいフォルムで、茎の部分がクラッカー、傘の部分がチョコレートになっています。 5年もの開発期間をかけてベストな組み合わせを試行錯誤されたとのことだけあって、持ちやすく機能的でありながら、たっぷりと使われたチョコと、程よい塩味とサクサク感のクラッカーが合わさり、至上の味わいを実現しています。このような素晴らしいお菓子を生み出してくださった明治様には本当に頭が上がりません。 一方で、その爆発的ヒットを受けて4年後に「たけのこの里」なる類似粗悪品が登場しました。こちらは開発期間が短いこともあってか、チョコは約30%減らされ、土台はボソボソと粉っぽく持ちづらいクッキ

                                                              「たけのこの里」を「きのこの山」に『正しく』自動で修正して差し上げるプログラム - Qiita
                                                            • word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室

                                                              久しぶりの記事更新です。 今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。 そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。 なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

                                                                word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて!世界一やさしいデータ分析教室
                                                              • ChatGPT API の使い方|npaka

                                                                「OpenAI」の 記事「Chat completions」が面白かったので、軽くまとめました。 1. ChatGPT API「ChatGPT」は、OpenAIの最も先進的な言語モデルである「gpt-3.5-turbo」を搭載しています。「OpenAI API」から「gpt-3.5-turbo」を使用して独自アプリケーションを作成できます。 ・メールや文章のドラフト ・Pythonコードの生成 ・一連の文書に関する質問応答 ・会話型エージェントの作成 ・ソフトウェアへの自然言語インターフェースの追加 ・さまざまな科目の家庭教師 ・言語の翻訳 ・ビデオゲームのキャラクターのシミュレート 2. 使用料金使用料金は、以下で確認できます。 3. Colab での実行「gpt-3.5-turbo」は、マルチターンの会話を簡単にするように設計されていますが、会話のないシングルターンタスクでも役立ちます

                                                                  ChatGPT API の使い方|npaka
                                                                • 自然言語処理の前処理・素性いろいろ - Debug me

                                                                  ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで自分なりに何か書きたいなと思ったので、今回は自然言語処理の前処理とそのついでに素性の作り方をPythonコードとともに列挙したいと思います。必ずしも全部やる必要はないので目的に合わせて適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実践テクニック] 作者:本橋 智光技術評論社Amazon 前処理 余分な改行やスペースなどを除去 with open(path) as fd: for line in fd: line = line.rstrip() アルファベットの小文字化 text = text.lower() 正規化 (半角/全角変換などなど) import neologdn neologdn.normalize('ハンカクカナ') # => 'ハンカクカナ' neologdn.normalize

                                                                    自然言語処理の前処理・素性いろいろ - Debug me
                                                                  • ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

                                                                    「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです

                                                                      ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
                                                                    • ラノベ『俺の妹には友達が少ない』が出版中止

                                                                      ラノベ『俺の妹には友達が少ない』が出版中止 これは嘘ニュースです 出版業界中堅の青空出版社(板橋区)がライトノベル(ラノベ)を対象に募集した「星雲J新人賞」で、大賞を受賞した作品がコンピューターのプログラムによって自動で書かれたものであったことを、23日の授賞式で作者自らが暴露する出来事があった。これを受け、青空出版社はまもなく受賞取り消しと出版の中止を発表したが、昨今のラノベ事情を知る人々からは、起こるべくして起こったとの声もある。 青空出版社は昨年、ライトノベル専門レーベル「星雲J文庫」の創刊を発表。同時に文庫に収録する作品を「星雲J新人賞」として募集した。長らく学術書専門の老舗(しにせ)として知られてきた同社だけに、新規分野開拓の試みとして業界で注目を浴びていた。 そして昨年11月、「第1回星雲J新人賞」として陸空海(りく・うつみ)さん(24)の『俺の妹には友達が少ない』が大賞を受賞

                                                                        ラノベ『俺の妹には友達が少ない』が出版中止
                                                                      • 画像生成AI「Stable Diffusion」の実行環境を無料でWindows上に構築できる「Stable Diffusion web UI」の導入方法まとめ

                                                                        文章を入力すると画像を生成してくれるAI「Stable Diffusion」は、手軽に好みの画像を生成できることから大きな注目を集めており、「NMKD Stable Diffusion GUI」や「Artroom Stable Diffusion」などWindowsに簡単にインストールできる実行環境が数多く開発されています。「Stable Diffusion web UI」もStable Diffusionを簡単に操作できるシステムの一つで、参考画像を指定して好みの画像を生成しやすくする「img2img」に対応していたり、各種設定をスライダーで簡単に設定できたりと使い勝手の良さが際立っていたので、導入方法をまとめてみました。 GitHub - hlky/stable-diffusion https://github.com/hlky/stable-diffusion/ --ULTIMATE

                                                                          画像生成AI「Stable Diffusion」の実行環境を無料でWindows上に構築できる「Stable Diffusion web UI」の導入方法まとめ
                                                                        • ChatGPTのコア技術「GPT」をざっくり理解する - Qiita

                                                                          ※本記事はOracleの下記Meetup「Oracle Big Data Jam Session」で実施予定の内容です。 ※セミナー実施済の動画に関しては以下をご参照ください。 本記事の対象者 これから機械学習を利用した開発をしていきたい方 機械学習のトレンド技術を知りたい方 なるべく初歩的な内容から学習したい方 はじめに Transformerの登場以降、著しい技術革新が続くここ数年、特にOpenAI社のChatGPTのサービス開始以降、おびただしい数の技術ブログや記事がインターネット上に存在する中、本記事に目を留めていただいてありがとうございます。 この勉強会では、専門用語や難解な公式を極力排除し、初学者の方々を対象に、「そもそも自然言語の機械学習ってどういうもの?」、「言語モデルって要するに何?」というところからGPTをざっくり理解することを目的としています。従って、本記事に記載のあ

                                                                            ChatGPTのコア技術「GPT」をざっくり理解する - Qiita
                                                                          • 類語.jp 言語工学研究所類語辞書検索サイト

                                                                            • 新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮

                                                                              新しいGoogle翻訳がニューラルネットワークに基づく機械翻訳に移行して品質が向上した、というので早速使ってみました。 翻訳対象はHadoopのFair Schedulerに関するドキュメントです。 Fair Schedulerは、Capacity Schedulerと並ぶHadoopの2つのスケジューラの一つですが、挙動が少し複雑で、理解するのに苦労します。ドキュメント自体も長く、英語に不慣れな人には読むのがなかなか大変な文書で、前々から訳したいとは思っていました。しかし、3700ワード(A4に文字ぎっしりで7ページ近く)の技術文書を訳すとなると、かなりの労力が必要になります。少なくとも一日仕事になるのは間違いありません。私も仕事が忙しく、なかなか翻訳の時間がとれなかったため、翻訳作業はタスクキューの底に埋もれてしまっていました。 そこで、今回新しい翻訳がどれほどのものか試すのも兼ねて、

                                                                                新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮
                                                                              • あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」公開

                                                                                人間が書いたものと見分けが付かないぐらいに精度の高い文章を生成できる言語モデル「GPT-2」の後継である「GPT-3」が、人工知能を研究する組織・OpenAIにより公開されました。 GitHub - openai/gpt-3: GPT-3: Language Models are Few-Shot Learners https://github.com/openai/gpt-3 [2005.14165] Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165 OpenAI debuts gigantic GPT-3 language model with 175 billion parameters https://venturebeat.com/2020/05/29/openai-debuts-giga

                                                                                  あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」公開
                                                                                • 形態素解析ツールの比較 (NLP2018) - Qiita

                                                                                  NLP2018のワークショップに行ってきたのですが、そこで聞いてきたことのうち、形態素解析ツールに関することを大雑把にまとめておきます。聞いたことをまとめることが目的なので、詳細は各ツールのWebサイトやgithubページへ行ってください。 間違っている部分、追加したい内容があればコメントでお願いします。 追記: 2018/04/02 nlp2018の発表資料が公開されました。 Juman++ (リンク) MeCab (リンク) KyTea (リンク) Unidic (リンク) https://sites.google.com/view/nlp2018ws/ NLP2018 形態素解析の今とこれから 趣旨: どういう手法・ツールをどのようなタスクに対して使うべきかを選べるように、各ツールの開発者の発表を基に比較してもらうこと。 さまざまな発表がありましたが、形態素解析ツールに焦点を当ててま

                                                                                    形態素解析ツールの比較 (NLP2018) - Qiita