並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 100件

新着順 人気順

chasenの検索結果41 - 80 件 / 100件

  • 形態素解析で使用する辞書の使い分けについて

    MeCabのインストールについては前回の記事参照 MeCab用の辞書について MeCabは形態素解析エンジンですが、形態素解析エンジンは辞書を利用して日本語を解析します。 そのため形態素解析の精度は 形態素解析エンジンのアルゴリズムの精度 と 形態素解析辞書の精度 の2つに左右されます。 仮に形態素解析エンジンにMeCabを使用する場合、形態素解析の目的にあった辞書を指定する必要があります。 MeCabのドキュメントに記載されている辞書は以下の3つです。 IPA辞書(推奨) Juman辞書 Unidic辞書 MeCabのドキュメントが古くリンク切れなどがあるので1つずつ調べてみます。 ※ドキュメントには記載されていませんが、mecab-ipadic-NEologd についても記述。 ※CRFについては省略 IPA辞書 IPA 辞書, IPAコーパス に基づき CRF でパラメータ推定した辞

      形態素解析で使用する辞書の使い分けについて
    • 図で理解する初めての自然言語処理概論 - Qiita

      自分は業務ではNLPに携わっていないのですが学生時代に少しだけNLPの研究に関わっていました。 今回はNLPの全体像を理解したい初学者向けに記事にしました。 世の中は自然言語を利用した技術であふれている 自然言語(テキストデータなど)から情報を抽出し、アウトプットとして提供 自然言語処理(Natural Language Programming)という技術が根幹にある 自然言語処理(NLP)とはなんなのか 具体的にはどういった分野なのかよくわからない 今回は自然言語処理の概要を紹介 NLPの全体像 解析の対象によって単語解析、文解析、文脈解析の3つに分けることができる 単語解析について 形態素解析 形態素解析器を利用し、文を文節ごとに分ける 研究分野としては、形態素を正しく分解したり高速に解析できたりするように辞書の構築や解析器の開発などがあげられる 解析器: MeCab, ChaSen,

        図で理解する初めての自然言語処理概論 - Qiita
      • Newspaper coverage before and after the HPV vaccination crisis began in Japan: a text mining analysis - BMC Public Health

        Newspaper coverage before and after the HPV vaccination crisis began in Japan: a text mining analysis Research article Open access Published: 17 June 2019 Newspaper coverage before and after the HPV vaccination crisis began in Japan: a text mining analysis Tsuyoshi Okuhara ORCID: orcid.org/0000-0002-6251-35871, Hirono Ishikawa1, Masafumi Okada1, Mio Kato1 & …Takahiro Kiuchi1 Show authors BMC Publi

          Newspaper coverage before and after the HPV vaccination crisis began in Japan: a text mining analysis - BMC Public Health
        • ゴリラさんより怖いにゃん - ほのんほの めせん

          ご訪問ありがとうございます 2年前の5月 お嬢に 行きたい場所があると 連れてこられた 京都にある 【茶筅】と言うスイーツ専門店 kyoto-chasen.jimdofree.com 【行きたい場所】ではなく 【食べたい物】の間違えやん( *´艸`)クスクス 物は言いようだと思った ほのんほママ なんだか これが流行ってるとかって。。。 お抹茶・玉手箱スイーツだって~ ほのんほママも 蓋を開けると・・・ モクモクモクと煙が・・・ ギャー 嫌や~~~ これ以上 老けたくない~~~ と 心の中で叫んだ ほのんほママ (笑) ※ 浦島太郎じゃないよ~( ,,>з<)ブッ ドライアイスの煙は すぐに消え おいしそうなスイーツ登場 お嬢いわく これが お昼ごはんらしい って スイーツやん これでは 足りない ほのんほママ すぐ 他のお店へ行って 食べましたよ~ん ごちそうさまでした 公園へお散歩で

            ゴリラさんより怖いにゃん - ほのんほの めせん
          • 自然言語処理(NLP)とは?できることなどをわかりやすく解説! - クリスタルメソッド株式会社| AIアバターが業務をサポート! AIアバターが秘めた可能性

            自然言処理(NLP)とは、その名前の通り「自然言語=私たちが話す言葉」にデジタル処理(コンピュータで理解しやすい形に変換したり、人間に近い解釈を行う手助けをしたり等)を行い、コンピュータと人間のコミュニケーションを促進させる技術です。 人工知能(AI)には欠かせない処理であり、人間とコンピュータが自由な対話を行える未来へと繋がる画期的な手法となります。 人工知能(AI)についてはこちらの記事をご覧ください。 人工知能(AI)とは?仕組みや技術、できることをわかりやすく解説 ここでは、AIの技術の一つである、自然言語処理(NLP)について、機械学習・ディープラーニング(深層学習)といった話題にも触れわかりやすく解説します! 自然言語処理(NLP)とは? 自然言語処理とは、人間が普段話す、英語や日本語といった言語をAIが処理・分析をする技術のことを指します。自然言語処理は、別名でNLP(Nat

              自然言語処理(NLP)とは?できることなどをわかりやすく解説! - クリスタルメソッド株式会社| AIアバターが業務をサポート! AIアバターが秘めた可能性
            • Mecab辞書、ipadicとneologdについてのメモ - エイエイレトリック

              主にMecabを使う時によくみるリンクとメモ。 ほぼ自分用のメモです。よって、Mac OSのことしか考慮していません。 パス 品詞 品詞ID 品詞体系についてまとめたページ ipadic / IPA辞書 マニュアル 品詞体系 辞書引き mecab-ipadic-NEologd 品詞体系 辞書引き neologdn 数字の扱い おわりに ⭐️⭐️⭐️⭐️⭐️ ※Mecabのインストール方法や使い方は全く説明していません。 各所に記事があるので、そちらを参考にしてください。 以降、ですます調ではなくなります。 パス 辞書の格納先は mecab-config --dicdir でみることができる 参考: mecab-ipadic-NEologdのREADME Mac OSの場合は /usr/local/lib/mecab/dic 品詞 IPA辞書 (以降ipadic) やUnidicは、品詞体系

                Mecab辞書、ipadicとneologdについてのメモ - エイエイレトリック
              • MeCabの使い方|npaka

                「MeCab」の使い方を備忘録的にまとめました。 1. MeCab「MeCab」 はオープンソースの形態素解析エンジンです。 ・形態素解析 ・トークン化 ・品詞タグ付け ・レンマ化 ・係り受け解析 (+ CaboCha) 2. インストールMacへのインストール方法は、次のとおりです。 ◎ MeCab 「HomeBrew」で以下のコマンドを実行します。 $ brew install mecab $ brew install mecab-ipadic◎ NEologd 「git」で以下のコマンドを実行します。 $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git $ cd mecab-ipadic-neologd $ bin/install-mecab-ipadic-neologd -n -a #

                  MeCabの使い方|npaka
                • PHPで形態素解析を行う

                  Yahoo!JAPANの「日本語形態素解析」は、日本語文を形態素に分割し、品詞、読みがな等の情報を取得できるクラウドサービスである。 サーバサイドで利用できる形態素解析は、「PHPとKAKASIを使って単語に分解する」で紹介した「KAKASI」や、「ChaSen」、「MeCab」が有名であるが、サーバに負荷がかかる処理である。この「日本語形態素解析」は処理速度も速く、サーバの負荷分散という意味では有用なWebAPIだ。 (2023年3月18日)日本語形態素解析v2に対応

                  • PukiWikiがまだ進化していた!PHP7でも動く

                    PHPで動くWikiシステムとして有名なPukiWikiは、PukiWiki派生の互換Wikiプログラムもいくつか登場し(PukiWiki Plus!など)、もう何年も前にPukiWikiはオワコンかと思っていました。が…なんと、最新のPukiWiki 1.5.3はPHP7.4にも対応していました! FrontPage - PukiWiki-official 驚きました。Pukiwiki1.5.0の登場が2014年で、Pukiwiki1.5.1の登場が2016年。ここでもう終わったのかと思っていました。その後、2019年にPukiwiki1.5.2が登場し、今年2020年にはPukiwiki1.5.3が登場していました。 最新のPukiWikiでは、UTF-8推奨、スマホデザイン対応、検索機能強化、プレビュー移動時の警告など、新機能が追加されていました。ただ、実際に新サーバーで動かしてみる

                      PukiWikiがまだ進化していた!PHP7でも動く
                    • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

                      2005-10-12-1 / 形態素解析と検索APIとTF-IDFでキーワード抽出 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基本中の基本ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキ

                      • 辞書検索のデータ構造 - Qiita

                        はじめに Sudachi をはじめとするおおくの形態素解析器は辞書に語の情報を記録することで分割や品詞、読み、表記の正規化などの情報を提供しています。この辞書の中で実装上もっとも重要なのが、語の表記をキーとしその語の情報 (へのポインタ) を値とする key-value store です。辞書を利用する形態素解析では、解析時間のおおくをこの key-value store の検索についやすため、その実装にはさまざまな工夫がなされてきました。 TRIE TRIE は木構造をつかった検索のためのデータ構造です。木のルートからはじめてキーにしたがって枝をたどり、末端にある葉に到達すれば検索成功で、葉から値を得ることができます。 上の図では「す」「すだち」「すだち酢」「すだつ」「酢」「酢橘」が格納されています (「#」は文字列の終端をあらわす特殊記号とします)。辞書型の形態素解析では入力の先頭から

                          辞書検索のデータ構造 - Qiita
                        • ルーズな文法・未知語だらけの文書を、辞書なしで形態素解析する方法 - Qiita

                          文書の性質・目的に合わせて、適切に形態素解析する方法について、考えていきたいと思います。 今回は、①ルーズな文法、②未知語だらけ、という2つの性質を持つ文書に対して、辞書を用いずに形態素解析する方法を調べます。 ※形態素解析全般に関する話題をスキップしたい場合は、辞書を用いない形態素解析まで飛ばしてください 背景 日本語の文書に対して、テキストマイニングを実施する場合、形態素解析の結果が正しいことは前提となります。 形態素解析の結果に誤りがあった場合、その後のテキストマイニングで非常に苦労します。 形態素解析は、文法的に正しく書かれており、未知語が比較的少ない文書(特許、新聞記事、論文など)に対しては良い結果を得やすいですが、 ルーズな文法で、未知語が多い文書(SNSの文書、会議での発言文書など)に対しては良い結果を得られない場合があります。 近年は、SNSの発達、スマートスピーカーの普及

                            ルーズな文法・未知語だらけの文書を、辞書なしで形態素解析する方法 - Qiita
                          • FLOS Tatou S1 / フロス タトゥー S1|【FLYMEe】フライミー

                            タトゥー S1 光と影の美しい調和を奏でるTatouシリーズ。2007年に発表した日本の茶筅がモチーフの「Chasen」の発表につづき、パトリシア・ウルキオラがFLOSから2作目として発表した「Tatou」のクリエイティブなインスピレーションの源は再び日本からのものでした。それは古典的でアンティークな鎧です。鎧は軽量で強度があり、そして柔軟性をもつ武具です。 「Tatou」の名称は、硬い保護シェルを持つ哺乳類、アルマジロのフランス語に由来します。同一の形をした四つのパターンを組み合わせ、まるでひとつのパーツのように仕上げた伝統的なドーム形のシェードは、軽量のポリカーボネート素材でつくられており、その繊細な模様で光源の眩しさを軽減しています。光を灯すとシェードを通した光が柔らかく拡散し、誌的にそしてモダンに空間を演出します。

                              FLOS Tatou S1 / フロス タトゥー S1|【FLYMEe】フライミー
                            • mots quotidiens.

                              2022年の年末に, 自然言語処理の実質的に全論文が集まる ACL anthologyの論文を「内容」で検索できるニューラル検索システム, "ACL2Vec" http://clml.ism.ac.jp/ACL2Vec/を公開しました。これは, 2021年の言語処理学会年次大会で発表した "Researcher2Vec" [PDF] の方法を, 2022年秋までのACL anthologyの内容が全て含まれている新しいデータセット, https://github.com/shauryr/ACL-anthology-corpus に対して適用したものです。 この方法は完全に統計的に動いており, 内部的には1000次元のニューラル文書ベクトルをSVDで効率的に計算し, 基本的な線形代数を用いて最適解を返すものになっています。 この方法を拡張して, Researcher2Vecにもあるように,

                              • 神戸大学石川慎一郎研究室/Dr. Shin Ishikawa, Kobe University

                                コーパス言語学入門 ■コーパスとは何か? Collins COBUILD英英辞典によると, 「コーパス(corpus)」とは,「言語研究に使用するために大量に収集された書き言葉および話し言葉のテキスト("a large collection of written or spoken texts that is used for language research")」と定義されています。しかし,今日「コーパス」という場合,とくに,機械で処理できるような("machine-readable"な)「電子化テキスト資料」を指す場合が大半です。英語では,すでに,5億語超のBank of Englishや,1億語のBritish National Corpusなどが電子データとして整備されています。 ■コーパスを使うには? 時には数億語にも及ぶ大量の電子資料を直接読むことは不可能ですので,コーパスを

                                • FreeBSD でデスクトップ環境とプログラミング環境を整える(主にポーツ・ツリーを活用)

                                  FreeBSD に種々のソフトウェアのインストールするための手順を記述しました(2010/8 に作成). ◇ ポーツ・ツリーを活用してインストールするもの X.Org X Window System GNOME バージョン2 GNU の エディタ emacs, tamago (emacs でのかな漢字変換用), yatex GNU の 開発用ツール類: gmake, patch GNU の その他の開発用ツール類 (autoconf, automake, autogen, bison, gawk, libtool, ccache, binutils) GNU の コンパイラ (gcc42, gcc44, g++44, gfortran44, gcc45, g++45, gfortran45, gcc46, g++46, gfortran4) ライブラリ類(readline, openssl

                                  • コレスポンデンス分析(対応分析)とは?KH Coderでの分析手順~主成分分析・数量化Ⅲ類との違いまで徹底解説

                                    「コレスポンデンス分析」は聞き慣れないわかりにくい言葉でしょう。日本語で表現すると 「対応分析」 。 …一体なんのことやら、と思う方は少なくないです。 この手法、テキストマイニングで使われる分析のひとつです。 アンケート、ニュース、SNS投稿などから特定のテーマで書かれた記事(単語に分解)が年代、新聞社、特定のグループなどの単位でどのように異なるかを散布図のかたちでアウトプットし、示唆を得る手法です。 この記事では、コレスポンデンス分析(対応分析)の基礎知識や主成分分析・数量化Ⅲ類との違い、KH Coderでの実行手順について、わかりやすく解説していきます! 自力でコレスポンデンス分析をおこなえるようになりますので、最後まで読んでいただければ幸いです。 KHCoder 初心者は必読! 開発者による公式入門書 動かして学ぶ! はじめてのテキストマイニング: フリー・ソフトウェアを用いた自由記

                                    • Elasticsearchのための新しい形態素解析器 「Sudachi」 - Qiita

                                      tl;dr (要約) Kuromojiに代わる新しい形態素解析器「Sudachi」 なにが良いの? 最新の辞書 企業(ワークスアプリケーションズ)による継続的な更新 複数の分割単位 → 検索用途での再現率と適合率の向上 プラグインによる拡張 省メモリ Elasticsearchで使いたい プラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください 注: この記事の執筆者はSudachiの開発に関わっています さまざまな形態素解析器 形態素解析は、伝統的な自然言語処理(Natural Language Processing, NLP)において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利

                                        Elasticsearchのための新しい形態素解析器 「Sudachi」 - Qiita
                                      • タグ「Janome」の1ページ目 - なるぽのブログ

                                        Janomeでマルコフ連鎖 自然言語とは私たちが使う言語のことを言います。 これの解析を自然言語処理と言います。 自然言語処理の工程には字句解析(形態素解析)という工程がありますが、これは文章を単語の列に分割する解析です。 有名な字句解析器にはJUMAN++, ChaSen, MeCabやJanomeなどがあります。 (省略されました) 続きを読む

                                        • 2chのスレッドをWordCloudで可視化してみる ~スクレイピング編~ - Qiita

                                          はじめに 2chは言わずと知れた匿名掲示板であり、膨大な情報量を誇る。 ただ、スレッドのレス一つ一つに目を通していては、全体像をつかむのに莫大な時間を要してしまう。 そこで、これらの情報をWordCloudで可視化し、簡単に全体像をつかめないかと試みた。 上記は”FFRK”でスレッド検索した結果のうち、直近約8カ月分のレス内容をWordCloudで出力したもの。 シンクロ奥義が実装されて約1年たつが、いまだに覚醒奥義のほうが多く話題に上っていることが分かる。また、キャラとしてFFRKオリキャラのデシ・ウララ以外に、バッツ、エッジ、クラウド、モグなどが比較的に話題に出ている。といったことが予想できる。 スクレイピングも自然言語処理も初学者だが、こんな感じで自分なりに形になったので記していきたい。 今回は前編として、Webスクレイピングでスレッド情報からレス内容までの収集を行なう。 全体の流れ

                                            2chのスレッドをWordCloudで可視化してみる ~スクレイピング編~ - Qiita
                                          • 動画の字幕(vttファイル)からwordcloudを作る - Qiita

                                            はじめに つい最近、Microsoft Teamsのビデオ通話機能に日本語のライブキャプション機能がついたことをこちらの記事で知りました。 実際に試してみると80〜90%くらいの認識精度でライブキャプションが生成されて「これは使えそう!」と直感し、パッと思いついた自然言語処理のツールを使ってWordCloudを作ってみました。 この結果が案外良かったので、今回はサンプルとしてyoutube動画の日本語字幕を取得してwordcloudにする方法を記事にまとめました。 vttファイルとは Web Video Text Tracksの略でテキストデータファイルです。 字幕やキャプション、説明、章、メタデータなどのWebビデオに関する情報が含まれています。 vttファイルの取得方法 簡単に入手する方法としては、youtubeの字幕がついている動画やMicrosoft TeamsやStreamのトラ

                                              動画の字幕(vttファイル)からwordcloudを作る - Qiita
                                            • バーチャル教室「Class for Zoom」開発、ソフトバンクらから1億米ドル超をシリーズB調達——ユニコーン目前、日本などにも事業拡大へ - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                              Image credit: Class Technologies <ピックアップ> Class Technologies is eyeing unicorn status with a $105M, SoftBank-backed Series B ワシントン拠点のスタートアップ Class Technologies は、ソフトバンクの支援を受けた1億500万ドルのシリーズ B ラウンドを発表した。昨年の創業以来、同社は1億6,000万米ドルを調達しており、今年に入って、春以降2回目の調達となる。同社は、教師が Zoom を使って出席を取ったり、試験を監督したり、生徒と1対1で話したりする作業を可能にするエドテックプラットフォームだ。 このラウンドは、ソフトバンク・ビジョン・ファンド2 がリードインベスターを務め、GSV Ventures、Emergence Capital、Maven P

                                                バーチャル教室「Class for Zoom」開発、ソフトバンクらから1億米ドル超をシリーズB調達——ユニコーン目前、日本などにも事業拡大へ - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                              • サジェスト汚染(Yahoo,Google検索候補削除)

                                                インターネット検索と最新技術 (2002年11月1日、日経バイト) Googleを超える決定打は見られず イントラネットには新技術が投入 インターネットの検索は新しい技術の萌芽は見られるものの、Googleを超える決定打は見られない。それに引きかえイントラネットにはさまざまな新技術が投入されている。「検索対象が限られているので最新技術が有効に使える」(富士通研究所の松井氏)からだ。 検索の精度向上を目標 検索対象は画像や音楽まで 基本的にはどの技術も、検索の精度向上を目標としている。検索対象も文書だけではなく、画像や音楽に広がりを見せている。これらの技術は、企業内の情報共有や、自社のWebサイトの検索サービスを効率化するのに使われる。 「意味検索」と「概念検索」 検索精度を高めるアプローチ 文書の検索精度を高めるためのアプローチは、大きく2つある。文字列の一致に基づく「全文検索」およびその

                                                • Matcha Brewing Kit - Matchaeologist Japan

                                                  パーフェクトな一杯を簡単にその手に。茶葉と茶器の揃ったスターターセット 厳選した手作り茶器や職人技の賜物、Matchæologist®特製Matsu™(茶葉)を含む、モダンな茶器セットで洗練されたMatcha体験をはじめる 希少になりつつある職人の手によって作られた抹茶パウダーMatsu™に加え、伝統的な様式を尊重しつつアクティブな現代人のライフスタイルにフィットするよう設計した、機能性を備えたミニマルなセット。 このセットがあるだけで、伝統的な作法を日常に簡単に取り入れることができます。 茶器も全て手作りでダブルウォールの手吹きグラス茶わん(Cloud Glass Chawan)、マグカップにも使えて便利な長尺の茶せん(Full-Hand Chasen)や茶しゃく(Bamboo Chasyaku)、職人技で作られた抹茶パウダーのMatsu™がセットになっています。全て手作りの茶器ゆえに、

                                                    Matcha Brewing Kit - Matchaeologist Japan
                                                  • 日本語を音素に分解してくれるPythonスクリプト

                                                    プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの NVDA JPを触っていたら、付属の音声合成eSpeakに日本語がないのはとても残念だと思った。NVDAのポータブル版にそれが入っていれば、USBメモリを差せばどのWindowsXPも、音声パソコンにすることができるから。そういうわけで、いろいろ調べてみた。結局まだできないのだけど、ちょっと面白いものができたので、公開してみることにする。 eSpeakを調べていると、MBROLAという音声合成のプロジェクトを見つけた。世界中の音声が用意されていて、これで使える日本語音声も三種類公開されている。MBROLAのプログラムに音素で表記された文章を与えると、それを音声として読み上げてくれる。これはとても面白い。ということで、漢字仮名交じりの日本語をこれで使える音素に分解するスクリプトを作っ

                                                    • 形態素解析エンジンを使って魚の情報を構造化する|フーディソン|生鮮流通に新しい循環を

                                                      こんにちは! フーディソン エンジニアチームのtaka(@terumapy)です。 最近、住所データの複雑さについてTwitterで話題になっていましたね。住所には、異なる形式や表現で書かれた情報を一定の形式に整理することが難しいという問題があります。 実は、生鮮流通の分野においても同様の問題が起こっています。私達フーディソンがテクノロジーの力でどのようにこの問題と向き合ってきたのかについて、水産物の特性と併せて簡単にご紹介できればと思います。 水産物情報の特性生鮮流通、特に水産物の特徴として、「データが構造化されにくい」というものがあります。ここでいう構造化とは、データを特定の形式やモデルに従って整理・整形することを指します。 例えば、服の商品データの構造化であれば、服の種類(セーター・ジーンズetc)や色、サイズ(S・M・L)など、その商品がどのような要素からなるのかが明確な規格に則っ

                                                        形態素解析エンジンを使って魚の情報を構造化する|フーディソン|生鮮流通に新しい循環を
                                                      • Ajax IME: Web-based Japanese Input Method

                                                        Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日本語を入力す ることができます。 特別なソフトは必要ありません。 使い方 お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。 再度 Alt-o (Ctrl-9)で直接入力に戻ります 海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が 無いパソコンからご使用ください。 Firefox, Internet Explorer, Safari3, C

                                                        • PythonでN-gramを作る(Julius) - Qiita

                                                          import subprocess import time import os path = os.getcwd().replace(os.sep,'/')+"/" # 実行中のパス取得 srilm_path = "C:/cygwin64/srilm/bin/cygwin64/ngram-count" mkbingram = "C:/Julius/julius-4.6-win32bin/bin/mkbingram.exe" input_sentence = 'sentence.txt' corpus = 'corpus.txt' reversal_corpus = 'reversal_corpus.txt' forward_n_gram = "forward_n-gram.arpa" backward_n_gram = "backward_n-gram.arpa" bingram = "n

                                                            PythonでN-gramを作る(Julius) - Qiita
                                                          • きのふよりけふ、けふよりあした 【Solr】Solrサーバのセットアップ【tomcat】

                                                            ■環境 CentOS 5 32bit jdk 1.6.0.31 solr 3.4.0 tomcat 7.0.23 solrは1つのコアしか利用しないつもりでも将来的なマルチコアを想定して環境を作っておく。 そんなに面倒でもないので。 あと、solrにはjettyが同梱されます。 そのままjettyを使っても良いのですがapache tomcat 上で利用することにし、tomcatはapache httpサーバとajpプロトコルで連携させます。 細かいファイル構成まで書いていると死にそうなのでざっくりと。 solr本体 solr_home ←マルチコアのフォルダを置いていく。このsolr直下にsolr.xmlがある tomcat本体 ←/usr/local/jakarta/apache-tomcat-7.0.26/conf/Catalina/localhost/solr.xml でWARのd

                                                            • WordCloudでテキストマイニングする | Reafnex

                                                              テキストマイニングとは、ウェブページ、SNS、アンケートや問い合わせなど大量の文書(文字列)データを単語ごとに区切り、その単語の頻出度などを抽出することで、話題のトレンドなど有益情報を得るためのデータマイニング手法の一つです。 日本語文章のテキストマイニングには、自然言語解析でおなじみの形態素解析を使用します。形態素解析は、文章を構成している単語を、名詞、動詞や助詞など意味を有する最小の言語単位(形態素)に分解する手法です。 英語などの文書では、一般的に単語を空白で分解することができ、コンピュータでも容易に扱うことができます。しかしながら、日本語の文章は、単語が連結していて区切り位置が明確でないため、形態素解析で文章を最小単位の単語に分解する必要があるのです。 テキストマイニングでは、形態素解析で分類された品詞を抽出して、その単語の出現回数をグラフに図示にしたりします。テキストマイニングで

                                                                WordCloudでテキストマイニングする | Reafnex
                                                              • Ubuntuに言語処理関連ツールをインストールする方法まとめ① - 芋の独り言

                                                                Ubuntu最新版に日本語形態素解析器などをインストールしていきたいと思います. 実行する環境として以下が挙げられます. Windows10・Mac(Ubuntu以外のOS)にVMware・Virtual Boxなどの仮想マシンソフトをインストールし、その仮想マシン上のUbuntuにインストールする PCにUbuntuをメインOSとしてぶち込み,そこにインストールする(デュアルブートは推奨されてません) WindowsでWSL2を使用する とはいってもどちらもやり方は変わらないと思います. Step1:環境準備 Step1-1α Step1-1α-1:Windowsに仮想マシンをインストールしてUbuntu環境を手に入れる VMwareを使う VirtualBoxを使う 共有フォルダ VMwareの場合 VirtualBoxの場合 Step1-1α-2:WSLでWindows上にUbunt

                                                                  Ubuntuに言語処理関連ツールをインストールする方法まとめ① - 芋の独り言
                                                                • KHコーダで形態素解析用の辞書に単語を追加する方法 - digitalnagasakiのブログ

                                                                  KHコーダを使っていると、形態素解析がうまくできない単語をどうにかしたくなることがあります。 そんな時の対策の一つとして、形態素解析辞書に単語を追加するという方法があります。 ググればなんてことのない作業なのですが、一応、調べて、やってみた、ということで、 手順を間違えなければかなり簡単なので、ここでちょっとChasenでのケースをご紹介しておきます。 先日、大学生の授業に関するツィートを集めて分析してみたことがありました。 そのときの6万件とちょっとのツィートで「オンライン」という単語を前処理してから 見てみると、以下のようになりました。 ここでは、抽出語で「オンライン」という単語を検索してみていますが、 この文脈だと「オンライン授業」という単語が出てきてほしいところ、 「オンライン」と、あとは謎の未知語しかでてきてませんので、おそらく 「オンライン」と「授業」は分割されてしまっています

                                                                    KHコーダで形態素解析用の辞書に単語を追加する方法 - digitalnagasakiのブログ
                                                                  • 形態素解析ツールについてのまとめのまとめ - いっきのblog

                                                                    以前、形態素解析を行う際にMeCabをインストールした。 kzkohashi.hatenablog.com 恥ずかしながら、僕は日本語の形態素解析 = MeCabと思っていたが、実は他にも結構あったのでメモがてらまとめてみる(随時)。 正直、僕の知識ではほとんどまとめられなかったので、先に感謝も込めて参考URLを紹介する。 qiita.com ↑ ツールごとの特徴をわかりやすくまとめてくださっていて、すごく勉強になりました。形態素解析にも設計思想などがあり、ここらへんは用途ごとにしっかり見極めないとなと思いました。 udemy.benesse.co.jp ↑ 海外のもの(TREE TAGGERとかNLTKなど)をまとめてくれてるやつは貴重だったのでありがたいです。 自然言語処理ツール ↑ 形態素解析以外にも幅広くツールを紹介してくださってたので、色々広がりました。 lab.astamuse

                                                                      形態素解析ツールについてのまとめのまとめ - いっきのblog
                                                                    • JSUTコーパスでKaldiを学習させる方法 - Qiita

                                                                      KaldiでJSUTコーパスを使う方法 Kaldiは音声認識器を自分の好きなようにカスタマイズしながら作成することのできるツールキットです.本記事では,Kaldiの学習に日本語音声のデータセットのJSUTコーパス(ダウンロード)を用いる方法を共有しようと思います.JSUTコーパスは研究用に作成された10時間程度の音声コーパスです.商用目的の使用は作者とのコンタクトが必要なので注意してください. テキストデータは,CC-BY-SA 4.0などにてライセンスされております.詳細は,LICENCEファイルをご覧ください.音声データは,以下の場合に限り使用可能です. アカデミック機関での研究 非商用目的の研究(営利団体での研究も含む) 個人での利用(ブログなどを含む) 営利目的の利用を希望される場合,下記をご覧ください.この音声データの再配布は認められていませんが,あなたのウェブページやブログなど

                                                                        JSUTコーパスでKaldiを学習させる方法 - Qiita
                                                                      • 論文や技術メモの一覧(随時更新)

                                                                        #Pocket Issue Date: 2024-10-11 One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation, Fabian Paischer+, N_A, arXiv24 Comment元ポスト:https://x.com/paischerfabian/status/1844267655068516767?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket Issue Date: 2024-10-11 GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, Iman Mirzadeh+, N_A, arXi

                                                                        • WindowsのAnaconda環境にMeCabをインストール_2023 - Qiita

                                                                          Anaconda環境にインストールしたMeCabでchasenが動かない(Windows) しばらくUbuntu使っていましたが、最近Windowsの手軽さにはまって使い始めて 2023年追加分 Quadloは積んでいるもののCUDAに無視されているので、ただのnvidia-smi表示器 それはさておきちょっとグラフを使おうとしてAnaconda(Windows版)起動というお話 Failed initializing MeCab. Please see the README for possible solutions: https://github.com/SamuraiT/mecab-python3#common-issues<br> If you are still having trouble, please file an issue here, and include the

                                                                            WindowsのAnaconda環境にMeCabをインストール_2023 - Qiita
                                                                          • テキストデータに対しての前処理|キータ@python/データ分析の修行

                                                                            〇データの確認 ・columnを調べる。 → df.columns ・ユニークな値を確認→ df.[ ].unique( ) ・データの大きさ  → df.shape 〇テキストデータの内容を確認する。 In [1]: # ライブラリのインポート import pandas as pd # データの読み込み df_data = pd.read_csv('Shinzo Abe Tweet 20171024 - Tweet.csv') df_data['Tweet Text Size Block'].values Out[1]: array(['選挙期間中、自民党の候補者たちは全国各地で我々の経済政策を、安全保障を、そして日本の将来を担っていく決意と地域を支える想いを皆様に訴えかけさせていただきました。 「この国を、守り抜く。」自民党はこれからも皆様とともに歩みを進めて参ります。本当に12日間

                                                                              テキストデータに対しての前処理|キータ@python/データ分析の修行
                                                                            • 「2050年の東京の暮らし」とは?「空飛ぶクルマ」の都内初飛行もレポート! SusHi Tech Tokyo2024 ショーケースプログラム<後編>|東京ベイeSGプロジェクト

                                                                              「2050年の東京の暮らし」とは?「空飛ぶクルマ」の都内初飛行もレポート! SusHi Tech Tokyo2024 ショーケースプログラム<後編> 空飛ぶクルマが東京の空を初フライト! 観客からも歓声世界共通の都市課題解決に向けて東京からイノベーションを創出し、未来の都市モデルを発信する国際イベント「SusHi Tech Tokyo2024」。東京ベイエリアを舞台に4月末から5月末まで約1カ月にわたって開催され、大盛況のうちに幕を閉じました。 会期中、大きな話題を集めたのが空飛ぶクルマの都内初飛行でした。 都内初飛行を披露した機体「HEXA(ヘクサ)」空飛ぶクルマは、電動垂直離着陸機(electric Vertical Take-off and landing=略称eVTOL)と呼ばれ、従来の自動車でも航空機でもヘリコプターでもない新しい概念の乗り物です。100年に1度の移動革命ともいわ

                                                                                「2050年の東京の暮らし」とは?「空飛ぶクルマ」の都内初飛行もレポート! SusHi Tech Tokyo2024 ショーケースプログラム<後編>|東京ベイeSGプロジェクト
                                                                              • KH CoderとTableauでワードクラウドを作成する方法|Kensuke Sekine

                                                                                Tableau でワードクラウドを作成しようとするとキーワードの集計をどうやって実施するかという問題が発生します。PythonやRを利用して集計することが可能ですが、コードを書けない場合どうすればよいのでしょうか? テキストマイニングツールのKH Coderを利用することで、コードが書けなくても比較的簡易に出現キーワードの集計が可能になります。 今回はKH CoderとTableauを利用してコーディングできない人でもワードクラウドを作成する方法を紹介していきたいと思います。 KH Coderは、テキストマイニングのためのフリーソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事などさまざまなテキストの分析に利用が可能です。 KH Coderのインストール以下リンクからパッケージをダウンロードしてKH Coderをインストールします。 KH Coder 3 ダウンロード(3

                                                                                  KH CoderとTableauでワードクラウドを作成する方法|Kensuke Sekine
                                                                                • PHPで形態素解析を行う(gooラボ版)

                                                                                  「PHPで形態素解析を行う」では、Yahoo!JAPANの「日本語形態素解析Webサービス」を利用したが、今回は、「gooラボ 形態素解析API」を利用した形態素解析を行ってみる。 サーバサイドで利用できる形態素解析は、「PHPとKAKASIを使って単語に分解する」で紹介した「KAKASI」や、「ChaSen」、「MeCab」が有名であるが、サーバに負荷がかかる処理である。この「日本語形態素解析Webサービス」は処理速度も速く、サーバの負荷分散という意味では有用なWebAPIだ。 (2021年9月23日)PHP8対応,リファラ・チェック改良,https対応