本文「chasen」を検索 - はてなブックマーク

41 - 80 件 / 100件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

chasenの検索結果41 - 80 件 / 100件

形態素解析で使用する辞書の使い分けについて
- 2 users
- zenn.dev/ymmt1089
- テクノロジー
- 2022/09/20
MeCabのインストールについては前回の記事参照 MeCab用の辞書について MeCabは形態素解析エンジンですが、形態素解析エンジンは辞書を利用して日本語を解析します。そのため形態素解析の精度は形態素解析エンジンのアルゴリズムの精度と形態素解析辞書の精度の2つに左右されます。仮に形態素解析エンジンにMeCabを使用する場合、形態素解析の目的にあった辞書を指定する必要があります。 MeCabのドキュメントに記載されている辞書は以下の3つです。 IPA辞書(推奨) Juman辞書 Unidic辞書 MeCabのドキュメントが古くリンク切れなどがあるので1つずつ調べてみます。 ※ドキュメントには記載されていませんが、mecab-ipadic-NEologd についても記述。 ※CRFについては省略 IPA辞書 IPA 辞書, IPAコーパスに基づき CRF でパラメータ推定した辞
図で理解する初めての自然言語処理概論 - Qiita
- 2 users
- qiita.com/nishina555
- テクノロジー
- 2020/06/23
自分は業務ではNLPに携わっていないのですが学生時代に少しだけNLPの研究に関わっていました。今回はNLPの全体像を理解したい初学者向けに記事にしました。世の中は自然言語を利用した技術であふれている自然言語(テキストデータなど)から情報を抽出し、アウトプットとして提供自然言語処理(Natural Language Programming)という技術が根幹にある自然言語処理（NLP）とはなんなのか具体的にはどういった分野なのかよくわからない今回は自然言語処理の概要を紹介 NLPの全体像解析の対象によって単語解析、文解析、文脈解析の3つに分けることができる単語解析について形態素解析形態素解析器を利用し、文を文節ごとに分ける研究分野としては、形態素を正しく分解したり高速に解析できたりするように辞書の構築や解析器の開発などがあげられる解析器: MeCab, ChaSen,
Newspaper coverage before and after the HPV vaccination crisis began in Japan: a text mining analysis - BMC Public Health
- 2 users
- bmcpublichealth.biomedcentral.com
- 世の中
- 2021/06/09
Newspaper coverage before and after the HPV vaccination crisis began in Japan: a text mining analysis Research article Open access Published: 17 June 2019 Newspaper coverage before and after the HPV vaccination crisis began in Japan: a text mining analysis Tsuyoshi Okuhara ORCID: orcid.org/0000-0002-6251-35871, Hirono Ishikawa1, Masafumi Okada1, Mio Kato1 & …Takahiro Kiuchi1 Show authors BMC Publi
- メディア
ゴリラさんより怖いにゃん - ほのんほのめせん
- 1 user
- hononho.hatenablog.com
- 暮らし
- 2020/07/08
ご訪問ありがとうございます 2年前の5月お嬢に　行きたい場所があると連れてこられた　京都にある【茶筅】と言うスイーツ専門店 kyoto-chasen.jimdofree.com 【行きたい場所】ではなく【食べたい物】の間違えやん( *´艸｀)ｸｽｸｽ物は言いようだと思った　ほのんほママなんだか　これが流行ってるとかって。。。お抹茶・玉手箱スイーツだって～ほのんほママも蓋を開けると・・・モクモクモクと煙が・・・ギャー　嫌や～～～これ以上　老けたくない～～～と心の中で叫んだ　ほのんほママ (笑) ※ 浦島太郎じゃないよ～( ,,>з<)ﾌﾞｯドライアイスの煙は　すぐに消えおいしそうなスイーツ登場お嬢いわくこれが　お昼ごはんらしいってスイーツやんこれでは　足りない　ほのんほママすぐ　他のお店へ行って食べましたよ～んごちそうさまでした公園へお散歩で
自然言語処理(NLP)とは？できることなどをわかりやすく解説! - クリスタルメソッド株式会社｜ AIアバターが業務をサポート！ AIアバターが秘めた可能性
- 1 user
- crystal-method.com
- テクノロジー
- 2023/03/19
自然言処理（NLP）とは、その名前の通り「自然言語＝私たちが話す言葉」にデジタル処理（コンピュータで理解しやすい形に変換したり、人間に近い解釈を行う手助けをしたり等）を行い、コンピュータと人間のコミュニケーションを促進させる技術です。人工知能（AI）には欠かせない処理であり、人間とコンピュータが自由な対話を行える未来へと繋がる画期的な手法となります。人工知能(AI)についてはこちらの記事をご覧ください。人工知能(AI)とは?仕組みや技術、できることをわかりやすく解説ここでは、AIの技術の一つである、自然言語処理（NLP）について、機械学習・ディープラーニング（深層学習）といった話題にも触れわかりやすく解説します！自然言語処理（NLP）とは？自然言語処理とは、人間が普段話す、英語や日本語といった言語をAIが処理・分析をする技術のことを指します。自然言語処理は、別名でNLP(Nat
Mecab辞書、ipadicとneologdについてのメモ - エイエイレトリック
- 1 user
- eieito.hatenablog.com
- テクノロジー
- 2023/06/14
主にMecabを使う時によくみるリンクとメモ。ほぼ自分用のメモです。よって、Mac OSのことしか考慮していません。パス品詞品詞ID 品詞体系についてまとめたページ ipadic / IPA辞書マニュアル品詞体系辞書引き mecab-ipadic-NEologd 品詞体系辞書引き neologdn 数字の扱いおわりに ⭐️⭐️⭐️⭐️⭐️ ※Mecabのインストール方法や使い方は全く説明していません。各所に記事があるので、そちらを参考にしてください。以降、ですます調ではなくなります。パス辞書の格納先は mecab-config --dicdir でみることができる参考: mecab-ipadic-NEologdのREADME Mac OSの場合は /usr/local/lib/mecab/dic 品詞 IPA辞書 (以降ipadic) やUnidicは、品詞体系
MeCabの使い方｜npaka
- 1 user
- note.com/npaka
- テクノロジー
- 2023/10/07
「MeCab」の使い方を備忘録的にまとめました。 1. MeCab「MeCab」はオープンソースの形態素解析エンジンです。・形態素解析・トークン化・品詞タグ付け・レンマ化・係り受け解析 (+ CaboCha) 2. インストールMacへのインストール方法は、次のとおりです。 ◎ MeCab 「HomeBrew」で以下のコマンドを実行します。 $ brew install mecab $ brew install mecab-ipadic◎ NEologd 「git」で以下のコマンドを実行します。 $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git $ cd mecab-ipadic-neologd $ bin/install-mecab-ipadic-neologd -n -a #
PHPで形態素解析を行う
- 1 user
- www.pahoo.org
- 暮らし
- 2021/10/14
Yahoo!JAPANの「日本語形態素解析」は、日本語文を形態素に分割し、品詞、読みがな等の情報を取得できるクラウドサービスである。サーバサイドで利用できる形態素解析は、「PHPとKAKASIを使って単語に分解する」で紹介した「KAKASI」や、「ChaSen」、「MeCab」が有名であるが、サーバに負荷がかかる処理である。この「日本語形態素解析」は処理速度も速く、サーバの負荷分散という意味では有用なWebAPIだ。（2023年3月18日）日本語形態素解析v2に対応
PukiWikiがまだ進化していた！PHP7でも動く
- 1 user
- zapanet.info
- テクノロジー
- 2021/10/04
PHPで動くWikiシステムとして有名なPukiWikiは、PukiWiki派生の互換Wikiプログラムもいくつか登場し（PukiWiki Plus!など）、もう何年も前にPukiWikiはオワコンかと思っていました。が…なんと、最新のPukiWiki 1.5.3はPHP7.4にも対応していました！ FrontPage - PukiWiki-official 驚きました。Pukiwiki1.5.0の登場が2014年で、Pukiwiki1.5.1の登場が2016年。ここでもう終わったのかと思っていました。その後、2019年にPukiwiki1.5.2が登場し、今年2020年にはPukiwiki1.5.3が登場していました。最新のPukiWikiでは、UTF-8推奨、スマホデザイン対応、検索機能強化、プレビュー移動時の警告など、新機能が追加されていました。ただ、実際に新サーバーで動かしてみる
[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
- 1 user
- web.archive.org
- テクノロジー
- 2020/08/30
2005-10-12-1 / 形態素解析と検索APIとTF-IDFでキーワード抽出 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキ
辞書検索のデータ構造 - Qiita
- 1 user
- qiita.com/kazuma-t
- テクノロジー
- 2022/12/15
はじめに Sudachi をはじめとするおおくの形態素解析器は辞書に語の情報を記録することで分割や品詞、読み、表記の正規化などの情報を提供しています。この辞書の中で実装上もっとも重要なのが、語の表記をキーとしその語の情報 (へのポインタ) を値とする key-value store です。辞書を利用する形態素解析では、解析時間のおおくをこの key-value store の検索についやすため、その実装にはさまざまな工夫がなされてきました。 TRIE TRIE は木構造をつかった検索のためのデータ構造です。木のルートからはじめてキーにしたがって枝をたどり、末端にある葉に到達すれば検索成功で、葉から値を得ることができます。上の図では「す」「すだち」「すだち酢」「すだつ」「酢」「酢橘」が格納されています (「#」は文字列の終端をあらわす特殊記号とします)。辞書型の形態素解析では入力の先頭から
ルーズな文法・未知語だらけの文書を、辞書なしで形態素解析する方法 - Qiita
- 1 user
- qiita.com/pocket_kyoto
- テクノロジー
- 2021/01/04
文書の性質・目的に合わせて、適切に形態素解析する方法について、考えていきたいと思います。今回は、①ルーズな文法、②未知語だらけ、という2つの性質を持つ文書に対して、辞書を用いずに形態素解析する方法を調べます。 ※形態素解析全般に関する話題をスキップしたい場合は、辞書を用いない形態素解析まで飛ばしてください背景日本語の文書に対して、テキストマイニングを実施する場合、形態素解析の結果が正しいことは前提となります。形態素解析の結果に誤りがあった場合、その後のテキストマイニングで非常に苦労します。形態素解析は、文法的に正しく書かれており、未知語が比較的少ない文書（特許、新聞記事、論文など）に対しては良い結果を得やすいですが、ルーズな文法で、未知語が多い文書（SNSの文書、会議での発言文書など）に対しては良い結果を得られない場合があります。近年は、SNSの発達、スマートスピーカーの普及
FLOS Tatou S1 / フロスタトゥー S1|【FLYMEe】フライミー
- 1 user
- flymee.jp
- 暮らし
- 2021/08/28
タトゥー S1 光と影の美しい調和を奏でるTatouシリーズ。2007年に発表した日本の茶筅がモチーフの「Chasen」の発表につづき、パトリシア・ウルキオラがFLOSから2作目として発表した「Tatou」のクリエイティブなインスピレーションの源は再び日本からのものでした。それは古典的でアンティークな鎧です。鎧は軽量で強度があり、そして柔軟性をもつ武具です。「Tatou」の名称は、硬い保護シェルを持つ哺乳類、アルマジロのフランス語に由来します。同一の形をした四つのパターンを組み合わせ、まるでひとつのパーツのように仕上げた伝統的なドーム形のシェードは、軽量のポリカーボネート素材でつくられており、その繊細な模様で光源の眩しさを軽減しています。光を灯すとシェードを通した光が柔らかく拡散し、誌的にそしてモダンに空間を演出します。
mots quotidiens.
- 1 user
- chasen.org/~daiti-m
- テクノロジー
- 2022/06/24
2022年の年末に, 自然言語処理の実質的に全論文が集まる ACL anthologyの論文を「内容」で検索できるニューラル検索システム, "ACL2Vec" http://clml.ism.ac.jp/ACL2Vec/を公開しました。これは, 2021年の言語処理学会年次大会で発表した "Researcher2Vec" [PDF] の方法を, 2022年秋までのACL anthologyの内容が全て含まれている新しいデータセット, https://github.com/shauryr/ACL-anthology-corpus に対して適用したものです。この方法は完全に統計的に動いており, 内部的には1000次元のニューラル文書ベクトルをSVDで効率的に計算し, 基本的な線形代数を用いて最適解を返すものになっています。この方法を拡張して, Researcher2Vecにもあるように,
神戸大学石川慎一郎研究室／Dr. Shin Ishikawa, Kobe University
- 1 user
- language.sakura.ne.jp
- 学び
- 2024/07/06
コーパス言語学入門 ■コーパスとは何か？ Collins COBUILD英英辞典によると，「コーパス(corpus)」とは，「言語研究に使用するために大量に収集された書き言葉および話し言葉のテキスト（"a large collection of written or spoken texts that is used for language research"）」と定義されています。しかし，今日「コーパス」という場合，とくに，機械で処理できるような（"machine-readable"な）「電子化テキスト資料」を指す場合が大半です。英語では，すでに，5億語超のBank of Englishや，1億語のBritish National Corpusなどが電子データとして整備されています。 ■コーパスを使うには？時には数億語にも及ぶ大量の電子資料を直接読むことは不可能ですので，コーパスを
FreeBSD でデスクトップ環境とプログラミング環境を整える（主にポーツ・ツリーを活用）
- 1 user
- www.kkaneko.jp
- テクノロジー
- 2022/05/22
FreeBSD に種々のソフトウェアのインストールするための手順を記述しました（2010/8 に作成）． ◇ ポーツ・ツリーを活用してインストールするもの X.Org X Window System GNOME バージョン2 GNU のエディタ emacs, tamago (emacs でのかな漢字変換用), yatex GNU の開発用ツール類: gmake, patch GNU のその他の開発用ツール類 (autoconf, automake, autogen, bison, gawk, libtool, ccache, binutils) GNU のコンパイラ (gcc42, gcc44, g++44, gfortran44, gcc45, g++45, gfortran45, gcc46, g++46, gfortran4) ライブラリ類(readline, openssl
コレスポンデンス分析（対応分析）とは？KH Coderでの分析手順～主成分分析・数量化Ⅲ類との違いまで徹底解説
- 1 user
- minamolab.com
- 学び
- 2024/06/22
「コレスポンデンス分析」は聞き慣れないわかりにくい言葉でしょう。日本語で表現すると「対応分析」。 …一体なんのことやら、と思う方は少なくないです。この手法、テキストマイニングで使われる分析のひとつです。アンケート、ニュース、SNS投稿などから特定のテーマで書かれた記事（単語に分解）が年代、新聞社、特定のグループなどの単位でどのように異なるかを散布図のかたちでアウトプットし、示唆を得る手法です。この記事では、コレスポンデンス分析（対応分析）の基礎知識や主成分分析・数量化Ⅲ類との違い、KH Coderでの実行手順について、わかりやすく解説していきます！自力でコレスポンデンス分析をおこなえるようになりますので、最後まで読んでいただければ幸いです。 KHCoder 初心者は必読！開発者による公式入門書動かして学ぶ! はじめてのテキストマイニング: フリー・ソフトウェアを用いた自由記
Elasticsearchのための新しい形態素解析器「Sudachi」 - Qiita
- 1 user
- qiita.com/sorami
- テクノロジー
- 2021/05/30
tl;dr （要約） Kuromojiに代わる新しい形態素解析器「Sudachi」なにが良いの？最新の辞書企業（ワークスアプリケーションズ）による継続的な更新複数の分割単位 → 検索用途での再現率と適合率の向上プラグインによる拡張省メモリ Elasticsearchで使いたいプラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください注: この記事の執筆者はSudachiの開発に関わっていますさまざまな形態素解析器形態素解析は、伝統的な自然言語処理（Natural Language Processing, NLP）において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利
タグ「Janome」の1ページ目 - なるぽのブログ
- 1 user
- yu-nix.com
- 世の中
- 2021/11/19
Janomeでマルコフ連鎖自然言語とは私たちが使う言語のことを言います。これの解析を自然言語処理と言います。自然言語処理の工程には字句解析（形態素解析）という工程がありますが、これは文章を単語の列に分割する解析です。有名な字句解析器にはJUMAN++, ChaSen, MeCabやJanomeなどがあります。（省略されました）続きを読む
2chのスレッドをWordCloudで可視化してみる　～スクレイピング編～ - Qiita
- 1 user
- qiita.com/hisakichi95
- テクノロジー
- 2020/09/06
はじめに 2chは言わずと知れた匿名掲示板であり、膨大な情報量を誇る。ただ、スレッドのレス一つ一つに目を通していては、全体像をつかむのに莫大な時間を要してしまう。そこで、これらの情報をWordCloudで可視化し、簡単に全体像をつかめないかと試みた。上記は”FFRK”でスレッド検索した結果のうち、直近約８カ月分のレス内容をWordCloudで出力したもの。シンクロ奥義が実装されて約１年たつが、いまだに覚醒奥義のほうが多く話題に上っていることが分かる。また、キャラとしてFFRKオリキャラのデシ・ウララ以外に、バッツ、エッジ、クラウド、モグなどが比較的に話題に出ている。といったことが予想できる。スクレイピングも自然言語処理も初学者だが、こんな感じで自分なりに形になったので記していきたい。今回は前編として、Webスクレイピングでスレッド情報からレス内容までの収集を行なう。全体の流れ
動画の字幕（vttファイル）からwordcloudを作る - Qiita
- 1 user
- qiita.com/hasegawa16777216
- テクノロジー
- 2021/09/19
はじめについ最近、Microsoft Teamsのビデオ通話機能に日本語のライブキャプション機能がついたことをこちらの記事で知りました。実際に試してみると80〜90％くらいの認識精度でライブキャプションが生成されて「これは使えそう！」と直感し、パッと思いついた自然言語処理のツールを使ってWordCloudを作ってみました。この結果が案外良かったので、今回はサンプルとしてyoutube動画の日本語字幕を取得してwordcloudにする方法を記事にまとめました。 vttファイルとは Web Video Text Tracksの略でテキストデータファイルです。字幕やキャプション、説明、章、メタデータなどのWebビデオに関する情報が含まれています。 vttファイルの取得方法簡単に入手する方法としては、youtubeの字幕がついている動画やMicrosoft　TeamsやStreamのトラ
バーチャル教室「Class for Zoom」開発、ソフトバンクらから1億米ドル超をシリーズB調達——ユニコーン目前、日本などにも事業拡大へ - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報
- 1 user
- thebridge.jp
- 政治と経済
- 2021/07/31
Image credit: Class Technologies ＜ピックアップ＞ Class Technologies is eyeing unicorn status with a $105M, SoftBank-backed Series B ワシントン拠点のスタートアップ Class Technologies は、ソフトバンクの支援を受けた1億500万ドルのシリーズ B ラウンドを発表した。昨年の創業以来、同社は1億6,000万米ドルを調達しており、今年に入って、春以降2回目の調達となる。同社は、教師が Zoom を使って出席を取ったり、試験を監督したり、生徒と1対1で話したりする作業を可能にするエドテックプラットフォームだ。このラウンドは、ソフトバンク・ビジョン・ファンド2 がリードインベスターを務め、GSV Ventures、Emergence Capital、Maven P
サジェスト汚染（Yahoo,Google検索候補削除）
- 1 user
- wakaichikara.jp
- テクノロジー
- 2020/02/19
インターネット検索と最新技術（2002年11月1日、日経バイト） Googleを超える決定打は見られずイントラネットには新技術が投入インターネットの検索は新しい技術の萌芽は見られるものの、Googleを超える決定打は見られない。それに引きかえイントラネットにはさまざまな新技術が投入されている。「検索対象が限られているので最新技術が有効に使える」（富士通研究所の松井氏）からだ。検索の精度向上を目標検索対象は画像や音楽まで基本的にはどの技術も、検索の精度向上を目標としている。検索対象も文書だけではなく、画像や音楽に広がりを見せている。これらの技術は、企業内の情報共有や、自社のWebサイトの検索サービスを効率化するのに使われる。「意味検索」と「概念検索」検索精度を高めるアプローチ文書の検索精度を高めるためのアプローチは、大きく2つある。文字列の一致に基づく「全文検索」およびその
Matcha Brewing Kit - Matchaeologist Japan
- 1 user
- jp.matchaeologist.com
- 学び
- 2020/05/06
パーフェクトな一杯を簡単にその手に。茶葉と茶器の揃ったスターターセット厳選した手作り茶器や職人技の賜物、Matchæologist®特製Matsu™(茶葉)を含む、モダンな茶器セットで洗練されたMatcha体験をはじめる希少になりつつある職人の手によって作られた抹茶パウダーMatsu™に加え、伝統的な様式を尊重しつつアクティブな現代人のライフスタイルにフィットするよう設計した、機能性を備えたミニマルなセット。このセットがあるだけで、伝統的な作法を日常に簡単に取り入れることができます。茶器も全て手作りでダブルウォールの手吹きグラス茶わん（Cloud Glass Chawan）、マグカップにも使えて便利な長尺の茶せん(Full-Hand Chasen)や茶しゃく(Bamboo Chasyaku)、職人技で作られた抹茶パウダーのMatsu™がセットになっています。全て手作りの茶器ゆえに、
日本語を音素に分解してくれるPythonスクリプト
- 1 user
- neu101.seesaa.net
- テクノロジー
- 2021/05/01
プログラミングとか、見た番組とか、興味を持っていろいろ調べてみたこととか、そういうものを書き留めるためのもの NVDA JPを触っていたら、付属の音声合成eSpeakに日本語がないのはとても残念だと思った。NVDAのポータブル版にそれが入っていれば、USBメモリを差せばどのWindowsXPも、音声パソコンにすることができるから。そういうわけで、いろいろ調べてみた。結局まだできないのだけど、ちょっと面白いものができたので、公開してみることにする。 eSpeakを調べていると、MBROLAという音声合成のプロジェクトを見つけた。世界中の音声が用意されていて、これで使える日本語音声も三種類公開されている。MBROLAのプログラムに音素で表記された文章を与えると、それを音声として読み上げてくれる。これはとても面白い。ということで、漢字仮名交じりの日本語をこれで使える音素に分解するスクリプトを作っ
形態素解析エンジンを使って魚の情報を構造化する｜フーディソン｜生鮮流通に新しい循環を
- 1 user
- note.com/foodison
- 暮らし
- 2023/06/18
こんにちは! フーディソンエンジニアチームのtaka（@terumapy）です。最近、住所データの複雑さについてTwitterで話題になっていましたね。住所には、異なる形式や表現で書かれた情報を一定の形式に整理することが難しいという問題があります。実は、生鮮流通の分野においても同様の問題が起こっています。私達フーディソンがテクノロジーの力でどのようにこの問題と向き合ってきたのかについて、水産物の特性と併せて簡単にご紹介できればと思います。水産物情報の特性生鮮流通、特に水産物の特徴として、「データが構造化されにくい」というものがあります。ここでいう構造化とは、データを特定の形式やモデルに従って整理・整形することを指します。例えば、服の商品データの構造化であれば、服の種類(セーター・ジーンズetc)や色、サイズ(S・M・L)など、その商品がどのような要素からなるのかが明確な規格に則っ
Ajax IME: Web-based Japanese Input Method
- 1 user
- web.archive.org
- 学び
- 2020/12/31
Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日本語を入力することができます。特別なソフトは必要ありません。使い方お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。再度 Alt-o (Ctrl-9)で直接入力に戻ります海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が無いパソコンからご使用ください。 Firefox, Internet Explorer, Safari3, C
PythonでN-gramを作る（Julius） - Qiita
- 1 user
- qiita.com/phiniki
- テクノロジー
- 2022/03/14
import subprocess import time import os path = os.getcwd().replace(os.sep,'/')+"/" # 実行中のパス取得 srilm_path = "C:/cygwin64/srilm/bin/cygwin64/ngram-count" mkbingram = "C:/Julius/julius-4.6-win32bin/bin/mkbingram.exe" input_sentence = 'sentence.txt' corpus = 'corpus.txt' reversal_corpus = 'reversal_corpus.txt' forward_n_gram = "forward_n-gram.arpa" backward_n_gram = "backward_n-gram.arpa" bingram = "n
きのふよりけふ、けふよりあした　【Solr】Solrサーバのセットアップ【tomcat】
- 1 user
- isann.blog2.fc2.com
- 世の中
- 2020/09/09
■環境 CentOS 5 32bit jdk 1.6.0.31 solr 3.4.0 tomcat 7.0.23 solrは１つのコアしか利用しないつもりでも将来的なマルチコアを想定して環境を作っておく。そんなに面倒でもないので。あと、solrにはjettyが同梱されます。そのままjettyを使っても良いのですがapache tomcat 上で利用することにし、tomcatはapache httpサーバとajpプロトコルで連携させます。細かいファイル構成まで書いていると死にそうなのでざっくりと。 solr本体 solr_home ←マルチコアのフォルダを置いていく。このsolr直下にsolr.xmlがある tomcat本体 ←/usr/local/jakarta/apache-tomcat-7.0.26/conf/Catalina/localhost/solr.xml でWARのd
WordCloudでテキストマイニングする | Reafnex
- 1 user
- reafnex.net
- 学び
- 2022/02/06
テキストマイニングとは、ウェブページ、ＳＮＳ、アンケートや問い合わせなど大量の文書（文字列）データを単語ごとに区切り、その単語の頻出度などを抽出することで、話題のトレンドなど有益情報を得るためのデータマイニング手法の一つです。日本語文章のテキストマイニングには、自然言語解析でおなじみの形態素解析を使用します。形態素解析は、文章を構成している単語を、名詞、動詞や助詞など意味を有する最小の言語単位（形態素）に分解する手法です。英語などの文書では、一般的に単語を空白で分解することができ、コンピュータでも容易に扱うことができます。しかしながら、日本語の文章は、単語が連結していて区切り位置が明確でないため、形態素解析で文章を最小単位の単語に分解する必要があるのです。テキストマイニングでは、形態素解析で分類された品詞を抽出して、その単語の出現回数をグラフに図示にしたりします。テキストマイニングで
Ubuntuに言語処理関連ツールをインストールする方法まとめ① - 芋の独り言
- 1 user
- kusoimox.hatenablog.jp
- テクノロジー
- 2020/01/30
Ubuntu最新版に日本語形態素解析器などをインストールしていきたいと思います．実行する環境として以下が挙げられます． Windows10・Mac（Ubuntu以外のOS）にVMware・Virtual Boxなどの仮想マシンソフトをインストールし、その仮想マシン上のUbuntuにインストールする PCにUbuntuをメインOSとしてぶち込み，そこにインストールする（デュアルブートは推奨されてません） WindowsでWSL2を使用するとはいってもどちらもやり方は変わらないと思います． Step1：環境準備 Step1-1α Step1-1α-1：Windowsに仮想マシンをインストールしてUbuntu環境を手に入れる VMwareを使う VirtualBoxを使う共有フォルダ VMwareの場合 VirtualBoxの場合 Step1-1α-2：WSLでWindows上にUbunt
KHコーダで形態素解析用の辞書に単語を追加する方法 - digitalnagasakiのブログ
- 1 user
- digitalnagasaki.hatenablog.com
- 学び
- 2021/07/15
KHコーダを使っていると、形態素解析がうまくできない単語をどうにかしたくなることがあります。そんな時の対策の一つとして、形態素解析辞書に単語を追加するという方法があります。ググればなんてことのない作業なのですが、一応、調べて、やってみた、ということで、手順を間違えなければかなり簡単なので、ここでちょっとChasenでのケースをご紹介しておきます。先日、大学生の授業に関するツィートを集めて分析してみたことがありました。そのときの6万件とちょっとのツィートで「オンライン」という単語を前処理してから見てみると、以下のようになりました。ここでは、抽出語で「オンライン」という単語を検索してみていますが、この文脈だと「オンライン授業」という単語が出てきてほしいところ、「オンライン」と、あとは謎の未知語しかでてきてませんので、おそらく「オンライン」と「授業」は分割されてしまっています
形態素解析ツールについてのまとめのまとめ - いっきのblog
- 1 user
- kzkohashi.hatenablog.com
- テクノロジー
- 2020/04/13
以前、形態素解析を行う際にMeCabをインストールした。 kzkohashi.hatenablog.com 恥ずかしながら、僕は日本語の形態素解析 = MeCabと思っていたが、実は他にも結構あったのでメモがてらまとめてみる（随時）。正直、僕の知識ではほとんどまとめられなかったので、先に感謝も込めて参考URLを紹介する。 qiita.com ↑ ツールごとの特徴をわかりやすくまとめてくださっていて、すごく勉強になりました。形態素解析にも設計思想などがあり、ここらへんは用途ごとにしっかり見極めないとなと思いました。 udemy.benesse.co.jp ↑ 海外のもの(TREE TAGGERとかNLTKなど）をまとめてくれてるやつは貴重だったのでありがたいです。自然言語処理ツール ↑ 形態素解析以外にも幅広くツールを紹介してくださってたので、色々広がりました。 lab.astamuse
JSUTコーパスでKaldiを学習させる方法 - Qiita
- 1 user
- qiita.com/kamikennn
- テクノロジー
- 2020/10/04
KaldiでJSUTコーパスを使う方法 Kaldiは音声認識器を自分の好きなようにカスタマイズしながら作成することのできるツールキットです．本記事では，Kaldiの学習に日本語音声のデータセットのJSUTコーパス(ダウンロード)を用いる方法を共有しようと思います．JSUTコーパスは研究用に作成された10時間程度の音声コーパスです．商用目的の使用は作者とのコンタクトが必要なので注意してください．テキストデータは，CC-BY-SA 4.0などにてライセンスされております．詳細は，LICENCEファイルをご覧ください．音声データは，以下の場合に限り使用可能です．アカデミック機関での研究非商用目的の研究（営利団体での研究も含む）個人での利用（ブログなどを含む）営利目的の利用を希望される場合，下記をご覧ください．この音声データの再配布は認められていませんが，あなたのウェブページやブログなど
論文や技術メモの一覧（随時更新）
- 1 user
- akihikowatanabe.github.io
- テクノロジー
- 2024/10/13
#Pocket Issue Date: 2024-10-11 One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation, Fabian Paischer+, N_A, arXiv24 Comment元ポスト:https://x.com/paischerfabian/status/1844267655068516767?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket Issue Date: 2024-10-11 GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, Iman Mirzadeh+, N_A, arXi
WindowsのAnaconda環境にMeCabをインストール_2023 - Qiita
- 1 user
- qiita.com/Manyan3
- テクノロジー
- 2021/10/11
Anaconda環境にインストールしたMeCabでchasenが動かない(Windows) しばらくUbuntu使っていましたが、最近Windowsの手軽さにはまって使い始めて 2023年追加分 Quadloは積んでいるもののCUDAに無視されているので、ただのnvidia-smi表示器それはさておきちょっとグラフを使おうとしてAnaconda(Windows版）起動というお話 Failed initializing MeCab. Please see the README for possible solutions: https://github.com/SamuraiT/mecab-python3#common-issues<br> If you are still having trouble, please file an issue here, and include the
テキストデータに対しての前処理｜キータ@python/データ分析の修行
- 1 user
- note.com/super_yes_man
- テクノロジー
- 2024/04/22
〇データの確認・columnを調べる。　→　df.columns ・ユニークな値を確認→　df.[ ].unique( ) ・データの大きさ　　→　df.shape 〇テキストデータの内容を確認する。 In [1]: # ライブラリのインポート import pandas as pd # データの読み込み df_data = pd.read_csv('Shinzo Abe Tweet 20171024 - Tweet.csv') df_data['Tweet Text Size Block'].values Out[1]: array(['選挙期間中、自民党の候補者たちは全国各地で我々の経済政策を、安全保障を、そして日本の将来を担っていく決意と地域を支える想いを皆様に訴えかけさせていただきました。「この国を、守り抜く。」自民党はこれからも皆様とともに歩みを進めて参ります。本当に１２日間
「2050年の東京の暮らし」とは？「空飛ぶクルマ」の都内初飛行もレポート！　SusHi Tech Tokyo2024 ショーケースプログラム＜後編＞｜東京ベイｅＳＧプロジェクト
- 1 user
- note.com/tokyobayesg
- 政治と経済
- 2024/07/30
「2050年の東京の暮らし」とは？「空飛ぶクルマ」の都内初飛行もレポート！　SusHi Tech Tokyo2024 ショーケースプログラム＜後編＞空飛ぶクルマが東京の空を初フライト！観客からも歓声世界共通の都市課題解決に向けて東京からイノベーションを創出し、未来の都市モデルを発信する国際イベント「SusHi Tech Tokyo2024」。東京ベイエリアを舞台に４月末から5月末まで約1カ月にわたって開催され、大盛況のうちに幕を閉じました。会期中、大きな話題を集めたのが空飛ぶクルマの都内初飛行でした。都内初飛行を披露した機体「HEXA(ヘクサ)」空飛ぶクルマは、電動垂直離着陸機(electric Vertical Take-off and landing=略称eVTOL)と呼ばれ、従来の自動車でも航空機でもヘリコプターでもない新しい概念の乗り物です。100年に１度の移動革命ともいわ
KH CoderとTableauでワードクラウドを作成する方法｜Kensuke Sekine
- 1 user
- note.com/kensuke
- 暮らし
- 2023/08/19
Tableau でワードクラウドを作成しようとするとキーワードの集計をどうやって実施するかという問題が発生します。PythonやRを利用して集計することが可能ですが、コードを書けない場合どうすればよいのでしょうか？テキストマイニングツールのKH Coderを利用することで、コードが書けなくても比較的簡易に出現キーワードの集計が可能になります。今回はKH CoderとTableauを利用してコーディングできない人でもワードクラウドを作成する方法を紹介していきたいと思います。 KH Coderは、テキストマイニングのためのフリーソフトウェアです。アンケートの自由記述・インタビュー記録・新聞記事などさまざまなテキストの分析に利用が可能です。 KH Coderのインストール以下リンクからパッケージをダウンロードしてKH Coderをインストールします。 KH Coder 3 ダウンロード（3
PHPで形態素解析を行う（gooラボ版）
- 1 user
- www.pahoo.org
- 学び
- 2022/05/31
「PHPで形態素解析を行う」では、Yahoo!JAPANの「日本語形態素解析Webサービス」を利用したが、今回は、「gooラボ形態素解析API」を利用した形態素解析を行ってみる。サーバサイドで利用できる形態素解析は、「PHPとKAKASIを使って単語に分解する」で紹介した「KAKASI」や、「ChaSen」、「MeCab」が有名であるが、サーバに負荷がかかる処理である。この「日本語形態素解析Webサービス」は処理速度も速く、サーバの負荷分散という意味では有用なWebAPIだ。（2021年9月23日）PHP8対応，リファラ・チェック改良，https対応