本文「係助詞」を検索 - はてなブックマーク

1 - 40 件 / 432件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

係助詞の検索結果1 - 40 件 / 432件

MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
- 603 users
- mecab.sourceforge.net
- 暮らし
- 2006/11/08
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
「ぽきたw 魔剤ンゴ！？」を文法的に考察する - えいちゃーろぐ！
- 525 users
- eicear.hatenablog.com
- 学び
- 2016/06/21
【原文】ぽきたw 魔剤ンゴ！？ありえん良さみが深いw 二郎からのセイクで優勝せえへん？そり！そりすぎてソリになったw や、漏れのモタクと化したことのNASA✋ そりでわ、無限に練りをしまつぽやしみ〜この状態では、解読するのは難しい。そこで、"オタク的仮名遣い"を"現代仮名遣い"に修正し、「ンゴ」等の意味を持たない文字列を消して考える。起きたw 魔剤！？ありえない良さみが深いw 二郎からのセイクで優勝しない？それ！それすぎてソリになったw いや、おれのオタクと化したことの無さ✋ それでは、無限に練りをしますおやすみ〜さらに、用語を現代語へと訳していく。起きたw 本当！？ありえないほど良さの程度が甚だしいw ラーメン二郎を食べてからの酒で幸せな気分にならない？それ！それすぎてソリになったw いや、おれのオタクと化したことの無さ✋ それでは、無限に寝ますおやすみ〜
- 日本語
- オタク
- 言葉
- ネタ
- あとで読む
- 考察
- ことば
- language
- 言語
- 仮名遣い
Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web
- 451 users
- nwpct1.hatenablog.com
- テクノロジー
- 2014/11/12
検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏作者:山田浩之,末永匡発売日: 2014/09/25メディア: 単行本（ソフトカバー） (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析検索エンジンの構築データをMongoDBに格納 Fl
- python
- スクレイピング
- 検索エンジン
- mecab
- mongodb
- flask
- crawler
- クローラ
- web
- あとで読む
MeCabの辞書にはてなキーワードを追加しよう - 不可視点
- 376 users
- code46.hatenablog.com
- 暮らし
- 2009/05/31
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました
- 370 users
- diary.overlasting.net
- テクノロジー
- 2015/03/14
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。困ったことに、新語辞書を生成
おもしろいダジャレを入力すると布団が吹っ飛ぶ装置を作った - Qiita
- 298 users
- qiita.com/fujit33
- テクノロジー
- 2018/12/19
面白いダジャレを言うと、何が起こるでしょうか。そうです。布団が吹っ飛びます。今回は、ダジャレを心から愛するブレインパッドのメンバー4人が制作した、最新ダジャレAIを搭載した次世代型おもしろダジャレ検知マシン『オフトゥンフライングシステム』のご紹介をさせて頂きます。 ※補足＆感謝面白いと布団が吹っ飛ぶという発想は日テレ系列の大喜利番組「フットンダ」のリスペクトです「オフトゥンフライングシステム」という名前はボーカロイドソング、『オフトゥンフライングシステム』があまりにもイメージとぴったり合ったため、名前を使わせていただきました。こちらの曲を無限ループしながら記事を読んでいただけると、より楽しめる仕組みになっております Product Summary オフトゥンフライングシステムとは何か。分かりやすく説明すると、ダジャレ検知AI『Shareka』とダジャレ評価AI『Ukeruka』が搭
- AI
- ダジャレ
- あとで読む
- qiita
- 技術
- NLP
- ネタ
- 自然言語処理
- Raspberry Pi
- 人工知能
人工無能の作り方
- 262 users
- www.x68uec.org
- 暮らし
- 2009/02/20
書いた人 INA 人工無能とは？人間っぽく話すプログラムのこと。会話を理解しているというよりは、なんかそれっぽいことを話すだけのものが多い。今回は「日本語のようなものを話す人工無能」を作ってみたので、その簡単な仕組みと工夫した点について少し書いてみることにする。動機うちのサークルのメンバーがよく集まってるチャット。とてもマニアックなどうしようもない会話が繰り広げられているわけだが、ちょっと物足りない。そうだ！萌キャラがいないじゃないか！「ないなら作ればいいじゃない？」材料 MeCab 形態素解析エンジン難しいことは知らなくても問題ない。「私は変な人ではない」 ↓ 私名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシは助詞,係助詞,*,*,*,*,は,ハ,ワ変名詞,形容動詞語幹,*,*,*,*,変,ヘン,ヘンな助動詞,*,*,*,特殊・ダ,体言接続,だ,
- 人工無能
- programming
- ai
- プログラミング
- algorithm
- 人工無脳
- 資料
- mecab
- 自然言語処理
- bot
シゴタノ！ — わかりやすい文章を書く上で最低限おさえておきたい読点の二大原則
- 258 users
- cyblog.jp
- 暮らし
- 2009/08/21
By: Alex Ziv – CC BY 2.0 「わかりやすい」と言われるような文章を書きたいものです。とはいえ、単に「わかりやすい文章」というだけでは具体的に何をどう改善すればいいのかがイマイチ「わかりにくい」。そこで、今回は読点（テン）の打ち方に絞って「わかりやすい文章」に一歩、近づくことにします。参考図書は、現代国語や小論文が苦手だった学生時代の僕に文章を書くことの楽しさと深遠さを教えてくれた以下の一冊。「血まみれ」になったのはどっち？、（テン）や。（マル）や「（カギ）のような符号は、わかりやすい文章を書く上でたいへん重要な役割を占めている。とくにこの場合、論理的に正確な文章という意味でのわかりやすさと深い関係をもつ。（p.74) ということで、テンの役割の重要性を示すために挙げられているのが次の例。渡辺刑事は血まみれになって逃げ出した賊を追いかけた。渡辺刑事は、血まみ
- 文章術
- 文章
- writing
- 本
- lifehack
- 仕事
- tips
- book
- 仕事術
- 言葉
読みやすい文章の書き方｜それは作文技術を身につけることです | 弁理士ブログ｜とある士業の知的な日常
- 249 users
- www.mayaaaaasama.com
- テクノロジー
- 2019/02/19
僕は、とある法律事務所で働く弁理士🙈 僕は、毎日、特許明細書と呼ばれる法律文書を作成する仕事をしています。その過程で、文章力を高めてきました。そこで、今回は、「読みやすい文章の書き方」についてお話ししたいと思います。目次です読みやすい文章を書くために重要なことは２つ作文技術を身につけることが文章力を上げるために重要作文技術を向上させるために重要な５つのこと（１）「主語を明確にすること」（２）「助詞『は』と助詞『が』の使い分けを理解すること」（３）「被修飾語に係る複数の修飾語を分かり易く整理すること」複数の修飾語を整理するコツ（４）「句読点（、）をつける位置を理解すること」（５）「旧情報⇒新情報の順番で書くこと」作文技術を向上させるためのおすすめの本読みやすい文章を書くために重要なことは２つまず、読みやすい文章を書くために重要なことを２つ挙げます。それは、
- 文章
- あとで読む
- 文章参考
- writing
- 文章術
- 技術
- book
- 勉強
きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる
- 222 users
- chasen.org/~taku
- 暮らし
- 2007/06/23
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま
- mecab
- 形態素解析
- 自然言語処理
- yahoo
- nlp
- Yahoo!
- api
- 言語処理
- japanese
- 日本語
のび太の「～かしら」は女性的？　言葉の歴史を紐解いてみた
- 214 users
- www.j-cast.com
- 世の中
- 2019/09/16
「ドラえもん」の作者として知られる藤子・F・不二雄氏の漫画について、「男性が『～かしら』という言葉を使っている印象がある」などと指摘するツイートが、2019年8月下旬に投稿され、話題になった。投稿者のユーザーは、「女性的な言葉だと思うが、F先生の口癖だったのかしら？」と疑問を投げかける。そもそも「～かしら」はいつから使われ始めたのだろうか。J-CASTニュースでは、過去の文献を振り返るとともに、識者に見解を聞いてみた。「坊っちゃん」や「少年探偵団」にも登場「広辞苑第七版」（岩波書店）によると、「かしら」は助詞。「『...か知らぬ』の転。明治以降の語。主として女性が用いる」としている。体言と同等の語に続いて、不審や疑問の意を表す。否定の助動詞「ない」「ぬ」に続いて、願望や依頼の意も示す。「かしらん」とも表記されるようだ。活用語の連体形に続いて、危ぶむ意も表すという。ツイッター上では
- 言葉
- あとで読む
- 日本語
- ことば
- 歴史
- ドラえもん
- language
- 言語
ウェブサービス(Web API)をプログラムから使う
- 214 users
- chalow.net
- 暮らし
- 2009/12/27
ウェブサービス(Web API)をプログラムから使う 2009-12-26-2 [WebAPI][Programming] 前回[2009-12-24-1]はウェブサービス(Web API)の基本的事項と、よく採用されているプロトコルとデータ構造の概要を解説した。プロトコルとデータ構造の組み合わせ、計4つのうち3つを取り上げて、実際にプログラムから Web API を使う方法を例を用いて説明する。今回取り上げるサンプルプログラムで使った Web API と用いたプログラム言語を表に示す：プロトコル\データ構造XMLJSON, JSONPREST風MECAPI, Perlキーフレーズ抽出API, JavaScriptSOAP, XML-RPCはてブ件数取得API, Perl- REST風 + XML Web API をREST風プロトコルでアクセスしXMLデータを得る流れを perl
- api
- programming
- perl
- プログラミング
- webサービス
- webapi
- webservice
- web
- xml
- あとで読む
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
- 164 users
- mecab.googlecode.com
- テクノロジー
- 2012/02/13
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一
- MeCab
- 形態素解析
- 自然言語処理
- OSS
- TDAP
- software
- NLP
- 辞書
- Linux
Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>￥
- 164 users
- gnarl.hatenadiary.org
- テクノロジー
- 2012/03/19
12月にさくさくテキストマイニングで発表したpure Rubyによる形態素解析エンジンをgem化しました｡まだ発展途上で機能が少なかったりパフォーマンスが悪かったりしますが､いちおう動くレベル*1になったので公開します｡注意事項バージョン0.0.xのうちは､インタフェースや辞書フォーマットは頻繁に変更される予定です｡ある程度安定したら0.1.0出します｡今のところ､Ruby1.9系専用です｡取得 gem install okuraでインストールできます｡ソースは https://github.com/todesking/okura 使い方 MeCabフォーマットの辞書データを使用します｡動作確認はMeCab用NAIST辞書で行いました｡最初にokura compileコマンドで辞書をコンパイルします $ okura compile mecab-naist-jdic-0.6
- 形態素解析
- ruby
- mecab
- 形態素
- nlp
- テキストマイニング
- gem
- todesking
- 言語処理
- github
「こんにちわ」が間違いではない時代が来る？ - ねとらぼ
- 155 users
- nlab.itmedia.co.jp
- 学び
- 2018/10/16
皆さんは「こんにちは」を「こんにちわ」と書いて、学校の先生や親に注意されたことはありませんか？　「コンニチワ」と発音するのに、「こんにちは」と書かなきゃいけないなんて、日本語の難しいところですよね。いわゆる「仮名遣い」の問題です。さて、この「こんにちは」はなぜ「は」なのでしょう？それは、「こんにちは」はもともと「今日は良いお天気ですね」などのあいさつが省略された形だから。助詞の「は」だから、「わ」で書くのは間違いなんですね。しかし、本当に「こんにちわ」は間違いなのでしょうか？　実は、必ずしも間違いとはいえないのではないか、と思える例が日本語にはあるのです。「は」は「わ」に変わりがち日本語の歴史をたどると、助詞の「は」が「わ」に変わる例がいくらか見られます。例えば、「雨は降るわ、風は吹くわ」の「わ」はもともと「は」と書かれていました。そもそも、終助詞の「わ」は、係助詞の「は」から
- 言葉
- 文化
- 日本語
- 国語
- ネタ
- あとで読む
ワードサラダ技術について
- 146 users
- www.drk7.jp
- 暮らし
- 2007/07/10
後半部分が重要で、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である　ということです。さて、実例です。たとえば次の文章を考えてみます。「通信販売大手セシールは９日、生命保険の販売に本格参入する方針を明らかにした。」まず形態素解析するとこんな感じになります。通信名詞,サ変接続,*,*,*,*,通信,ツウシン,ツーシン販売名詞,サ変接続,*,*,*,*,販売,ハンバイ,ハンバイ大手名詞,一般,*,*,*,*,大手,オオテ,オーテセシール名詞,固有名詞,組織,*,*,*,セシール,セシール,セシールは助詞,係助詞,*,*,*,*,は,ハ,ワ９名詞,数,*,*,*,*,９,キュウ,キュー日名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ、記号,読点,*,*,*,*,、,、,、生命名詞,一般,*,*,*,*,生命,セイメイ,セイメイ保険名詞,一般
- spam
- algorithm
- マルコフ連鎖
- nlp
- 形態素解析
- perl
- アルゴリズム
- programming
- seo
- 人工無脳
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
- 124 users
- mecab.sourceforge.jp
- 暮らし
- 2005/05/09
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
【Python】MeCabと極性辞書を使ったツイートの感情分析入門 - StatsBeginner: 初学者の統計学習ノート
- 123 users
- blog.statsbeginner.net
- テクノロジー
- 2017/05/07
負のオーラを自動検出したい前回のエントリで、著作権侵害にあたる違法アップロード動画を自分のTwitterで拡散してしまっている懸念を考えて、YouTube動画のリンクが貼ってあるツイートをまとめて削除しました。前回のエントリでも言いましたが、著作権侵害モノ以外にも、「残しておくとまずいツイート」は色々ある可能性があり、たとえば誹謗中傷の類いがあるかと思います。誹謗中傷ツイートを自動抽出する方法はにわかには思いつきませんが、たぶん「クソ」とか「死ね」とか「バカ」とかそういう悪口の辞書が必要になりそうです。ところで、言語データの分析手法として、単語ごとに感情特性を評価した辞書というものがあちこちで作られていまして、これを使ってツイートがどのような感情を帯びているか分析するということが、よくやられています。Yahoo!がそういうツールを提供してたりもします（参考リンク）。 Yahoo!のリ
MeCabのコマンドライン引数一覧とその実行例 | mwSoft
- 121 users
- www.mwsoft.jp
- テクノロジー
- 2009/10/20
-r --rcfile 使用するリソースファイルを指定するリソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書
- mecab
- 形態素解析
- nlp
- 自然言語処理
- reference
- programming
- TextMining
- 辞書
- 資料
言語処理100本ノックを（第5章まで）やってみた - フツーって言うなぁ！
- 112 users
- lethe2211.hatenablog.com
- テクノロジー
- 2015/07/22
久しぶりに技術関係のネタ書きます．「言語処理100本ノック」という，自然言語処理関係の問題集があることを知ったので取り組んでみました．これは，東北大学の乾・岡崎研究室でのプログラミング勉強会にて使われている教材だそうです．「100本ノック」の言葉通り，100問の問題からなる問題集をこなすことで，自然言語処理に関する基礎力と，プログラミング言語運用能力が同時に培えるようになっています．こういうものが公開されるとは，「いい時代になったなー」と純粋に思います． www.cl.ecei.tohoku.ac.jp 内容は，自然言語処理だけでなく，データベース，機械学習など，今の言語処理関係の研究に必要なスキルがこれ1つで身につくように設計されています．対象プログラミング言語はPythonのようですが，基本的に他の言語でも問題なく進められるようにはなっていると思います（言語処理に強いプログラ
MeCab（形態素解析）をPythonから２分で使えるようにする方法
- 97 users
- spjai.com
- テクノロジー
- 2017/08/01
※サンプル・コード掲載あらすじ Javaだと、Kuromojiを使用するまでに必要な手続きは、基本的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。ですので、今回は最小限の労力で、PythonからMeCabを使う方法を紹介致します。使用した環境 Ubuntu 16.04python3、pipはインストールされていると仮定＊インスタンスを用意した直後の、何も手を加えていないインタクトなマシンの状態のままです。 MeCabのインストール（１分以内）コマンドを打ち間違えなければ、完了まで１分かかららず、ご活用いただけるはずです。 MeCabを使えるようにするという事だけを優先するので、MeCabの詳細等は、別途御確認頂ければと存じます。 Me
テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
- 96 users
- aidiary.hatenablog.com
- 暮らし
- 2010/12/30
WindowsでMeCab Pythonを使う（2010/11/21）のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。（Wikipedia『人工知能』を改変）という文章をMeCabで形態素解析して名詞のみ取り出すと、人工知能コンピュータ人間同様知能実現試みため一連基礎技術人工知能名前 1956 年ダートマス会議ジョンマッカーシー
- 自然言語処理
- mecab
- 形態素解析
- python
- NLP
- wikipedia
- 研究
- 機械学習
Elasticsearch 日本語で全文検索その２
- 89 users
- medium.com
- テクノロジー
- 2014/03/28
Elasticsearch では、すでに日本語で全文検索する為のトークナイザーやノーマライズなどの加工処理で使用するフィルターなどがビルトインまたは、サードパーティ製のプラグインとして多数存在します。ここでは、日本語全文検索で使用しそうなトークナイザーやフィルターなどを説明します。主要モジュールNGram Tokenizer N-グラムを提供するトークナイザーです。Elasticsearch にバンドルされています。Japanese (kuromoji) Analysis for Elasticsearch 日本語形態素解析を提供するプラグインです。各種 Analyzer、Tokenizer、TokenFilterが含まれます。cjk_width Token Filter 半角・全角などを統一するためのフィルターです。Elasticsearch にバンドルされています。Lowercas
マルコフ連鎖と日本語形態素解析によるワードサラダSEO
- 83 users
- www.geek.sc
- テクノロジー
- 2013/02/19
マルコフ連鎖とはマルコフ連鎖は未来の挙動が現在の値だけで決定され、過去の挙動と無関係であることを利用した確率統計モデルです。定義としては次のような形を取ります。マルコフ連鎖は、一連の確率変数 X1, X2, X3, … で、現在の状態が決まっていれば、過去および未来の状態は独立であるものである。形式的には、であるような過程をいう。一般の、時間的に均一でないマルコフ連鎖は、この等式を満たさない。（Wikipedia:「マルコフ連鎖」より）はい、難しい数式が出てきましたね。私もこの中身は完全には理解していません。しかし、このマルコフ連鎖を使うと、現在のデータを一定の出現率で並び替えるアルゴリズムを作成することも可能という事を憶えておいてください。実はGoogleのページランクアルゴリズムなどにもマルコフモデルが応用されています。日本語形態素解析とは日本語は単語と助詞を中心に、日本独
ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog
- 80 users
- tech.appbrew.io
- テクノロジー
- 2019/09/16
こんにちは、AppBrewでアルバイトをしている@Leoです。自然言語処理の研究室に最近入った大学生で、趣味はKaggleと競技プログラミングです。 AppBrewでは、LIPSの投稿を使ったデータ分析をしています。今日の記事では、弊社のアプリLIPSにて投稿ジャンルを機械学習を使って自動推定した方法を紹介します。自然言語処理・確率関係全然わからない！という人でも読みやすい内容になっていると思うので、最後まで読んでいただけると幸いです！ LIPSにおけるジャンル教師データの作成ナイーブベイズ単語分割モデルの実装分類結果おわりに LIPSにおけるジャンル最近、LIPSにジャンル機能が追加されました。これは投稿されたクチコミにジャンルを設定できる機能です。適切にジャンルを設定すると、投稿を検索するときにジャンルを使って絞り込めるなどの利点があります。ジャンルは7種類（
moco(beta)'s backup: 辞書内包／Pure Python実装の形態素解析器 Janome を公開しました
- 80 users
- mocobeta-backup.tumblr.com
- テクノロジー
- 2015/04/08
一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
- 79 users
- taku910.github.io
- テクノロジー
- 2015/03/31
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2013-02-18 MeCab 0.996 configure script の不備によりiconvへのリンクに失敗する問題を修正ユーザ辞書用CSVファイルのコストと左/右文脈IDを付与し, 新たなCSVファイルを生成する機能の追加解析結果からLattice を作成する Lattice::set_result() メソッドを追加. 単体テスト時のスタブの作成等に利用可能 2013-01-24 MeCab 0.995 部分解析機能の再実装部分解析機能のためのAPI (Lattice:set_boundary_constarint, Lattice::set_feature_constraint) の追加 2012-06-03
- mecab
- 形態素解析
- 辞書
- NLP
- reference
- study
日本語係り受け解析器 CaboCha Ruby 拡張の基本的な使い方とちょっとした応用 - デー
- 79 users
- ultraist.hatenablog.com
- 暮らし
- 2011/10/15
ari3_botの会話エンジンで使っている自然言語の処理の中から他の方にも有益そうなところだけ書いておこうと思います。このエンジン自体はアドホックにヒーリスティクスな処理を追加しまくっていて、とても説明しにくいのですが、基本的な部分だけ抜き出して……まとめて……解説します。全部実装できるほど詳細な解説はできないので、取っ掛かりになる程度です。ちなみにCaboChaのAPIはきちんとしたドキュメントがない？ようで、僕はソースコードを自分で読んで得た知識から解説を行っています。また日本語文法関する知識もari3_botを作るためだけに得たものであり、あやしいので、あまり信じすぎないようにしてください。もくじです。 ari3_botの会話エンジンとは CaboChaの基本的な使い方 CaboChaで主語と述語っぽいところを抜き出す述語を活用してみるその他のいろいろなヒントまとめ ar
- CaboCha
- 自然言語処理
- nlp
- ruby
- 係り受け解析
- bot
- MeCab
Igo - a morphological analyzer
- 79 users
- igo.osdn.jp
- 暮らし
- 2010/06/14
目次概要/特徴リリースノートインストール/使い方 jarファイル解析用辞書作成形態素解析コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点解析結果機能辞書ファイル単語エントリフォーマット制限/注意点禁則文字バイナリ辞書エンディアンライセンスバグ報告など概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版辞書フォーマット及び解析結果は、ほぼMeCab互換。単機能。 Javaの形態素解析器としては比較的高速。スレッドセーフ。リリースノート version 0.4.3: 2011年06月17日形態素解析部の微細なパフォーマンスチューニングインストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。ダウンロード
- 形態素解析
- java
- Igo
- nlp
- 自然言語処理
- mecab
- library
形態素解析エンジンMeCabをPython3でも使えるようにする（Macの場合） - StatsBeginner: 初学者の統計学習ノート
- 76 users
- blog.statsbeginner.net
- テクノロジー
- 2016/02/05
MeCabのPythonバインディングはPython3で使えない？日本語の文章を解析する際には欠かせない、形態素解析エンジン"MeCab"の導入に関するエントリを以前書きました（過去エントリ）。 MeCabの公式サイトにいくとPythonバインディングというのが配布されていて、Python上でMeCabを使うことができるのですが、これだとPython2系でしか使えません。もともとこのPythonバインディングは、MeCabのプログラムからSWIGというツールを用いて自動生成したものらしく、この生成をやり直せばPython3系でも使うことができるようになります。 [追記]じつは、コメント欄で指摘を頂き、pipでmecab-python3というのが配布されていることが分かったので、公式サイトに置いてあるやつを使わずに、後述のとおりpipからインストールすれば全て解決しますｗ[/追記] ここ
- MeCab
- python
- 形態素解析
- python3
- あとで読む
- Mac
ウェブサービス(Web API)とは？
- 74 users
- chalow.net
- テクノロジー
- 2009/12/24
ウェブサービス(Web API)とは？ 2009-12-24-1 [WebAPI][Programming] Webサービス(Web API)とは、ユーザがウェブ経由で他の人・会社が持っているデータや処理をアクセスして使うための技術。プログラムから呼び出して使うことが多く、それを前提としたプロトコル、データ構造となっている。商品検索、ウェブ検索、ソーシャルブックマーク、写真サービス、ツイッター、カレンダー、番組表、天気予報情報、路線情報、漢字変換、キーワード抽出、ウェブページのサムネイル、位置情報、地図情報、認証などさまざまなサービスで Web API が提供されている。このような Web API を組み合わせてサイトやアプリケーションを作ることをマッシュアップと呼ぶ。プロトコル Web API で利用されるプロトコルは大まかに下記の二つに分けられる。 (1) REST風 (2)
- API
- Webサービス
- 形態素解析
- webservice
- webapi
- programming
- web
- プログラミング
- rest
- ブラウザ
SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
- 70 users
- yoshoku.hatenablog.com
- テクノロジー
- 2020/07/05
はじめに Pure Rubyな形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器は食べ物の名前がつくことが多い。「Rubyなので赤い食べ物が良いかな」と考えて、文字数とかわいらしさからSuika（スイカ）とした。使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:
朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す - illegal function call in 1980s
- 61 users
- dk4130523.hatenablog.com
- 学び
- 2021/01/22
追々記(1/23, 16:55): ちょっと自分でも気になる箇所があったので末尾に試訳Dを足しました。そちらにお進みください。 * 朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す話です。 www.asahi.com 大したことのない歌です。でもね、こういうのが大切なんですよ。かきおくもかたみとなれやふでのあと我はいずこのうらにすむとも品詞分解します。かきおく:カ行四段動詞「書き置く」連体形。係助詞「も」の上は連体形です。も:不確かさ、不安、懸念の係助詞。AかもしれないしBかもしれないしそれ以外かもしれない。かたみ:名詞。「形見」。直観的には「片身」（かたみに袖をしぼりつつ）にも掛けているかなとも思いますが、この方の他の歌を見てみないと何ともいえません。また、「記念パピコ」（後述）。と:格助詞なれ:ラ行四段活用動詞「なる」命令形。なってしまえ。や:詠嘆、強意の係助
- 古文
- 言葉
- 日本語
- culture
- エンタメ
- 歴史
- あとで読む
Welcome to janome's documentation! (Japanese) — Janome v0.4 documentation (ja)
- 60 users
- mocobeta.github.io
- テクノロジー
- 2015/04/08
Welcome to janome's documentation! (Japanese)¶ English Janome とは¶ Janome (蛇の目; ◉) は，Pure Python で書かれた，辞書内包の形態素解析器です。依存ライブラリなしで簡単にインストールでき，アプリケーションに組み込みやすいシンプルな API を備える形態素解析ライブラリを目指しています。内包辞書として mecab-ipadic-2.7.0-20070801 を使っています。なお，v0.3.8+ では新元号「令和」がシステム辞書に追加されています。ソースコードリポジトリ¶ https://github.com/mocobeta/janome 気に入ったらリポジトリにも★つけていってください！ :) API リファレンス¶ https://mocobeta.github.io/janome/api/ 動
- 形態素解析
- python
- janome
- NLP
- 自然言語処理
- MeCab
- 言語
MeCabの辞書をカスタマイズする | mwSoft
- 59 users
- www.mwsoft.jp
- テクノロジー
- 2012/06/24
概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成（mecab-dict-index）する方法と、文章の解析結果を用意してそれを利用して学習（mecab-cost-train）する方法。 Linuxで実行。Windowsは知らない。単語追加用のCSVファイルを作成するまずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。やり方は公式サイトに載っている。今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク名詞,一般,*,
WebAssemblyの形態素解析器GoyaをRustで作った
- 58 users
- blog.leko.jp
- テクノロジー
- 2021/11/30
Goyaという形態素解析器を Rust で作りました。本記事は利用者目線で Goya の紹介をします。技術的な詳細については別途記事を書きます。形態素解析とは？（このセクションは形態素解析の基礎の話なので知ってる方は読み飛ばしてください）形態素解析（けいたいそかいせき、Morphological Analysis）とは、文法的な情報の注記の無い自然言語のテキストデータ（文）から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素（Morpheme, おおまかにいえば、言語で意味を持つ最小単位）の列に分割し、それぞれの形態素の品詞等を判別する作業である。 — 形態素解析 - Wikipedia 例えば早口言葉の”すもももももももものうち”（スモモも桃も桃のうち）という言葉を形態素解析すると以下のような結果が得られます。スモモや桃が名詞、間にある”も・の”は助詞と解析さ
- Rust
- 自然言語処理
- WebAssembly
- 形態素解析
- nlp
- WASM
- 言語
- あとで読む
三上章とその著書、あるいは三上文法に関する読書案内（おまけ付き） - 誰がログ
- 57 users
- dlit.hatenadiary.com
- 学び
- 2021/06/14
はじめに読書案内庵功雄 (2003)『『象は鼻が長い』入門』益岡隆志 (2003)『三上文法から寺村文法へ』金水敏 (1997)「4 国文法」『岩波講座言語の科学 5 文法』そのほか寺村秀夫はどのように三上章の後継者か「主語」の議論にフォーカスし過ぎるのは三上文法の過小評価では「主語」に関する辞書の記述日本語文法事典日本語学大辞典中間まとめ：三上の扱いおまけ1：「は」とか「主題」とか「は」と主題の話なら山田孝雄も「主題」を表す手段は様々な言語に様々な形であるこの辺りの読書案内おまけ2：三上文法に関連するあれこれへの私見主語廃止論と学校文法ピリオド超え三上の「土着文法」は日本語特殊論の対極にある生成文法は主語を絶対視しているか「「は」は主題」で本当に分かりやすいかおわりに書いてみて研究者・専門家のみなさま引用文献（三上の著書を除く）長いで
- 言語
- 言語学
- 文法
- あとで読む
- 日本語
- ことば
- 読書
Python3で形態素解析エンジンMeCabを使ってみた
- 55 users
- dev.classmethod.jp
- テクノロジー
- 2018/08/17
形態素解析エンジンMeCabをPython3から使ってみましたのでご紹介します。環境 macOS 10.13.6 Python 3.6.4 準備 MeCabと辞書と、mecab-python3をインストール $ brew install mecab mecab-ipadic git curl xz $ pip install mecab-python3 mecab-ipadic-NEologdのインストール標準の辞書だとEC2とかS3とかうまく分かち書きができなかったのでWeb上の新語が追加されたシステム辞書 mecab-ipadic-NEologd もインストールしました。インストール方法の詳細は mecab-ipadic-NEologd : Neologism dictionary for MeCab を確認してみてください。 $ git clone --depth 1 git@
- python
- 形態素解析
- MeCab
- あとで読む
- 検索
- aws
MeCab: Yet Another Part-of-Speech and MorphologicalAnalyzer
- 54 users
- chasen.org/~taku
- 暮らし
- 2005/02/12
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
形態素解析器IgoのRuby版を作った - 猫背ミジンコ
- 49 users
- kyow.cocolog-nifty.com
- 暮らし
- 2010/12/15
解析結果がほぼMeCab互換のJavaおよびCommon Lispで実装された形態素解析器IgoのRuby版を作りました。正確にはIgoのエンジン部分をRubyに移植しましたですけれども。ソースソースはGitHubに公開。また、RubyGems.orgにgemを公開してあるので、インターネットに接続している環境ならRubyGemsでインストールできます。インストールコマンドラインで下記を入力。$ gem install igo-rubyigo-rubyは、別途Igoと同じ解析用辞書ファイルが必要です。(igo-pythonと同じ方式。ただし、igo-pythonの方は辞書ファイルの生成機能も実装予定とのことです。) 解析用辞書ファイルの生成方法については、Igoのページを参照してください。使い方 Igo::Taggerクラスのコンストラクタに辞書ファイルが入ったディレクトリを
- ruby
- 形態素解析
- Igo
- nlp
- morphological
- rubygems
- MeCab
- analysis
- migemo
- gem