並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 432件

新着順 人気順

係助詞の検索結果1 - 40 件 / 432件

  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

    • 「ぽきたw 魔剤ンゴ!?」を文法的に考察する - えいちゃーろぐ!

      【原文】 ぽきたw 魔剤ンゴ!? ありえん良さみが深いw 二郎からのセイクで優勝せえへん? そり!そりすぎてソリになったw や、漏れのモタクと化したことのNASA✋ そりでわ、無限に練りをしまつ ぽやしみ〜 この状態では、解読するのは難しい。そこで、"オタク的仮名遣い"を"現代仮名遣い"に修正し、「ンゴ」等の意味を持たない文字列を消して考える。 起きたw 魔剤!? ありえない良さみが深いw 二郎からのセイクで優勝しない? それ!それすぎてソリになったw いや、おれのオタクと化したことの無さ✋ それでは、無限に練りをします おやすみ〜 さらに、用語を現代語へと訳していく。 起きたw 本当!? ありえないほど良さの程度が甚だしいw ラーメン二郎を食べてからの酒で幸せな気分にならない? それ! それすぎてソリになったw いや、おれのオタクと化したことの無さ✋ それでは、無限に寝ます おやすみ〜

        「ぽきたw 魔剤ンゴ!?」を文法的に考察する - えいちゃーろぐ!
      • Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web

        検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏 作者:山田 浩之,末永 匡発売日: 2014/09/25メディア: 単行本(ソフトカバー) (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析 検索エンジンの構築 データをMongoDBに格納 Fl

          Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web
        • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

          MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

            MeCabの辞書にはてなキーワードを追加しよう - 不可視点
          • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

            MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

            • おもしろいダジャレを入力すると布団が吹っ飛ぶ装置を作った - Qiita

              面白いダジャレを言うと、何が起こるでしょうか。 そうです。布団が吹っ飛びます。 今回は、ダジャレを心から愛するブレインパッドのメンバー4人が制作した、最新ダジャレAIを搭載した次世代型おもしろダジャレ検知マシン『オフトゥンフライングシステム』のご紹介をさせて頂きます。 ※補足&感謝 面白いと布団が吹っ飛ぶという発想は日テレ系列の大喜利番組「フットンダ」のリスペクトです 「オフトゥンフライングシステム」という名前はボーカロイドソング、『オフトゥンフライングシステム』があまりにもイメージとぴったり合ったため、名前を使わせていただきました。こちらの曲を無限ループしながら記事を読んでいただけると、より楽しめる仕組みになっております Product Summary オフトゥンフライングシステムとは何か。分かりやすく説明すると、ダジャレ検知AI『Shareka』とダジャレ評価AI『Ukeruka』が搭

                おもしろいダジャレを入力すると布団が吹っ飛ぶ装置を作った - Qiita
              • 人工無能の作り方

                書いた人 INA 人工無能とは? 人間っぽく話すプログラムのこと。会話を理解しているというよりは、なんかそれっぽいことを話すだけのものが多い。 今回は「日本語のようなものを話す人工無能」を作ってみたので、その簡単な仕組みと工夫した点について少し書いてみることにする。 動機 うちのサークルのメンバーがよく集まってるチャット。とてもマニアックな どうしようもない 会話が繰り広げられているわけだが、ちょっと物足りない。 そうだ! 萌キャラがいないじゃないか! 「ないなら作ればいいじゃない?」 材料 MeCab 形態素解析エンジン 難しいことは知らなくても問題ない。 「私は変な人ではない」 ↓ 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 変 名詞,形容動詞語幹,*,*,*,*,変,ヘン,ヘン な 助動詞,*,*,*,特殊・ダ,体言接続,だ,

                • シゴタノ! —    わかりやすい文章を書く上で最低限おさえておきたい読点の二大原則

                  By: Alex Ziv – CC BY 2.0 「わかりやすい」と言われるような文章を書きたいものです。 とはいえ、単に「わかりやすい文章」というだけでは具体的に何をどう改善すればいいのかがイマイチ「わかりにくい」。 そこで、今回は読点(テン)の打ち方に絞って「わかりやすい文章」に一歩、近づくことにします。参考図書は、現代国語や小論文が苦手だった学生時代の僕に文章を書くことの楽しさと深遠さを教えてくれた以下の一冊。 「血まみれ」になったのはどっち? 、(テン)や。(マル)や「(カギ)のような符号は、わかりやすい文章を書く上でたいへん重要な役割を占めている。とくにこの場合、論理的に正確な文章という意味でのわかりやすさと深い関係をもつ。(p.74) ということで、テンの役割の重要性を示すために挙げられているのが次の例。 渡辺刑事は血まみれになって逃げ出した賊を追いかけた。 渡辺刑事は、血まみ

                    シゴタノ! —    わかりやすい文章を書く上で最低限おさえておきたい読点の二大原則
                  • 読みやすい文章の書き方|それは作文技術を身につけることです | 弁理士ブログ|とある士業の知的な日常

                    僕は、とある法律事務所で働く弁理士🙈 僕は、毎日、特許明細書と呼ばれる法律文書を作成する仕事をしています。 その過程で、文章力を高めてきました。 そこで、今回は、「読みやすい文章の書き方」についてお話ししたいと思います。 目次です 読みやすい文章を書くために重要なことは2つ 作文技術を身につけることが文章力を上げるために重要 作文技術を向上させるために重要な5つのこと (1) 「主語を明確にすること」 (2)「助詞『は』と助詞『が』の使い分けを理解すること」 (3)「被修飾語に係る複数の修飾語を分かり易く整理すること」 複数の修飾語を整理するコツ (4)「句読点(、)をつける位置を理解すること」 (5)「旧情報⇒新情報の順番で書くこと」 作文技術を向上させるためのおすすめの本 読みやすい文章を書くために重要なことは2つ まず、読みやすい文章を書くために重要なことを2つ挙げます。 それは、

                      読みやすい文章の書き方|それは作文技術を身につけることです | 弁理士ブログ|とある士業の知的な日常
                    • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

                      MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

                      • ウェブサービス(Web API)をプログラムから使う

                        ウェブサービス(Web API)をプログラムから使う 2009-12-26-2 [WebAPI][Programming] 前回[2009-12-24-1]はウェブサービス(Web API)の基本的事項と、よく採用されているプロトコルとデータ構造の概要を解説した。 プロトコルとデータ構造の組み合わせ、計4つのうち3つを取り上げて、実際にプログラムから Web API を使う方法を例を用いて説明する。 今回取り上げるサンプルプログラムで使った Web API と用いたプログラム言語を表に示す: プロトコル\データ構造XMLJSON, JSONPREST風MECAPI, Perlキーフレーズ抽出API, JavaScriptSOAP, XML-RPCはてブ件数取得API, Perl- REST風 + XML Web API をREST風プロトコルでアクセスしXMLデータを得る流れを perl

                          ウェブサービス(Web API)をプログラムから使う
                        • のび太の「~かしら」は女性的? 言葉の歴史を紐解いてみた

                          「ドラえもん」の作者として知られる藤子・F・不二雄氏の漫画について、「男性が『~かしら』という言葉を使っている印象がある」などと指摘するツイートが、2019年8月下旬に投稿され、話題になった。 投稿者のユーザーは、「女性的な言葉だと思うが、F先生の口癖だったのかしら?」と疑問を投げかける。そもそも「~かしら」はいつから使われ始めたのだろうか。J-CASTニュースでは、過去の文献を振り返るとともに、識者に見解を聞いてみた。 「坊っちゃん」や「少年探偵団」にも登場 「広辞苑 第七版」(岩波書店)によると、「かしら」は助詞。「『...か知らぬ』の転。明治以降の語。主として女性が用いる」としている。体言と同等の語に続いて、不審や疑問の意を表す。否定の助動詞「ない」「ぬ」に続いて、願望や依頼の意も示す。「かしらん」とも表記されるようだ。活用語の連体形に続いて、危ぶむ意も表すという。 ツイッター上では

                            のび太の「~かしら」は女性的? 言葉の歴史を紐解いてみた
                          • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

                            MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正 スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正 ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加 マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一

                            • Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥

                              12月にさくさくテキストマイニングで発表したpure Rubyによる形態素解析エンジンをgem化しました。 まだ発展途上で機能が少なかったりパフォーマンスが悪かったりしますが、いちおう動くレベル*1になったので公開します。 注意事項 バージョン0.0.xのうちは、インタフェースや辞書フォーマットは頻繁に変更される予定です。 ある程度安定したら0.1.0出します。 今のところ、Ruby1.9系専用です。 取得 gem install okuraでインストールできます。 ソースは https://github.com/todesking/okura 使い方 MeCabフォーマットの辞書データを使用します。 動作確認はMeCab用NAIST辞書で行いました。 最初にokura compileコマンドで辞書をコンパイルします $ okura compile mecab-naist-jdic-0.6

                                Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥
                              • 「こんにちわ」が間違いではない時代が来る? - ねとらぼ

                                皆さんは「こんにちは」を「こんにちわ」と書いて、学校の先生や親に注意されたことはありませんか? 「コンニチワ」と発音するのに、「こんにちは」と書かなきゃいけないなんて、日本語の難しいところですよね。いわゆる「仮名遣い」の問題です。 さて、この「こんにちは」はなぜ「は」なのでしょう? それは、「こんにちは」はもともと「今日は良いお天気ですね」などのあいさつが省略された形だから。助詞の「は」だから、「わ」で書くのは間違いなんですね。 しかし、本当に「こんにちわ」は間違いなのでしょうか? 実は、必ずしも間違いとはいえないのではないか、と思える例が日本語にはあるのです。 「は」は「わ」に変わりがち 日本語の歴史をたどると、助詞の「は」が「わ」に変わる例がいくらか見られます。例えば、「雨は降るわ、風は吹くわ」の「わ」はもともと「は」と書かれていました。 そもそも、終助詞の「わ」は、係助詞の「は」から

                                  「こんにちわ」が間違いではない時代が来る? - ねとらぼ
                                • ワードサラダ技術について

                                  後半部分が重要で、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である ということです。 さて、実例です。たとえば次の文章を考えてみます。 「通信販売大手セシールは9日、生命保険の販売に本格参入する方針を明らかにした。」 まず形態素解析するとこんな感じになります。 通信 名詞,サ変接続,*,*,*,*,通信,ツウシン,ツーシン 販売 名詞,サ変接続,*,*,*,*,販売,ハンバイ,ハンバイ 大手 名詞,一般,*,*,*,*,大手,オオテ,オーテ セシール 名詞,固有名詞,組織,*,*,*,セシール,セシール,セシール は 助詞,係助詞,*,*,*,*,は,ハ,ワ 9 名詞,数,*,*,*,*,9,キュウ,キュー 日 名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ 、 記号,読点,*,*,*,*,、,、,、 生命 名詞,一般,*,*,*,*,生命,セイメイ,セイメイ 保険 名詞,一般

                                  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

                                    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

                                    • 【Python】MeCabと極性辞書を使ったツイートの感情分析入門 - StatsBeginner: 初学者の統計学習ノート

                                      負のオーラを自動検出したい 前回のエントリで、著作権侵害にあたる違法アップロード動画を自分のTwitterで拡散してしまっている懸念を考えて、YouTube動画のリンクが貼ってあるツイートをまとめて削除しました。 前回のエントリでも言いましたが、著作権侵害モノ以外にも、「残しておくとまずいツイート」は色々ある可能性があり、たとえば誹謗中傷の類いがあるかと思います。誹謗中傷ツイートを自動抽出する方法はにわかには思いつきませんが、たぶん「クソ」とか「死ね」とか「バカ」とかそういう悪口の辞書が必要になりそうです。 ところで、言語データの分析手法として、単語ごとに感情特性を評価した辞書というものがあちこちで作られていまして、これを使ってツイートがどのような感情を帯びているか分析するということが、よくやられています。Yahoo!がそういうツールを提供してたりもします(参考リンク)。 Yahoo!のリ

                                        【Python】MeCabと極性辞書を使ったツイートの感情分析入門 - StatsBeginner: 初学者の統計学習ノート
                                      • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

                                        -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

                                        • 言語処理100本ノックを(第5章まで)やってみた - フツーって言うなぁ!

                                          久しぶりに技術関係のネタ書きます. 「言語処理100本ノック」という,自然言語処理関係の問題集があることを知ったので取り組んでみました. これは,東北大学の乾・岡崎研究室でのプログラミング勉強会にて使われている教材だそうです. 「100本ノック」の言葉通り,100問の問題からなる問題集をこなすことで,自然言語処理に関する基礎力と,プログラミング言語運用能力が同時に培えるようになっています. こういうものが公開されるとは,「いい時代になったなー」と純粋に思います. www.cl.ecei.tohoku.ac.jp 内容は,自然言語処理だけでなく,データベース,機械学習など,今の言語処理関係の研究に必要なスキルがこれ1つで身につくように設計されています. 対象プログラミング言語はPythonのようですが,基本的に他の言語でも問題なく進められるようにはなっていると思います(言語処理に強いプログラ

                                            言語処理100本ノックを(第5章まで)やってみた - フツーって言うなぁ!
                                          • MeCab(形態素解析)をPythonから2分で使えるようにする方法

                                            ※サンプル・コード掲載 あらすじ Javaだと、Kuromojiを使用するまでに必要な手続きは、基本的にjarファイルを追加するだけで完了しますので、形態素解析を使うまでの敷居は高くありません。 しかし、PythonでMeCabを使おうとすると、セットアップに時間を取られてしまうことがあります。 ですので、今回は最小限の労力で、PythonからMeCabを使う方法を紹介致します。 使用した環境 Ubuntu 16.04python3、pipはインストールされていると仮定 *インスタンスを用意した直後の、何も手を加えていないインタクトなマシンの状態のままです。 MeCabのインストール(1分以内) コマンドを打ち間違えなければ、完了まで1分かかららず、ご活用いただけるはずです。 MeCabを使えるようにするという事だけを優先するので、MeCabの詳細等は、別途御確認頂ければと存じます。 Me

                                              MeCab(形態素解析)をPythonから2分で使えるようにする方法
                                            • テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録

                                              WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia『人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー

                                                テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
                                              • Elasticsearch 日本語で全文検索 その2

                                                Elasticsearch では、すでに日本語で全文検索する為のトークナイザーやノーマライズなどの加工処理で使用するフィルターなどがビルトインまたは、サードパーティ製のプラグインとして多数存在します。 ここでは、日本語全文検索で使用しそうなトークナイザーやフィルターなどを説明します。 主要モジュールNGram Tokenizer N-グラムを提供するトークナイザーです。Elasticsearch にバンドルされています。Japanese (kuromoji) Analysis for Elasticsearch 日本語形態素解析を提供するプラグインです。各種 Analyzer、Tokenizer、TokenFilterが含まれます。cjk_width Token Filter 半角・全角などを統一するためのフィルターです。Elasticsearch にバンドルされています。Lowercas

                                                  Elasticsearch 日本語で全文検索 その2
                                                • マルコフ連鎖と日本語形態素解析によるワードサラダSEO

                                                  マルコフ連鎖とは マルコフ連鎖は未来の挙動が現在の値だけで決定され、過去の挙動と無関係であることを利用した確率統計モデルです。定義としては次のような形を取ります。 マルコフ連鎖は、一連の確率変数 X1, X2, X3, … で、現在の状態が決まっていれば、過去および未来の状態は独立であるものである。形式的には、 であるような過程をいう。一般の、時間的に均一でないマルコフ連鎖は、この等式を満たさない。(Wikipedia:「マルコフ連鎖」より) はい、難しい数式が出てきましたね。私もこの中身は完全には理解していません。しかし、このマルコフ連鎖を使うと、現在のデータを一定の出現率で並び替えるアルゴリズムを作成することも可能という事を憶えておいてください。実はGoogleのページランクアルゴリズムなどにもマルコフモデルが応用されています。 日本語形態素解析とは 日本語は単語と助詞を中心に、日本独

                                                    マルコフ連鎖と日本語形態素解析によるワードサラダSEO
                                                  • ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog

                                                    こんにちは、AppBrewでアルバイトをしている@Leoです。 自然言語処理の研究室に最近入った大学生で、趣味はKaggleと競技プログラミングです。 AppBrewでは、LIPSの投稿を使ったデータ分析をしています。 今日の記事では、弊社のアプリLIPSにて投稿ジャンルを機械学習を使って自動推定した方法を紹介します。 自然言語処理・確率関係全然わからない!という人でも読みやすい内容になっていると思うので、最後まで読んでいただけると幸いです! LIPSにおけるジャンル 教師データの作成 ナイーブベイズ 単語分割 モデルの実装 分類結果 おわりに LIPSにおけるジャンル 最近、LIPSにジャンル機能が追加されました。 これは投稿されたクチコミにジャンルを設定できる機能です。 適切にジャンルを設定すると、投稿を検索するときにジャンルを使って絞り込めるなどの利点があります。 ジャンルは7種類(

                                                      ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog
                                                    • moco(beta)'s backup: 辞書内包/Pure Python実装の形態素解析器 Janome を公開しました

                                                      一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ

                                                      • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

                                                        MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2013-02-18 MeCab 0.996 configure script の不備によりiconvへのリンクに失敗する問題を修正 ユーザ辞書用CSVファイルのコストと左/右文脈IDを付与し, 新たなCSVファイルを生成する機能の追加 解析結果からLattice を作成する Lattice::set_result() メソッドを追加. 単体テスト時のスタブの作成等に利用可能 2013-01-24 MeCab 0.995 部分解析機能の再実装 部分解析機能のためのAPI (Lattice:set_boundary_constarint, Lattice::set_feature_constraint) の追加 2012-06-03

                                                        • 日本語係り受け解析器 CaboCha Ruby 拡張の基本的な使い方とちょっとした応用 - デー

                                                          ari3_botの会話エンジンで使っている自然言語の処理の中から他の方にも有益そうなところだけ書いておこうと思います。 このエンジン自体はアドホックにヒーリスティクスな処理を追加しまくっていて、とても説明しにくいのですが、基本的な部分だけ抜き出して……まとめて……解説します。全部実装できるほど詳細な解説はできないので、取っ掛かりになる程度です。 ちなみにCaboChaのAPIはきちんとしたドキュメントがない?ようで、僕はソースコードを自分で読んで得た知識から解説を行っています。また日本語文法関する知識もari3_botを作るためだけに得たものであり、あやしいので、あまり信じすぎないようにしてください。 もくじです。 ari3_botの会話エンジンとは CaboChaの基本的な使い方 CaboChaで主語と述語っぽいところを抜き出す 述語を活用してみる その他のいろいろなヒント まとめ ar

                                                            日本語係り受け解析器 CaboCha Ruby 拡張の基本的な使い方とちょっとした応用 - デー
                                                          • Igo - a morphological analyzer

                                                            目次 概要/特徴 リリースノート インストール/使い方 jarファイル 解析用辞書作成 形態素解析 コマンド BuildDic Igo Java API Tagger Morpheme サンプルコード MeCabとの相違点 解析結果 機能 辞書ファイル 単語エントリフォーマット 制限/注意点 禁則文字 バイナリ辞書エンディアン ライセンス バグ報告など 概要/特徴 Javaで実装された形態素解析器。→ Common Lisp版 辞書フォーマット及び解析結果は、ほぼMeCab互換。 単機能。 Javaの形態素解析器としては比較的高速。 スレッドセーフ。 リリースノート version 0.4.3: 2011年06月17日 形態素解析部の微細なパフォーマンスチューニング インストール/使い方 1) jarファイルの取得/作成 jarファイルは以下のいずれかの方法で取得/作成する。 ダウンロード

                                                            • 形態素解析エンジンMeCabをPython3でも使えるようにする(Macの場合) - StatsBeginner: 初学者の統計学習ノート

                                                              MeCabのPythonバインディングはPython3で使えない? 日本語の文章を解析する際には欠かせない、形態素解析エンジン"MeCab"の導入に関するエントリを以前書きました(過去エントリ)。 MeCabの公式サイトにいくとPythonバインディングというのが配布されていて、Python上でMeCabを使うことができるのですが、これだとPython2系でしか使えません。 もともとこのPythonバインディングは、MeCabのプログラムからSWIGというツールを用いて自動生成したものらしく、この生成をやり直せばPython3系でも使うことができるようになります。 [追記]じつは、コメント欄で指摘を頂き、pipでmecab-python3というのが配布されていることが分かったので、公式サイトに置いてあるやつを使わずに、後述のとおりpipからインストールすれば全て解決しますw[/追記] ここ

                                                                形態素解析エンジンMeCabをPython3でも使えるようにする(Macの場合) - StatsBeginner: 初学者の統計学習ノート
                                                              • ウェブサービス(Web API)とは?

                                                                ウェブサービス(Web API)とは? 2009-12-24-1 [WebAPI][Programming] Webサービス(Web API)とは、ユーザがウェブ経由で他の人・会社が持っているデータや処理をアクセスして使うための技術。 プログラムから呼び出して使うことが多く、それを前提としたプロトコル、データ構造となっている。 商品検索、ウェブ検索、ソーシャルブックマーク、写真サービス、ツイッター、カレンダー、番組表、天気予報情報、路線情報、漢字変換、キーワード抽出、ウェブページのサムネイル、位置情報、地図情報、認証などさまざまなサービスで Web API が提供されている。 このような Web API を組み合わせてサイトやアプリケーションを作ることをマッシュアップと呼ぶ。 プロトコル Web API で利用されるプロトコルは大まかに下記の二つに分けられる。 (1) REST風 (2)

                                                                  ウェブサービス(Web API)とは?
                                                                • SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記

                                                                  はじめに Pure Rubyな形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器は食べ物の名前がつくことが多い。「Rubyなので赤い食べ物が良いかな」と考えて、文字数とかわいらしさからSuika(スイカ)とした。 使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:

                                                                    SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
                                                                  • 朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す - illegal function call in 1980s

                                                                    追々記(1/23, 16:55): ちょっと自分でも気になる箇所があったので末尾に試訳Dを足しました。そちらにお進みください。 * 朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す話です。 www.asahi.com 大したことのない歌です。でもね、こういうのが大切なんですよ。 かきおくもかたみとなれやふでのあと我はいずこのうらにすむとも 品詞分解します。 かきおく:カ行四段動詞「書き置く」連体形。係助詞「も」の上は連体形です。 も:不確かさ、不安、懸念の係助詞。AかもしれないしBかもしれないしそれ以外かもしれない。 かたみ:名詞。「形見」。直観的には「片身」(かたみに袖をしぼりつつ)にも掛けているかなとも思いますが、この方の他の歌を見てみないと何ともいえません。また、「記念パピコ」(後述)。 と:格助詞 なれ:ラ行四段活用動詞「なる」命令形。なってしまえ。 や:詠嘆、強意の係助

                                                                      朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す - illegal function call in 1980s
                                                                    • Welcome to janome's documentation! (Japanese) — Janome v0.4 documentation (ja)

                                                                      Welcome to janome's documentation! (Japanese)¶ English Janome とは¶ Janome (蛇の目; ◉) は,Pure Python で書かれた,辞書内包の形態素解析器です。 依存ライブラリなしで簡単にインストールでき,アプリケーションに組み込みやすいシンプルな API を備える形態素解析ライブラリを目指しています。 内包辞書として mecab-ipadic-2.7.0-20070801 を使っています。なお,v0.3.8+ では新元号「令和」がシステム辞書に追加されています。 ソースコードリポジトリ¶ https://github.com/mocobeta/janome 気に入ったらリポジトリにも★つけていってください! :) API リファレンス¶ https://mocobeta.github.io/janome/api/ 動

                                                                      • MeCabの辞書をカスタマイズする | mwSoft

                                                                        概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。 今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成(mecab-dict-index)する方法と、文章の解析結果を用意してそれを利用して学習(mecab-cost-train)する方法。 Linuxで実行。Windowsは知らない。 単語追加用のCSVファイルを作成する まずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。 やり方は公式サイトに載っている。 今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク 名詞,一般,*,

                                                                        • WebAssemblyの形態素解析器GoyaをRustで作った

                                                                          Goyaという形態素解析器を Rust で作りました。本記事は利用者目線で Goya の紹介をします。技術的な詳細については別途記事を書きます。 形態素解析とは? (このセクションは形態素解析の基礎の話なので知ってる方は読み飛ばしてください) 形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 — 形態素解析 - Wikipedia 例えば早口言葉の”すもももももももものうち”(スモモも桃も桃のうち)という言葉を形態素解析すると以下のような結果が得られます。スモモや桃が名詞、間にある”も・の”は助詞と解析さ

                                                                            WebAssemblyの形態素解析器GoyaをRustで作った
                                                                          • 三上章とその著書、あるいは三上文法に関する読書案内(おまけ付き) - 誰がログ

                                                                            はじめに 読書案内 庵功雄 (2003)『『象は鼻が長い』入門』 益岡隆志 (2003)『三上文法から寺村文法へ』 金水敏 (1997)「4 国文法」『岩波講座 言語の科学 5 文法』 そのほか 寺村秀夫はどのように三上章の後継者か 「主語」の議論にフォーカスし過ぎるのは三上文法の過小評価では 「主語」に関する辞書の記述 日本語文法事典 日本語学大辞典 中間まとめ:三上の扱い おまけ1:「は」とか「主題」とか 「は」と主題の話なら山田孝雄も 「主題」を表す手段は様々な言語に様々な形である この辺りの読書案内 おまけ2:三上文法に関連するあれこれへの私見 主語廃止論と学校文法 ピリオド超え 三上の「土着文法」は日本語特殊論の対極にある 生成文法は主語を絶対視しているか 「「は」は主題」で本当に分かりやすいか おわりに 書いてみて 研究者・専門家のみなさま 引用文献(三上の著書を除く) 長いで

                                                                              三上章とその著書、あるいは三上文法に関する読書案内(おまけ付き) - 誰がログ
                                                                            • Python3で形態素解析エンジンMeCabを使ってみた

                                                                              形態素解析エンジンMeCabをPython3から使ってみましたのでご紹介します。 環境 macOS 10.13.6 Python 3.6.4 準備 MeCabと辞書と、mecab-python3をインストール $ brew install mecab mecab-ipadic git curl xz $ pip install mecab-python3 mecab-ipadic-NEologdのインストール 標準の辞書だとEC2とかS3とかうまく分かち書きができなかったのでWeb上の新語が追加されたシステム辞書 mecab-ipadic-NEologd もインストールしました。 インストール方法の詳細は mecab-ipadic-NEologd : Neologism dictionary for MeCab を確認してみてください。 $ git clone --depth 1 git@

                                                                                Python3で形態素解析エンジンMeCabを使ってみた
                                                                              • MeCab: Yet Another Part-of-Speech and MorphologicalAnalyzer

                                                                                MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

                                                                                • 形態素解析器IgoのRuby版を作った - 猫背ミジンコ

                                                                                  解析結果がほぼMeCab互換のJavaおよびCommon Lispで実装された形態素解析器IgoのRuby版を作りました。 正確にはIgoのエンジン部分をRubyに移植しましたですけれども。 ソース ソースはGitHubに公開。 また、RubyGems.orgにgemを公開してあるので、インターネットに接続している環境ならRubyGemsでインストールできます。 インストール コマンドラインで下記を入力。$ gem install igo-rubyigo-rubyは、別途Igoと同じ解析用辞書ファイルが必要です。(igo-pythonと同じ方式。ただし、igo-pythonの方は辞書ファイルの生成機能も実装予定とのことです。) 解析用辞書ファイルの生成方法については、Igoのページを参照してください。 使い方 Igo::Taggerクラスのコンストラクタに辞書ファイルが入ったディレクトリを

                                                                                    形態素解析器IgoのRuby版を作った - 猫背ミジンコ