タグ

mecabに関するpiro_sukeのブックマーク (19)

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 形態素解析とMeCabとPythonと文字化け - 牌語備忘録 -pygo

    修正:コードに「print」抜けてた 形態素解析とやらに少々興味を持ったので、その筋で有名らしいMeCabに触れてみた。 そしたら速攻文字化けして躓いたのでメモ。 (MacOS10.4, Python2.5) とりあえずMecabインスコ MacPortsで sudo port install py25-mecabんで、サンプルを実行してみる import MeCab m = MeCab.Tagger ("-Ochasen") print m.parse ("今日もしないとね") 実行結果 '\xe4\xbb\t\xa5\xbf\xa5\xab\xa5\xe0\xa5\xe9\t\xe4\xbb\t\xcc\xbe\xbb\xec-\xb0\xec\xc8\xcc\t\t\n\x8a\xe6\x97\xa5\xe3\x82\x82\xe3\x81\x97\xe3\x81\t\x8a\xe6

    形態素解析とMeCabとPythonと文字化け - 牌語備忘録 -pygo
  • はてなブログ | 無料ブログを作成しよう

    fire tv stickを旅のお供に 自宅用に買ったFire TV Stickだが、旅行にも持っていくと地味に便利で、最近は旅の荷物にときどき入れてる。 最近のホテルは、だいたいWi-fiが整備されているし、テレビも設置されている。 そしてテレビはだいたいHDMI端子が付いている。 なので、部屋に入ってサクッと…

    はてなブログ | 無料ブログを作成しよう
  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    $Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明

  • GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ

    GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー!古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠

    GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ
  • 続・徒然開発記: MeCab for Win での単語追加

    形態素解析ツールの「MeCab (和布蕪)」を使ってみた。 で、単語を追加するのに(ユーザ辞書を作るのに)色々と苦労したので、メモっておく。 ちなみに、以下の話は、コンパイル済みのMeCab 0.95 for Windows(mecab-0.95.exe)の話。 単語の追加方法は http://mecab.sourceforge.net/dic.html にあるので、その通りにやってみた。 まず、登録する単語(エントリ)をCSVファイルに書きます。 ユーザ設定,-1,-1,10,名詞,一般,*,*,*,*,ユーザ設定,ユーザセッテイ,ユーザセッテイ,追加エントリ ここで1つ目の落とし穴。 マニュアルには、左文脈IDと右文脈ID(CSVの2つ目と3つめの値)は 『-1 としておくと, mecab-dict-index が自動的に ID を付与します.』 と書いてある。 しかし、実際は-1

  • 楓 software: MeCab (和布蕪) 辞書の構築

    « SQLite | メイン | MeCab の設定ファイル » 2006年02月19日 Web関連の開発日誌:: MeCab (和布蕪) 辞書の構築 Tweet    @jin1016をフォロー Sennaでは MeCab が使われているけど、 MeCab の辞書は約38MBもある。 どうしたものか。 調べてみると、かかしは2MBで茶筅は12MBだった。 そこで、何とかしようととりあえずは MeCab の辞書を再構築することにした。 標準では EUC になっているので、まずはこれを UTF-8 にすることに。 以下は、 mecab-0.90rc9 での話。 初めこのページを参照して辞書の再構築をしていたのだが、どうもうまくいかない。 品詞などが文字化けしていまう。 しばらくして、このページが最新の情報だと気付いた。 が、そうだと気付いても辞書の再構築方法は全然わからず、相変わらず文字化

  • GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ

    GT Nitro: Car Game Drag Raceは、典型的なカーゲームではありません。これはスピード、パワー、スキル全開のカーレースゲームです。ブレーキは忘れて、これはドラッグレース、ベイビー!古典的なクラシックから未来的なビーストまで、最もクールで速い車とカーレースできます。スティックシフトをマスターし、ニトロを賢く使って競争を打ち破る必要があります。このカーレースゲームはそのリアルな物理学と素晴らしいグラフィックスであなたの心を爆発させます。これまでプレイしたことのないようなものです。 GT Nitroは、リフレックスとタイミングを試すカーレースゲームです。正しい瞬間にギアをシフトし、ガスを思い切り踏む必要があります。また、大物たちと競いつつ、車のチューニングとアップグレードも行わなければなりません。世界中で最高のドライバーと車とカーレースに挑むことになり、ドラッグレースの王冠

    GT Nitro: カーレーシング・ドラッグレーシングゲーム - Google Play のアプリ
  • 【レビュー】MeCabで形態素解析、はてなとWikipediaが知恵袋に - infony登場 (1) infonyとは | エンタープライズ | マイコミジャーナル

    日々ネットに溢れ出る情報を収集し、フィルタリングし、振り分けて情報を摂取し続けるジャンキー達。そんな我々のための興味深いツールとしてInfolustを紹介した。InfolustはWikipediaを活用したサービスで、指定したページのコンテンツを要約して表示するWebサービスだ。Wikipediaを知識ベースとして自動的に処理をおこなうという、さながらオート編集者というべきものだ。 今回はinfonyを紹介したい。5日に公開されたサービスで、指定したページを解析してキーワードごとに解析結果を表示するというもの。Infolustを日向けにカスタマイズして開発したようなサービスだ。 テキストの形態素解析には、京都大学情報学研究科−日電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトにおいて開発された形態素解析エンジンである和布蕪(MeCab: Yet Anoth

  • wikipediaのダウンロード&データベースにインポート - プログラマでありたい

    ダウンロード Wikipedia:データベースダウンロード ウィキペディア日語版: jawiki-latest-pages-meta-current.xml.bz2 xml2sqlmysqldump形式に変換 wikipediaのコンテンツは、600MB以上ある。それなりに時間が掛かるので、落としている間にデータベースへのインポートの準備。データの提供形態はxmlなので、データベースに入れるにはそれなりの工夫が必要である。幸いwikipedia自体が2種類の方法を提供してくれている。MediaWikiに付属しているimportDump.phpを使うか、xml2sqlというツールをインストールするかが選べる。 他でも使えそうなので、xml2sqlを使うことにした。 xml2sql $wget ftp://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.ta

    wikipediaのダウンロード&データベースにインポート - プログラマでありたい
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • ウェブリブログ:サービスは終了しました。

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    ウェブリブログ:サービスは終了しました。
  • windows環境における、MecabPythonBaindingのインストール (mecab-users 190) - MeCab - OSDN

  • twist-bend coupling: MeCabのPythonバインディングをWindowsでビルド

    MeCabのPythonバインディングをVisual Studio 2005でビルドしようと思ったら、リンクでこける。よくよくエラーメッセージとヘッダを見比べてみたら、mecab.hの誤りを発見。 以下の二点を修正の上、SWIGでMeCab_wrap.cxxを作り直せば、問題なくビルド可能。 #ifdef SIWG を #ifdef SWIGに修正。 Mecab::version()を#ifdef SWIGで囲む。 VS2005でsetup.pyを起動すると、VS2003でコンパイルしろと文句を言われるが、たかがC++のDLL一つをリンクするために、VS2005からVS2003にダウングレードなどするはずも無く、さっくり手動でコンパイル。 cl /EHsc /LD /I “c:\Program Files\MeCab\sdk” /I “C:\Python25\include” mecab

  • MeCabで、キーワード抽出 - プログラマでありたい

    形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使えば、高速なキーワード抽出が出来ないかなと思い試してみました。辞書の定義にコストを書けば、長いキーワードを優先して抽出する最長一致法が出来そうです。それが出来れば、辞書にキーワードを登録すればおっけいかなと思い実験です。 準備 ・Mecabのインストール 省略 ・Wikipediaのダウンロード wikipediaからコーパスの作成を参照 ・辞書生成用のCSV作成 xml2sqlで作ったpage.txtを変換します。 この際、(曖昧さ回避)は除いておきます。 併せて、カンマが入っている見出し文は、別のものに置き換えておくこと c

    MeCabで、キーワード抽出 - プログラマでありたい
  • Windows で MeCab python binding をコンパイルする (2006/01/15)

    Windows で MeCab python binding をコンパイルする (2006/01/15) NLP Windows で MeCab python binding をコンパイルする 純粋な Windows の環境だと、mecab-config を動かすことができないのでコンパイルに失敗する。このため ctypes を使っていたのだが、実に簡単に解決できることが分かった。mecab-config がシェルスクリプトだったので中身を見て、これなら mecab-0.90rc7\setup.py を直接手で書き換えてやろうと次のようにしてみた。そうすると無事コンパイルすることができた。分かってみればなんのことはない。これで Linux 環境と Windows 環境で同じことができるようになった。めでたしめでたし。ちょっと setup.py の中を見てみればすぐに分かることだったのに、今

  • PythonとMeCabで形態素解析 - Keep it in the fridge

    最近,作ってるモノで形態素解析が必要になったのでMeCabを入れてみたメモ. 最初はChaSenを見てたんだけど,Pythonとのbindが面倒そうだなーと調べてた過程でMeCabを発見. 必要なモノはすべてココからDLできます. ドキュメントはこちら. まず,MeCabをDLしてきてインストール. mecab-0.97.tar.gzをDLして解凍. 文字コードで苦しみたくないので,UTF-8で統一. bash-3.2$ cd mecab-0.97 bash-3.2$ ./configure --with-charset=utf-8 bash-3.2$ make bash-3.2$ chmod 700 ./install-sh bash-3.2$ sudo make install 次に,コーパスのインストール mecab-ipadic-2.7.0-20070801.tar.gzをDLして

    PythonとMeCabで形態素解析 - Keep it in the fridge
  • 形態素解析エンジン MeCab 0.97 とその Python バインディングを MinGW でビルドする - 銀月の符号

    環境は Windows XP, Python 2.5.2(公式サイトのインストーラーより)。この環境に MinGW, msys をセットアップし、これを用いて MeCab 0.97 をビルド。その後 MeCab Python バインディングをビルドした際の手順についてのメモ。 のまえにバイナリが欲しい方へ(2010/8/10 追記) mecab-pythonWindows 用バイナリ、ダウンロード MeCab 0.98 もあります。また Python 2.6, 2.7 用も作りました。 MinGW インストール MinGW-5.1.4.exe 今回は Previous, Candidate ではなく Current 版を入れた。2008/11/8 現在、入った gcc のバージョンは 3.4.5 。 msys インストール MSYS 1.0.10.exe インストール中に以下のように

    形態素解析エンジン MeCab 0.97 とその Python バインディングを MinGW でビルドする - 銀月の符号
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 1