タグ

senに関するICHIROのブックマーク (12)

  • MeCab の辞書構造と汎用テキスト変換ツールとしての利用

    $Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます ファイル 単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル 単語辞書です エントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

    ICHIRO
    ICHIRO 2008/09/04
  • Wikipediaデータの利用方法について - FreeStyleWiki

    ダウンロード http://download.wikimedia.org/の、Database XML and SQL dumpsのリンクから, XML形式, およびSQL形式での取得が可能。また, ダウンロードページにて「Dump in progress」となっているものは処理中のものなので「Dump complete」となっている箇所を探す。英語Wikipediaのデータは enwiki, 日語版Wikipediaのデータは jawikiのリンクが設定されている箇所から, 個別のダウンロードページに移動し取得する。 ダウンロード(裏口) 上記したページからでは, 「dump aborted」や「Dump in progress」へのリンクしかなく, 目的の言語版へのリンクが見付からない場合がまれにある。そのような場合, 以下のURLから直接接続する。 日語版 英語中国語版

    ICHIRO
    ICHIRO 2008/07/18
    Wikipediaダンプファイルについて
  • ログイン - MyTeXpert

    ICHIRO
    ICHIRO 2008/06/19
    カスタム辞書作成
  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • rough justice: Javaでのわかち書き - senライブラリ

    お次はJavaでわかち書きをする方法を説明します。 わかち書きにはSenというライブラリを利用します。 Sen は、Java で実装された形態素解析器で、工藤拓さんによりオープンソース(LGPL)で開発されている形態素解析器MecabをJavaへポーティングしたライブラリ、だそうです。 Sen配布ページから「sen-1.2.2.1.zip」をダウンロードして解凍します。 この中にはわかち書きのための辞書は含まれておらず、自分で作成する必要があります。 辞書の作成のためには「Apache Ant」と「Active Perl」が必要です。 AntはApacheAntプロジェクトサイトから「apache-ant-1.7.0-bin.zip」をダウンロードします。 Active PerlはActiveStateサイトから「ActivePerl-5.8.8.820-MSWin32-x86-27

  • ゲームレビュー

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

    ICHIRO
    ICHIRO 2008/06/14
    コーパス、自然言語処理、形態素解析
  • Senのインストール / FULL Tablog

    ICHIRO
    ICHIRO 2008/06/13
    SENのPathについて
  • Javaで作られた形態素解析ライブラリ「Sen」からPerl依存性を排除した「GoSen」

    This domain has expired. If you owned this domain, contact your domain registration service provider for further assistance. If you need help identifying your provider, visit https://www.tucowsdomains.com/

  • LuceneとGoSen - Vox

    私もGosenに入れ替えようとしたのですが、、、うまく動きません。 クラスもいろいろと書き換えられていて整合性がとれませんし、変わったAPIのどれを使えばよいかもわかりません。 わかるようでしたらどうやって動いたのか書いてくれると助かります。 TokenのgetPosとか、、、。 変更は、StreamTaggerのコンストラクタの引数を、 input, configFileから、 SenFactory.getStringTagger(configFile), inputに tokenがnet.java.sen.Tokenなのを、 net.java.sen.dictionary.Tokenに org.apache.lucene.analysis.Tokenのコンストラクタを final Morpheme m = token.getMorpheme(); return new T

  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    ICHIRO
    ICHIRO 2008/06/10
    自然言語処理
  • 形態素解析 - Javaでゲーム作りますが何か?

    形態素解析は、簡単に言うと文章を単語にばらすことです。たとえば、「これはテストです。」という文章を形態素解析すると、「これ は テスト です 。」のように5つの単語に分割されます。 さらに各単語の品詞も知ることができます。先の例だと、これ(名詞)は(助詞)テスト(名詞)です(助動詞)。(記号)のようになります。単語の品詞が分かると、名詞だけ取り出してその文章の話題を簡単に把握したり「テストは好き?」などユーザが入力した単語を元に質問文を作成する人工無脳が作れそうです。 Sen † Javaで使える形態素解析エンジンにSenというのがあります。実際にSenをダウンロードしてみたのですがコンパイルや辞書の構築などセットアップがややこしく使うまで苦労しました・・・そんなわけでサイトでエンジン、辞書をまとめたものを用意しました(再配布は許可されています)。Windows前提なので文字コードはすべ

    ICHIRO
    ICHIRO 2008/06/09
    形態素解析,SENについて
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

    ICHIRO
    ICHIRO 2008/06/09
    形態素解析、自然言語処理
  • 1