タグ

ブックマーク / www.mwsoft.jp (9)

  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

    wlbhiro
    wlbhiro 2015/05/22
    MeCabでスペース区切り出力をする方法 -Owakati
  • SolrにWikipediaのデータを入れて遊ぶ

    概要 全文検索エンジンのSolrを使って、Wikipedia(日語版)の記事を検索する機能をさらっと作ってみる。面倒なことはすっ飛ばして、できるだけ少ない手数を選択。あと、ソースコードはJava。 注意事項として、Solrはけっこうメモリう。特にoptimize時とか、大掛かりなソート時とか。 メモリが少ないマシンでは使うと不自由するので避けた方が良いかもしれない。とりあえず手元の4G積んだマシンでは快適に動いている。 @CretedDate 2011/09/04 @Env Solr3.5.0 / lucene-gosen1.2.1 @UpdateDate 2012/02/21 Solr3.5.0に変更したりクエリの誤りを直したり Solrの導入 まずSolrをダウンロードして解凍する。 ここからダウンロード http://lucene.apache.org/solr/#getstar

    wlbhiro
    wlbhiro 2015/05/13
    Solrにwikipediaのデータを投入する方法。
  • JavaのRSSライブラリ、ROMEを使ってみる

    概要 RSSをパースする用事があったのでJavaのソレ系ライブラリのROMEを使ってみた。 一口にRSSと言っても、世の中にはRSS0.9、RSS1.0、RSS2.0、Atomなどいろんなものが存在する。単一の形式であれば自前でXMLをパースするのもありだけど、いろんなサイトに対応しようとする時はこうしたライブラリを使った方が現実的。 情報源 公式サイトはjava.netにもあるみたいだけど、そっちはだいぶ荒んだ状態になっていた。下記のページが一番素性が良さそうに見える。 Home - ROME - Confluence https://rometools.jira.com/wiki/display/ROME/Home 上記URLによると、ROMEは以下の形式に対応しているらしい。 RSS 0.90, RSS 0.91 Netscape, RSS 0.91 Userland, RSS 0.

  • Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

    概要 記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています(ここを見る限りでは)が、代わりに全記事の情報を圧縮したファイルが公開されています。 日Wikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。 事前情報 2009/10/25に確認した時点では、日Wikipediaのダウンロードページには55個のファイルが置いてありました(うち半分は更新を通知する為のRSS)。 ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。 詳しいデータのインポート方法は、こちらのリンク集が参考になる

    wlbhiro
    wlbhiro 2014/12/01
    Wikipediaデータ
  • ScalaからHBaseを使ってみる(CDH3、Scala2.9.1) | mwSoft

    @CretedDate 2012/03/24 @Versions CDH3u3, HBase0.90.4 前提条件 1. HBaseが起動していること 2. 以下のjarがクラスパスに入っていること(バージョンは適宜読み替え) ・hbase-0.90.4-cdh3u3.jar ・hadoop-0.20.2-cdh3u3.jar ・commons-logging-1.0.4.jar ・log4j-1.2.15.jar 利用するクラス 主に利用するクラスは以下の2つ 1. HBaseAdmin http://hbase.apache.org/docs/current/api/org/apache/hadoop/hbase/client/HBaseAdmin.html 2. HTable http://hbase.apache.org/docs/current/api/org/apache/ha

  • Java製形態素解析器「Kuromoji」を試してみる

    概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日経済新聞」を「日 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

  • HDFSシェルコマンド一覧 | mwSoft

    概要 HDFSをコマンドラインから操作する際に使える引数の一覧です。 下記のページを参考にしています。 HDFS File System Shell Guide http://hadoop.apache.org/common/docs/r0.20.0/hdfs_shell.html ls / lsr lsはLinuxなどのlsコマンドと同じ、指定ディレクトリのファイルの一覧を表示する。 $ hadoop fs -ls /user/hdfs Found 1 items drwxr-xr-x - hdfs supergroup 0 2011-11-11 01:35 /user/hdfs/sample ディレクトリを指定しない場合は/user/${ユーザ名}を見に行く。 ディレクトリが存在しない場合は、以下のようなエラーになる。 $ hadoop fs -ls ls: Cannot access

    wlbhiro
    wlbhiro 2014/12/01
    HDFSのホームディレクトリは、「/home/username」ではなく「/user/username」
  • HadoopでSnappyを使ってみたメモ | mwSoft

    概要 記事はCHD3を使ってSnappy(犬種はビーグル、趣味は変装)と少しばかり戯れた際のメモ書きです。 尚、文中に出てくる実行時間はCore2DuoやAthllonⅡなどの割と貧弱なCPUによって実行されています。高性能なCPUで測ったらかなり数字は変わるはずなのでご注意ください。 Snappyの特徴 SnappyはGoogleが公開したオープンソースの圧縮ライブラリ。 圧縮率はイマイチだけど圧縮・伸長の速度は速い、Hadoopと相性の良い子。 ベンチマークを見た限りでは、圧縮率や速度はLZOと割と似た感じの数値になることが多い。 SnappyとLZOの一番の違いはライセンス。LZOはGPLなのでApacheライセンスのHadoopとはべ合わせが悪い。対するSnappyはNew BSDなので同梱しやすい。 CDH3u3にはSnappyCodecが入っているので、特に追加のインスト

    wlbhiro
    wlbhiro 2014/12/01
    ドライバでのシーケンスファイルでの出力方法が書かれている。(SequenceFileOutputFormat) 実証確認済
  • Solrjサンプルコード集 | mwSoft

    Solrjの導入 以下のURLからSolrを落としてきて、中に入っているsolr-core-x.x.x.jarとsolr-solrj-x.x.x.jarをクラスパスに追加。 http://lucene.apache.org/solr/ Mavenの利用も可能。レポジトリは以下を参照。 http://mvnrepository.com/artifact/org.apache.solr 今回のサンプル用のSchema設定 記事のサンプルコードは、idとtextとdateという3つのフィールドを持つSchemaを利用しています。 schema.xmlは以下のような感じ。 <?xml version="1.0" encoding="UTF-8" ?> <schema name="coreName" version="1.4"> <types> <fieldType name="string" c

  • 1