wlbhiroのブックマーク - はてなブックマーク

MeCabのコマンドライン引数一覧とその実行例 | mwSoft

-r --rcfile 使用するリソースファイルを指定するリソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

wlbhiro 2015/05/22

MeCabでスペース区切り出力をする方法 -Owakati

MeCab

リンク

SolrにWikipediaのデータを入れて遊ぶ

概要全文検索エンジンのSolrを使って、Wikipedia（日本語版）の記事を検索する機能をさらっと作ってみる。面倒なことはすっ飛ばして、できるだけ少ない手数を選択。あと、ソースコードはJava。注意事項として、Solrはけっこうメモリ食う。特にoptimize時とか、大掛かりなソート時とか。メモリが少ないマシンでは使うと不自由するので避けた方が良いかもしれない。とりあえず手元の4G積んだマシンでは快適に動いている。 @CretedDate 2011/09/04 @Env Solr3.5.0 / lucene-gosen1.2.1 @UpdateDate 2012/02/21 Solr3.5.0に変更したりクエリの誤りを直したり Solrの導入まずSolrをダウンロードして解凍する。ここからダウンロード http://lucene.apache.org/solr/#getstar

wlbhiro 2015/05/13

Solrにwikipediaのデータを投入する方法。

リンク

JavaのRSSライブラリ、ROMEを使ってみる

概要 RSSをパースする用事があったのでJavaのソレ系ライブラリのROMEを使ってみた。一口にRSSと言っても、世の中にはRSS0.9、RSS1.0、RSS2.0、Atomなどいろんなものが存在する。単一の形式であれば自前でXMLをパースするのもありだけど、いろんなサイトに対応しようとする時はこうしたライブラリを使った方が現実的。情報源公式サイトはjava.netにもあるみたいだけど、そっちはだいぶ荒んだ状態になっていた。下記のページが一番素性が良さそうに見える。 Home - ROME - Confluence https://rometools.jira.com/wiki/display/ROME/Home 上記URLによると、ROMEは以下の形式に対応しているらしい。 RSS 0.90, RSS 0.91 Netscape, RSS 0.91 Userland, RSS 0.

wlbhiro 2014/12/21

Java
RSS

リンク

Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

概要本記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています（ここを見る限りでは）が、代わりに全記事の情報を圧縮したファイルが公開されています。日本のWikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 本記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。事前情報 2009/10/25に確認した時点では、日本語Wikipediaのダウンロードページには55個のファイルが置いてありました（うち半分は更新を通知する為のRSS）。ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。詳しいデータのインポート方法は、こちらのリンク集が参考になる

wlbhiro 2014/12/01

Wikipediaデータ

TestData

リンク

ScalaからHBaseを使ってみる（CDH3、Scala2.9.1） | mwSoft

@CretedDate 2012/03/24 @Versions CDH3u3, HBase0.90.4 前提条件 1. HBaseが起動していること 2. 以下のjarがクラスパスに入っていること（バージョンは適宜読み替え）・hbase-0.90.4-cdh3u3.jar ・hadoop-0.20.2-cdh3u3.jar ・commons-logging-1.0.4.jar ・log4j-1.2.15.jar 利用するクラス主に利用するクラスは以下の2つ 1. HBaseAdmin http://hbase.apache.org/docs/current/api/org/apache/hadoop/hbase/client/HBaseAdmin.html 2. HTable http://hbase.apache.org/docs/current/api/org/apache/ha

wlbhiro 2014/12/01

Scala

リンク

Java製形態素解析器「Kuromoji」を試してみる

概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。導入まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

wlbhiro 2014/12/01

kuromoji

リンク

HDFSシェルコマンド一覧 | mwSoft

概要 HDFSをコマンドラインから操作する際に使える引数の一覧です。下記のページを参考にしています。 HDFS File System Shell Guide http://hadoop.apache.org/common/docs/r0.20.0/hdfs_shell.html ls / lsr lsはLinuxなどのlsコマンドと同じ、指定ディレクトリのファイルの一覧を表示する。 $ hadoop fs -ls /user/hdfs Found 1 it ems drwxr-xr-x - hdfs supergroup 0 2011-11-11 01:35 /user/hdfs/sample ディレクトリを指定しない場合は/user/${ユーザ名}を見に行く。ディレクトリが存在しない場合は、以下のようなエラーになる。 $ hadoop fs -ls ls: Cannot access

wlbhiro 2014/12/01

HDFSのホームディレクトリは、「/home/username」ではなく「/user/username」

Hadoop

リンク

HadoopでSnappyを使ってみたメモ | mwSoft

概要本記事はCHD3を使ってSnappy（犬種はビーグル、趣味は変装）と少しばかり戯れた際のメモ書きです。尚、本文中に出てくる実行時間はCore2DuoやAthllonⅡなどの割と貧弱なCPUによって実行されています。高性能なCPUで測ったらかなり数字は変わるはずなのでご注意ください。 Snappyの特徴 SnappyはGoogleが公開したオープンソースの圧縮ライブラリ。圧縮率はイマイチだけど圧縮・伸長の速度は速い、Hadoopと相性の良い子。ベンチマークを見た限りでは、圧縮率や速度はLZOと割と似た感じの数値になることが多い。 SnappyとLZOの一番の違いはライセンス。LZOはGPLなのでApacheライセンスのHadoopとは食べ合わせが悪い。対するSnappyはNew BSDなので同梱しやすい。 CDH3u3にはSnappyCodecが入っているので、特に追加のインスト

wlbhiro 2014/12/01

ドライバでのシーケンスファイルでの出力方法が書かれている。(SequenceFileOutputFormat) 実証確認済

Hadoop

リンク

Solrjサンプルコード集 | mwSoft

Solrjの導入以下のURLからSolrを落としてきて、中に入っているsolr-core-x.x.x.jarとsolr-solrj-x.x.x.jarをクラスパスに追加。 http://lucene.apache.org/solr/ Mavenの利用も可能。レポジトリは以下を参照。 http://mvnrepository.com/artifact/org.apache.solr 今回のサンプル用のSchema設定本記事のサンプルコードは、idとtextとdateという3つのフィールドを持つSchemaを利用しています。 schema.xmlは以下のような感じ。 <?xml version="1.0" encoding="UTF-8" ?> <schema name="coreName" version="1.4"> <types> <fieldType name="string" c

wlbhiro 2014/12/01

Apache Solr

リンク

はてなブックマーク

タグ

ブックマーク / www.mwsoft.jp (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス