nhayatoのブックマーク - はてなブックマーク

Fileの読み込み - Scala覚書(mwSoft)

Fileの読み込み - Scala覚書概要 Scalaでファイルを読み込む際の記述をいくつか並べてみる。個人的にはCommons IOのFileUtils.readLinesを使った時の記述が一番Scalaっぽいような気がする。 @Author mwSoft @Date 2010/11/30 @Env Scala2.8 scala.io.Sourceで読むもっとも基本的な感じがする記述。 // Sourceでファイル読み込み（1文字ずつ） var source = Source.fromFile("temp.txt") source.foreach(println) //=> t //=> e //=> s //=> t source.close // Sourceでファイル読み込み（１行ずつ） source = Source.fromFile("temp.txt") val line

nhayato 2013/10/11

scala

リンク

Scalaの文字列 | Scalaの標準ライブラリを使ってみる | mwSoft

概要 Scalaの文字列は、基本的にはjava.lang.Stringを利用している。但し、PredefでStringOpsへの暗黙の型変換が定義されているので、StringOpsの関数も利用できる。StringOpsはStringLikeを継承している。また、StringOpsとStringLikeは、scala.collection.immutableパッケージの中（ListとかMapがいるとこ）に入っており、StringLikeはcollectionが持つようないくつかのクラスを継承している。そのため、collect、distinct、countなどのListなどでお馴染みの関数が利用可能だったり、foreachやforループが使えるなど、文字列に対してCollection的な扱いができるようになっている。お陰でやたらとたくさんの関数が利用できるようになってるけど、Colle

nhayato 2013/10/11

scala

リンク

MeCabの辞書をカスタマイズする | mwSoft

概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成（mecab-dict-index）する方法と、文章の解析結果を用意してそれを利用して学習（mecab-cost-train）する方法。 Linuxで実行。Windowsは知らない。単語追加用のCSVファイルを作成するまずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。やり方は公式サイトに載っている。今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク名詞,一般,*,

nhayato 2013/09/08

mecab
nlp

リンク

自然言語系（？）情報 | mwSoft

形態素解析 Mecab、mecab-ruby、IAP、NAIST、UniDic辞書のインストール手順と簡単なサンプル MeCabをコマンドラインから実行した際に指定できる引数と、その実行サンプル一覧日本テレビ東京というどこで分けるか判別し辛い言葉を使って、コスト計算について解説複数の辞書による解析結果を並べて表示します。どの辞書を使うか悩んだ時などにお使いください Igoのインストールと軽く使ってみた感想などを辞書内包でLuceneでもSolrでも使える便利なライブラリ SearchモードがおしゃれなKuromojiを利用したメモ言語資源 Wikimediaが公開しているDBのダンプ等のデータファイルの入手方法と、内容の説明 Solrサーバを立ててWikipediaのデータを登録する対象を絞ったIME辞書は良い教師になってくれるかもしれない不自然言語資源の宝庫であるTwitte

nhayato 2013/01/08

nlp

リンク

日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

今回はこの言葉の解析をMeCab＋NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。とりあえず実行してみるさっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,, テレビ東京名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京名詞,

nhayato 2013/01/07

nlp

リンク

はてなキーワードからMecCab辞書を生成する（Ruby版）

文脈IDは-1を指定すれば自動採番してくれるという噂だったのですが、実行したら「自動で探したけど、対応するのが見つからなかったよ」と言われた為（文字コードの問題かな）、自前でシステム辞書ディレクトリ内の「left-id.def」と「right-id.def」を探して、それっぽいIDを拾ってきました（本当にこの方法で良いのか未確認）。辞書によってIDは変わってきて、IPA辞書の「名詞,一般」は、我が家の環境では1285になっていました。バージョンによっても違う可能性もあるので注意が必要です。読み・発音については、はてなのファイルの読みは全て平仮名で記述されているので、NAISTの辞書に合わせる為に片仮名に変換して登録します。発音は本来「アマクサシロー」になるべきですが、その辺は変換してると面倒なのでこのままで。参考URLでは、CSVの末尾に「はてなキーワード」と入れて、はてなの辞書が使

nhayato 2012/09/30

mecab

リンク

Java製形態素解析器「Kuromoji」を試してみる

概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。導入まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at

nhayato 2012/02/28

nlp

リンク

Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

概要本記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています（ここを見る限りでは）が、代わりに全記事の情報を圧縮したファイルが公開されています。日本のWikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 本記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。事前情報 2009/10/25に確認した時点では、日本語Wikipediaのダウンロードページには55個のファイルが置いてありました（うち半分は更新を通知する為のRSS）。ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。詳しいデータのインポート方法は、こちらのリンク集が参考になる

nhayato 2011/12/06

nlp

リンク

はてなブックマーク

タグ

ブックマーク / www.mwsoft.jp (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス