MeCabをPerlから使う 2006-02-25-4 [Programming][NLP] NAISTの後輩のスーパーハカー taku-ku 氏作の形態素解析エンジン MeCab。 解析スピードは ChaSen より速いし、なにより今もメンテされてるのが 素晴らしい。20%ルール!? Perlモジュールもあって、しかも使い勝手も良いので Text::ChaSen [2006-02-24-3]は止めて、こっちを使っていこうかと。 MeCab: Yet Another Part-of-Speech and Morphological Analyzer <http://mecab.sourceforge.jp/> 以下を取ってきてすんなりインストール。何のバッドノウハウもなし。 - mecab-0.90rc9.tar.gz - mecab-ipadic-2.7.0-2005
ChaSenで半角文字列を文字に区切らないようにする 2006-02-25-3 [Tips] 茶筌ネタ。 半角アルファベット・数字を文字単位に区切らないようにするには? デフォルトだとこうなってしまいます: % chasen 第26回Wiki小話 第 ダイ 第 接頭詞-数接続 2 ニ 2 名詞-数 6 ロク 6 名詞-数 回 カイ 回 名詞-接尾-助数詞 W ダブリュー W 記号-アルファベット i アイ i 記号-アルファベット k ケイ k 記号-アルファベット i アイ i 記号-アルファベット 小話 コバナシ 小話 名詞-一般 EOS そこで chasenrc を ~/.chasenrc にコピーして、 ;(COMPOSIT_POS ((名詞 数)) ; ((記号 アルファベット))) のコメント(行頭のセミコロン)を取ります。 するとアルフ
このプロトタイプは、検索ボックスに入力された文章と類似している(と思われる) Weblioの項目を表示するためのプログラムです。 スクリーンショットでは、 Wikipediaの「Microsoft_Windows」 の冒頭部分を入力してみました。 Wikipediaの元記事が1番に来るのは当然として、 2番目には弊社のIT用語辞典が来てます!! なんとなく感触がつかめてきました。 とはいうものの、IT用語辞典の「ウィンドウズ」の項目はなかなか出てきませんねぇ。 難しいところです。 ちなみに処理の流れは、 0, (前準備)Weblioの全項目をLucene(全文検索エンジン)に登録します。 1, 検索ボックスに入力された文章を形態素解析します。 2, 単語の出現頻度をカウント 3, 各単語を検索語にして、Luceneで繰り返し検索します。 4, 項目が合計何回ヒットしたかを計測して、その順番
開発用サーバで関連用語を表示させております。ロジックとしては、特定のキーワードでWeblio内を全文検索を行い、スコアの高かった用語を表示する、というものです。 形態素解析エンジンにはSenを使っています。検索部分ではLuceneを応用しています。最初私が作った時には、インデックスを作るのに、丸一日以上かかっていたのですが、佐々木が改良したら4時間くらいで全ページのインデックスを作ることができるようになりました。 以下は、それを応用して作った全文検索の結果です。 全文検索をどのように利用して行くのか、ということについては、現在模索中です。 早期いリリースしてみて、順次改良して行きたいと思います。 村
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
あと、rev.128から plugins: - module: CustomFeed::Frepa config: livedoor_id: example password: foobar fetch_body: 1 show_icon: 1 と、show_icon: 1にする事でフレ友とかマイミクのアイコンが表示されるよ。と、SixApartの宮川さんに教えてもらいました。 誰が書いているかが分かりやすくなりますが、会社とかで見る場合は若干気を使うというトレードオフ。
2006年02月24日22:53 カテゴリLightweight Languages use Encode # or use Jcode 2.00; # please! ずいぶん昔のdrk7.jpさんのentryがホッテントられてたので便乗。 Spreadsheet::WriteExcel = Perl で Excel 出力 :: Drk7jp ポイントは、Unicode::String モジュールと Jcode モジュールで日本語を UTF-16BE に変換する必要があるという点です。Perl 5.8以降なら、Unicode::StringもJcodeも不要で、こう書けます。 #!/usr/bin/perl -w use strict; use Encode; use Spreadsheet::WriteExcel; use utf8; # スクリプトはUTF-8 # Create a
業務系アプリを書いていると、csv 出力ぢゃなくて、Excel データそのものを出力できたらなぁ・・・と思うことがあると思います。そこで、 Perl で Excel データを生成する方法と日本語を扱うときの注意点をまとめてみました。 環境構築編/必要な Perl モジュールをインストールします。 下記コマンドを root 権限のあるユーザで実行してください。 perl -MCPAN -e 'install Spreadsheet::WriteExcel' perl -MCPAN -e 'install Spreadsheet::ParseExcel' perl -MCPAN -e 'install Unicode::String' 日本語を含む Excel データの生成例 #!/usr/bin/perl -w use strict; use Jcode; use Unicode::Stri
Text::ChaSen のインストールメモ 2006-02-24-3 [Tips][NLP] Perl モジュール Text::ChaSen を使ってみたい!というわけで、 すっかりメンテナンスされてない chasen をソースからインストール。 オフィシャルページ <http://chasen.naist.jp/> にある 「ソースからのインストール」を参考に。 ■darts の install のポイント: <http://www.chasen.org/~taku/software/darts/> darts 0.3 だと chasen-2.3.3 のコンパイルに失敗する。 理由は darts 0.3 からのメソッド名変更。 メッソド名の一部変更 (setArray を set_array になど) そこで darts 0.2 を使う。リンクはないので、以下のUR
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く