タグ

Perlと日本語に関するpmakinoのブックマーク (10)

  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

  • おさかなラボ - Perlの日本語ドキュメントポータルは速やかに刷新すべき

    と思いこんなものを作ってみました。α版なので細かいツッコミは歓迎ですが寛容にお願いします。当然気づいているバグもあるのですが、ケツを叩かれるとのそのそ動くのが私の習性なので。デザインの著作権を侵していますが、勝手な都合でsearch.cpan.orgの方から警告があるまではこのままにします。 http://kaede.to:8000/ 断言します。日Perlコミュニティには、このような、別の形の日Perlドキュメントポータルが絶対に必要です。 これは、しばらくは動くようにしておきます(なるべく・1ヶ月くらい?)。その後状況をみてなるべく当社とは関係ない(最終的には全く関係ない)ドメインでどこかに移転します。それ以降にデッドリンクになっているのを見つけた方は、canadie at gmail まで一言頂けると助かります(他力リマインダ)。 なお動いているのは弱小サーバーでしかも多段P

  • tokuhirom blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

    pmakino
    pmakino 2008/10/19
    Unicode::Japanese の隠しメソッドとどちらが便利か気になるところ
  • 実は勉強になるルー語

    先月はルー語の月でした・・・ フィードバックを読んだり、プログラムを改良したり、電車の中では変換後の文章の校正して時間をつぶしたり。振り返ってみると、ルー語変換プログラムを通して実はいろいろ学習しました。 英語 むずしすぎる単語を排除するため、「中学校卒業程度」の単語にしぼりこみたかったのですが、それがだいたい2000語であるということ・頻出単語は幾つかのデータがあるということをこのへんで知る。最終的にはここで紹介されているデータと、実際の中学校の単語ドリル、あとルーさんブログをコーパスにして単語を絞込み。その2000弱の単語には何回か目を通したのでだいたい覚えた。 国語 連体詞って何だっけ?とか、あと活用形。五段活用とか、下一段活用とか、久しぶりに調べたですョ。「い・い・いる・いる・いれ・いろ」「ない よう う・ます た て・から と・とき こと・ば・!」とかそのあたり。 テストスクリプ

    実は勉強になるルー語
  • どんなページもルー大柴ナイズ

    来月仕事海外に行くことになりそうなので、買っただけで読んでなかった カタカナ英語 を取り出して読んでたのですが、TV 付けて酒飲みながらじゃあ勉強にならない。カタカナ英語といえば ルー大柴 だよなあ、と脱線しはじめる。 「ディスイヤーは私にとって再チャレンジのファンデーション作りのイヤーだった」(原文) ↓ 翻訳すると「今年は私にとって再挑戦の基礎作りの年だった」 ということは何か普通の文章をルー化するスクリプトをすぐ書けそうな予感。ルーさんが使いそうな単語を片っ端からマップにしてもいいけど、それはめんどい。それより、文章を形態素解析 → 単語を英訳 → 英語をカタカナ読みに翻訳 → というようにすれば楽に書けるんじゃないか?と発展。 形態素解析は MeCab でいいよね 単語の和英は、Excite みたいなネットを介すやつだと遅いので、フリーの英和辞書を探す。EDICT proje

    どんなページもルー大柴ナイズ
  • Perlのページ

    Shift-JISテキストを正しく扱う [2006-10-28] swatchとswash [2006-10-21] Perlそぞろ書き [2001-10-08] Shift-JIS関連モジュール ShiftJIS/String.pm [tar.gz] v1.04 [2007-01-01] [ドキュメント日語版] Shift-JIS文字列を扱う。 ShiftJIS/Regexp.pm [tar.gz] v1.00 [2007-01-02] [ドキュメント日語版] Shift-JIS正規表現を扱う。 ShiftJIS/Collate.pm [tar.gz] v1.03 [2007-01-14] [ドキュメント日語版] Shift-JIS文字列の照合、比較および並び替え。 ShiftJIS/CP932/MapUTF.pm [tar.gz] v1.02 [2007-06-04] [ドキュメ

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • Unicode::Japanese : blog.nomadscafe.jp

    Unicode::Japanese BlogSurfで、Jcodeのエンコーディング判定で書いたconvert_to関数を使ったが見事玉砕 utf-8文字列からeucへの変換ができないことが多々。 Unicode::Japanese - 日語文字コード変換 を使ってみることにした。 Jcodeは内部的にEUC-JPを使うのに対して、UTF-8を使う文字コードの変換モジュール XSにも対応、imodeやJ-skyにも対応 使い方はJcodeとほぼ同じ $utf8 = Unicode::Japanese->new($str,"文字コード")->utf8; 自動判定するには、文字コードに「auto」を入れる。 でも、やはり他の手段と同じく文字コードの自動判定は失敗することがあります。 そろそろ自動判定はあきらめよう。 XML::Parserからの出力はどちらにしろ、utf-8に統一されているの

  • Unicode::Japanese - 日本語文字コード変換

    NAME SYNOPSIS DESCRIPTION METHODS UNICODE MAPPING BUGS AUTHOR COPYRIGHT NAME Unicode::Japanese - 日語文字コード変換 SYNOPSIS use Unicode::Japanese; # convert utf8 -> sjis print Unicode::Japanese->new($str)->sjis; # convert sjis -> utf8 print Unicode::Japanese->new($str, 'sjis')->get; # convert sjis(imode絵文字) -> utf8 print Unicode::Japanese->new($str, 'sjis-imode')->get; # convert 全角(utf8) -> 半角(utf8) prin

  • daily dayflower - 半角←→全角変換,Unicode::Japanese に未公開機能が…

    2008-10-21 追記 いまだに(ありがたいことですが)検索で飛んできたりブクマされたりというのがちょいちょいあるので,最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました(→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947)。 あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ(そして,たいていのばあい,持つ必要はないのですが),この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく,とても軽量ですので。 2008-10-21 追記おわり ウェブアプリを作っていると,ユーザが入力した半角

    daily dayflower - 半角←→全角変換,Unicode::Japanese に未公開機能が…
  • 1