この記事は abicky.net の MeCab ソースコードリーディング私的メモ(形態素解析編) に移行しました
こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
ウェブページで日本語のWebフォントを使用する時にカーニングを適用して、読みやすくて美しく表示するjQueryのプラグインを紹介します。 全角の括弧や句読点などの約物は、日本語のどんなフォントでもスクリプトのみで美しくカーニングできます。 ※文字間のカーニングは、フォントごとに設定が必要です。 jQuery.Kerning.js jQuery.Kerning.js -GitHub jQuery.Kerning.jsのデモ jQuery.Kerning.jsの使い方 jQuery.Kerning.jsのデモ デモでは上:カーニング無し、下:カーニング有りの状態で、明朝とゴシックの2書体がチェックできます。 適用されている方が、読みやすいですね。 ゴシック体のデモ、上:カーニング無し、下:カーニング有り jQuery.Kerning.jsの使い方 Step 1: 外部ファイル jquery.j
最終更新: 2018-04-05 19:45 概要 プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース
2013年3月25日 インスピレーション, フォント 先日同僚と日本語の文字についておしゃべりしていると、「日本語はまるで絵や記号みたいだ!」と言われました。確かに私達日本人から見るとアラビック文字やハングル文字が記号を並べているように見えるのと同じで、英語圏の人からすると不思議な記号に見えるんでしょうね!ということで探してみるといくつか見つかった素敵フォント。パッと見日本語に見えたり、日本をイメージした英字フォントをいくつか紹介します。なんだかジワジワきますw ↑私が10年以上利用している会計ソフト! 「日本語風」の英字フォント 1. TokyoSoft ダウンロード(商用利用可) カタカナ風の英字フォント。日本人が見たら間違ったカタカナの羅列ですが、よーく見るとアルファベットになっています。このフォントで「MANA」と書くと、「ポタカタ」になるようです…! 2. Kaneiwa ダウン
こちらのページは tanukifont.com へ移転しました。お手数ですがブックマーク等の変更をお願いします。20秒後に新URLへジャンプします。
手書きフォント アームド・レモン「メールだと、いまいち気持ちが伝わらない…」 「POPなどを、もっと温かみのあるものにしたい…」 とお悩みの方、その理由は、パソコン文字の独特の硬さです。 手で書いた文字だからこそ出せるぬくもりを、 この手書き風フォント「アームド・レモン」にて体験してみてください。 英文字見本 フリーフォントのほとんどは、第二水準の漢字を含んでおりません。 「アームド・レモン」は、第二水準まですべての漢字をカバーしております。 漢字見本 特に広告・印刷業界の皆様、 今、「手書きの文字」は大変注目されています。 すでに「アームド・レモン」は広告に使われ、大変好評を頂いております。 かな見本 お求めは[VECTOR]から。
Google CGI API for Japanese Input Google CGI API for Japanese Input は、日本語変換をインターネット上で実現するための、CGI サービスです。 リクエスト http://www.google.com/transliterate に対して HTTP リクエストを発行します。GET メソッドを使ってください。以下の CGI パラメータを (URL エンコードした上で) 指定します。 langpair=ja-Hira|ja text=(変換したいひらがな列) text のひらがな列は UTF-8 でエンコードします。例えば、「へんかん」をリクエストする場合は、 http://www.google.com/transliterate?langpair=ja-Hira|ja&text=%E3%81%B8%E3%82%93%E3%81
5月になりました。 ということは Ubuntu の半年ごとの定期リリースが行われたということですね。 今回のUbuntu 10.04 は、ベータ時点でもなかなか安定しているという評判を聞いていたので、今回は様子見もせずにさっくりアップデートしてみました。一部、私の個人的な都合による設定の悪影響などで不安定な所があったものの、それ以外はすんなり移行できたようです。(まだ、使い始めて数時間ですが。) ところが、「さて、ゴールデンウィーク中に投稿された動画チェックを……」と思ってニコニコ動画を開いてびっくり。 Flash の中の文字が化け化けで日本語がまったく表示できていないようです。ニコ厨としてはこれは見逃せません。(本当はツッコミのあったAVRのエントリを書くつもりだったのですが、うっかりアップデートに手をだしてしまったのが失敗でした。) 今日は、この問題に対する対処法を紹介します。 Ubu
はじめまして。長らくROMっていましたが初投稿です。 現在FlashBuilder4(OS:WinXP-SP2)を使ってモックを作成していますが、フォントの設定で詰まったので質問させてください。 何も設定しないと日本語フォントが残念になるのにまず驚いたのですが、 http://wonderfl.net/c/chmU/ http://wonderfl.net/c/gYjs/ で拝見して、CSSで locale:"ja" とか font-family:"MS PGothic" というので、それなりに日本語が出るのは試しました。 ただ、Flex3までと同じような ・英数字はVerdana ・日本語はMSPゴシック といった表示をさせようとしても、うまくいきません。 ・ロケール設定だけだと日本語がMSP明朝になる ・font-family:"MS PGothic"だと英数字まで変わってしまう ・f
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く