タグ

japaneseに関するk12uのブックマーク (2)

  • 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説

    はじめに  テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。

  • PDF 千夜一夜: 日本語組版はグリッドベースで行うと言って良いのか?(2)

    語組版はグリッドベースで行うと言って良いのか?(2) 日語文書の組版方法については、さまざまな出版社毎のルールがあると思いますが、JIS X4051は、専門家が集まって長いこと議論を重ねて標準として定めたものですので、やはりそれに準拠するのが良いと思います。 このJISの「4.1行に配置する文字の基的な配置位置」は、欧文系の仕様ではあまり標準的な考えではありません。 その前に簡単にここで使う用語を説明します。次の図をご覧ください。 まず、日語の漢字や一般のひらがななどは、一つ一つが正方形でデザインされています。文字の外枠の大きさ(高さ)が文字サイズとなります。そして、文字と文字の間隔を文字間と言います。JIS X4051では定義されていませんが、ここでは文字を1文字ずつ進める幅を文字ビッチと言います。 さて、「4.1行に配置する文字の基的な配置位置」では、 a.行送り方向は、そ

  • 1