タグ

日本語に関するgologo13のブックマーク (37)

  • Unicode-processing issues in Perl and how to cope with it (ahinea.com)

    Home About Projects Services Articles Unicode-processing issues in Perl and how to cope with it Perl 5.8+ has comprehensive support for Unicode and a wide range of different text encodings.  But still many people experience problems when processing multi-language text.  Here I explain the most common problems and offer solutions. 21 Nov 2013. Some inaccuracies in the text of the article and in the

    gologo13
    gologo13 2012/01/07
    this explanation is easy to understant!!! 2 types of solutions are proposed here. 1. speficy the encoding of the string explicitly, 2. specify the encoding of the I/O layer.
  • Researchmap リサーチマップ - つながるコンテンツ 研究の壁を越えたとき X 「これは壁ではない」。

    このURLのページは存在しません。 つながるコンテンツをご覧になるには 左コラムの目次から、読みたい記事をお選び下さい。

    gologo13
    gologo13 2011/03/02
    クールなおじさまやな
  • 形態素解析ツールの品詞体系

    ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。 いわゆる形容動詞は名詞の形容動詞語幹として含まれ、 形容詞には含まれない。Juman の指示詞という カテゴリは「連体詞」に含まれている。 判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description

    gologo13
    gologo13 2011/02/19
    Juman品詞体系とIPA品詞体系
  • 「ピンからキリ」というのはどっちが格が上なのですか??ピン?キリ??それと僕はどちらが上なの - 「ピンからキリ」というのはどっちが格が... - Yahoo!知恵袋

    ①、「ピンからキリ」までは 厳密に言えばどちらが格上でどちらが格下ということに着目した表現ではありません。 お答えが後のご質問からになりますが、 回答者がどちらが上か下かを知らないまま 全体としてこの慣用句を覚えられたのは極めて自然なことで、間違いではありません。 この「ピンからキリまで」の意味は2つあるとされます。 1、「最初から最後まで」です。 最初と最後のどちらが格上で、どちらが格下であるか、という想定がナンセンスです。 同じもので、違いは出発点と到達点の差だけです。 2、問題になるのは「最上級から最下級まで」という意味の場合です。 語順で言えばピン=最上級、キリ=最下級ということになってしまいますが、 それはただ上の表現だからそうなっただけで、 「最下級から最上級まで」(あまり言いいませんが)と言えば逆になります。 「右から左まで」とか「西から東まで」という極と極の例としてあげられ

    「ピンからキリ」というのはどっちが格が上なのですか??ピン?キリ??それと僕はどちらが上なの - 「ピンからキリ」というのはどっちが格が... - Yahoo!知恵袋
  • 個人主義の対義語は? - なんですか? - Yahoo!知恵袋

    個人主義には、2種類あります。 1.国家・社会の権威に対して、個人の意義と価値を重視し、その権利と自由を尊重することを主張する考え方。(来の個人主義) これなら対義語は、「全体主義」です。 2.自分の利益を最優先し、他人や社会全般の利害など考えようとしない身勝手な考え方。(個人の語感から派生したもの) これなら、「利己主義」と同じだから、対義語は、「利他主義」です。

    個人主義の対義語は? - なんですか? - Yahoo!知恵袋
  • nkfを使った半角カナ⇒全角カナへの変換 - RX-7乗りの適当な日々

    今更ですが、nkfを使うと、半角カナが全角カナに変換されることを知った。 $ cat test.txt てすと テスト テスト testみたいなファイルがあったとして、nkfを実行してみると、、、 $ nkf -w test.txt てすと テスト テスト testこの通り、(↑では3行目の)半角カナの文字列が全角カナへと変換されて出力される。 nkf実行時に、半角カナのまま出力させたい場合 "-x"オプションを使う。 $ nkf -wx test.txt てすと テスト テスト testこの通り、半角カナの変換は行われずに出力される。 ちなみに、manには以下のように記載されています。 -x 通常おこなわれる、いわゆる半角カナ (JIS X 0201 片仮名) からいわゆる全角カナ (JIS X 0208 片仮名) への変換を行わず、半角カナを保存する。 入力は、Shift_JIS の

    nkfを使った半角カナ⇒全角カナへの変換 - RX-7乗りの適当な日々
    gologo13
    gologo13 2011/02/07
    エエェ.勝手に変換されてたんだ.知らんかった.
  • 英語話者に対する言語習得難易度表:日本語は最高難度 - A Successful Failure

    少なからぬ日人が日語は難しい言語だと信じているようだ(日刊スレッドガイド : 日人はなぜ日語は世界一難しい言語と信じているのか?)。 言語の習得難易度は学ぶ対象とする言語と母語(第一言語)と間のあらゆる言語学的関係、および個々人の資質や学習環境に大きく作用されるため、一概に議論することはできない。学習者の生活する文化的背景、接触してきた言語(第二言語、etc.)によっても習得難易度は変わるため、世界中の人々に普遍的な世界一難しい言語というものは存在しない。ただ、英語を母語とする者にとっては、日語は最も習得が難しい言語のひとつであることは確かなようだ。 外交官などの専門職を養成する米国務省機関である外務職員局(FSI: Foreign Service Institute)が英語を母語とする者が習得するのにかかる期間を元に各言語の習得難易度をまとめている(Language Learn

    英語話者に対する言語習得難易度表:日本語は最高難度 - A Successful Failure
  • こうもり言葉オノマトペ

    自分で意味を知らない言葉を、他の人から「この言葉の意味は当然おわかりでしょう」というような感じに使われると、むっとしてしまう。 まあ、私がものを知らないのがいちばん悪いのかもしれないが、あまり世間的に通用していない言葉を「知っていて当然」のような顔つきで話す人も、私から見ると「ちょっとねぇ‥‥」という感じである。 「オノマトペ」という言葉を、私が初めて聞いたのは10年以上前だったと思う。 地域の国語科の研究会で、私より少し若い先生が、「この作品ではオノマトペが効果的に使われて‥‥」のような発言をしたのだった。 「おのまとぺ?」なんのことやらわからない。「小野的平(おの-まとへい)」という人の名前だろうか。それとも「加トちゃん、ペ!」の類だろうか‥‥。 近くの席の人に小声で聞いてみるが誰も知らない。恥ずかしいが思い切って挙手をして質問する。 「あのぉ、おのまとぺって何ですか?」 会場にいたほ

    gologo13
    gologo13 2010/12/18
    これはおれも思った.オノマトペは日本語の音みたい
  • 句読点 - Wikipedia

    この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 信頼性について検証が求められています。確認のための情報源が必要です。(2019年5月) 言葉を濁した曖昧な記述になっています。(2019年5月) 句読点(くとうてん、英: punctuation)とは、句点(。や.)と読点(、や,)の様な文中や文末、あるいは文頭において、意味上の区切りや可読性を高めるために、一般に単独、あるいは一組で用いる約物の総称である。最も狭義には、各表記体系におけるピリオド(.、フルストップ)とカンマ(,、コンマ)に相当するもののみを指すが、より広く疑問符(?、インテロゲーション)や感嘆符(!、エクスクラメーション)、省略符を含む場合、さらに広義には括弧やカギ括弧などの文章に使う様々な約物全般を含む場合がある。 句読点は、その置き方により構文上の重大な変化を起こしうる。例えば英語では、e

    句読点 - Wikipedia
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • Perl5 で半角カタカナにマッチする正規表現を簡単にかく方法について - tokuhirom's blog

    にしても、こちらのサイトでも言われていますが、なぜ半角カナ専用のUnicodeブロックがないのかと小一時間(ry http://blog.livedoor.jp/sasata299/archives/51194035.html http://d.hatena.ne.jp/pasela/20081003/ll_unicode ということで、 sub InHankakuKatakana { "FF65\tFF9F" }という一行をはっつけると、つかえるようになりますね。 #!/usr/bin/perl use strict; use warnings; use utf8; use Test::More; sub InHankakuKatakana { "FF65\tFF9F" } ok("\x{FF65}" =~ qr/\p{InHankakuKatakana}/); ok("abc" !~

  • 大阪大学学術情報庫OUKA

    PRINT ISSN: 09162135 ONLINE ISSN: NCID: AN10106606 Publisher: 大阪大学大学院人文学研究科基盤日語学講座

  • 対義語・反対語辞典

    対義語・反対語・反意語・反義語とは、意味の上で互いに反対の関係にある語をいう。「善」⇔「悪」のように全く反対の概念を表す語を反対語、「右」⇔「左」のように、組になる語を対義語と区別することもある。当サイトは日で最初に始めた格的な反対語検索サイトです。2002年から人手で収集した反対の意味にあたる語を十分検証してから掲載し、1画面で検索できるようになっています。難読漢字一覧 あ ・愛護⇔虐待 ・愛国⇔売国 ・アーバン⇔ルーラル ・相酌⇔手酌 ・アイス⇔ホット ・相席⇔別席 ・哀楽⇔喜怒 ・相惚れ⇔片思い ・愛する⇔憎む ・会う⇔別れる ・崇める⇔蔑む ・暁⇔黄昏 ・明るい⇔暗い ・赤字⇔黒字 ・悪⇔善 ・悪意⇔善意 ・悪日⇔佳日 ・悪日⇔良日 ・悪運⇔幸運 い ・威圧⇔懐柔 ・いい⇔悪い ・いいえ⇔はい ・いい加減⇔丁寧 ・居開帳⇔出開帳 ・生かす⇔殺す ・以下⇔以上 ・意外⇔当然 ・異

  • 言語学用語集

    この「言語学用語集」は言語学の 専門用 語・学術用語についてまとめて、五十音順に並べたものです。用語の次に書いてある説明は、私がエスペラントEsperantoや日語などの言語を材料 に、いろいろな言 語学の書物を参考にして自分なりに解釈したものです。そもそも私は歴史畑の人間なので、ここに書いてあることは言語学の論文やレポートには使わない ほうが良いよ、と忠 告しておきます。ただ、専門用語で権威付けられた言語学をほぐして、我々のものにするための一助になれば幸いです。なにしろ言語学の用語はややこしく難し く類似品が多いので。 〔専門用語〕 【あ】 暗示的意味connotative meaning :内包。「兄」と「兄様」と「お兄たま」と「お兄さま」と「お兄ちゃん」と「兄貴」と「兄上」と「兄君」が指す対象は同じ「年長の男兄弟」だけれども、聞 き手に与える印象はそれぞれ異なっている。この異

  • iconv - Wikipedia

    iconv(アイコンブ)は異なる文字コード間の相互変換を行う標準API。または、そのAPIに付属する文字コード変換ユーティリティプログラム。名前は「International Codeset Conversion Library」に由来する[1]。GNUによる実装[2]が有名で、変換ライブラリ libiconv のライセンスはLGPL、変換プログラム iconv のライセンスはGPLである。 iconvのAPIは、おもにUNIX環境で文字列の文字コード変換を行う標準インタフェースである。iconvは最初HP-UXで開発され、後にPOSIX規格として標準化された。そのため、ほとんどのUnix系のシステムで使用できる。 iconv APIは文字コード変換プログラムのほか、既存のプログラムを国際化または多言語化するためにも用いられる。例えば、Sambaの国際化にはiconvが利用されている。 X

  • COOL ONLINE - JAPAN - JAPAN ONLINE

    Ukai, or cormorant fishing, is a captivating and ancient Japanese tradition that dates back over 1,300 years. This unique fishing technique, practiced along several rivers in Japan, combines history,...

    gologo13
    gologo13 2010/09/20
    c言語で日本語の文字の表示など
  • std::stringとstd::wstringの相互変換 - kryozahiro’s diary

    ポータブルで簡単な方法を探していたら、 http://ml.tietew.jp/cppll/cppll/article/4783 がよさそうだったけど、バグがあったのでいろいろ修正してみた。 #include <cstdlib> #include <string> //ワイド文字列からマルチバイト文字列 //ロケール依存 void narrow(const std::wstring &src, std::string &dest) { char *mbs = new char[src.length() * MB_CUR_MAX + 1]; wcstombs(mbs, src.c_str(), src.length() * MB_CUR_MAX + 1); dest = mbs; delete [] mbs; } //マルチバイト文字列からワイド文字列 //ロケール依存 void widen

    std::stringとstd::wstringの相互変換 - kryozahiro’s diary
  • http://twitter.com/ntk_as_dc/status/22972986028

    http://twitter.com/ntk_as_dc/status/22972986028
    gologo13
    gologo13 2010/09/17
    すごいなこれ
  • Emacsから校正支援する

    Emacs から 日語の校正支援をする Emacs lisp を作ってみました。 インストール github からダウンロードしてきた yspel.el を ~/emacs.d/ などの load-path の通った場所に置いてください。 git コマンドからなら、 git clone git://github.com/yama-natuki/yspelで落とせます。 落としてきたら ~/.emacs に (require 'yspel)と書いておきます。 使い方校正したいテキストファイルを開きます。 開いたら M-x yspel としてyspel を起動します。 ウィンドウが分割され、校正箇所がリストアップされます。 pキーとnキーでリストを上下に移動します。 リターンキーで該当箇所にジャンプします。 ウィンドウを閉じるときは q キーです。 Yahoo API を利用して校正支援をお

  • 波ダッシュ Unicodeに関連する問題 - Wikipedia

    波ダッシュ(なみダッシュ、wave dash[注釈 1])とは、日語表記における約物のひとつで、波線「」(はせん、なみせん)を指している。ダッシュ記号(—)の波形であることからそう呼ばれる[注釈 2]。 日語における用法の多くはダッシュ記号としての用法と長音符としての用法であり、中国語でも長音符などとして使われることがある。 Windows XP等における日語環境下では、表示字形が「」ではなく、波形の反転した「」に変わってしまう問題が発生していた[注釈 3]。これに付随して、波ダッシュの代用として音声記号等として用いられる全角チルダが不適切に使われることがあるため、混乱の元となっている[1][注釈 4]。 波ダッシュは、範囲を表すために用いられる[注釈 5]。 場所に対して: 東京〜大阪 時間に対して: 5時〜6時(もしくは5〜6時) 数量に対して: 100人〜150人(もしくは10

    gologo13
    gologo13 2010/08/21
    まじで違いわからん