タグ

Wordに関するviergerのブックマーク (12)

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

    vierger
    vierger 2010/11/17
    I will read this.
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • 米紙ワシントン・ポスト「鳩山首相に使ったルーピーって言葉は、『愚か』って意味じゃない」

    1 : メナダ(東京都):2010/04/28(水) 13:44:48.22 ID:/Zv62T/5 ?PLT(12001) ポイント特典 鳩山首相は「現実から変に遊離した人」 米紙コラムニスト 鳩山由紀夫首相を核安全保障サミットの「最大の敗者」と皮肉った米紙ワシントン・ポストは、 同記事で首相を表現した「ルーピー(loopy)」は「愚か」や「変わり者」でなく 「現実から変に遊離した人」が真意だとするコラムを28日付の同紙電子版に載せた。 著名コラムニストのアル・カメン氏が再び執筆。記事をめぐっては平野博文官房長官らが 「非礼な面がある」と不快感を示していたが、首相を重ねてやゆしているとの指摘も出そうだ。 カメン氏は「ルーピー」について「組織の意思決定について十分な情報を得ている、 つまり『輪の中に入っている』状態とは正反対の意味」とも強調した。 首相が国会で「ポスト紙が言うように、私は愚

    vierger
    vierger 2010/04/29
    LOL :)
  • 優れた文章を書くための11の賢いヒント » SEO Japan

    無料で資料をダウンロード SEOサービスのご案内 専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。 無料ダウンロードする >> 米国でNo.1人気のライティングに関するブログ「コピーブロガー」から優れた文章を書くための11のヒントを。英語ならではのアドバイスもありますが、大半は日語にも通じるかと。 — SEO Japan あなたは難しい言葉を使う時、自分が賢くなったような気になるだろうか? Applied Cognitive Psychologyに発表された研究によると、その答えはNOだ。 実際、複雑な文章はあなたを狭量な人間のようにさせてしまう。こんな研究タイトルはどうだろう:Consequences of erudite vernacular utilized irrespective of necessity:

    優れた文章を書くための11の賢いヒント » SEO Japan
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
    vierger
    vierger 2009/12/01
    Great add-up!
  • BOMとは - IT用語辞典

    概要 BOM(Byte Order Mark)とは、Unicodeで記述された文書の冒頭に記載される短い符号で、使用されている文字符号化方式(文字エンコーディング)の種類や、そのバイト順(エンディアン)を指定するためのもの。 文書がUnicode文字列であることを示したり、一文字を複数バイトで表す際のバイト列の並び順(上位側が先か下位側が先か)を規定する。符号化方式によって2~4バイトのバイト列が決められており、BOMを記述しないよう規定された符号化方式もある。 UnicodeにはUTF-8やUTF-16など複数の符号化方式が規定されており、同じ文字でも符号化方式が異なれば違うバイト列で表現される。また、例えば同じUTF-16でも、機種や処理系の違いによって、ある文字を表すバイト列を上位バイトが先頭側になるように並べる(ビッグエンディアン)か、下位バイトが先頭側になるように並べる(リトルエ

    BOMとは - IT用語辞典
    vierger
    vierger 2009/12/01
    I'm ashamed to say, but I learned this first.
  • Copy Paste Character

    A website for copying the 'hidden' characters that comes with the computer's typefaces.

    Copy Paste Character
  • カリギュラ効果 - Wikipedia

    カリギュラ効果(カリギュラこうか)、別名カリギュラ現象(カリギュラげんしょう)とは、他者から行為などを強く禁止されると、かえって欲求が高まる心理現象[1](心理学における心理的リアクタンスの一種)を指す日固有の用語。1980年の映画『カリギュラ』に由来する。 「カリギュラ効果」は学術的な用語ではないものの、その関心事の面白みからいくつかの実用書において紹介された事例がある[1][2][3]。 背景[編集] 1980年のイタリア・アメリカ合衆国合作映画『カリギュラ』は、暴君として知られるローマ皇帝・カリグラを題材とした歴史映画で、過激な内容のためアメリカではボストンなどの一部地域[注釈 1]で公開禁止になったことから、かえって世間の話題を惹いた。このことが日で報じられたことにちなんで生まれた語とされる[4][5]。 用例[編集] この効果は、広告宣伝やテレビ番組でも利用されている。例えば

    vierger
    vierger 2008/08/18
    Oh, this phenomenon also has a name, I learned for the first time.
  • 月がキレイですね:ぁゃιぃ(*゚ー゚)NEWS 2nd

    http://anime3.2ch.net/test/read.cgi/doujin/1218459857/ 129 名前:おさかなくわえた名無しさん[sage] 投稿日:2008/08/14(木) 10:31:18 ID:jt3nHV1g こんなスレあったんだね。 流れ思いきり無視して近所の夫婦のなれそめ話を 奥さん(日人)は○目漱石の大ファン。 米に留学にいって旦那さんと出会ったそうな 日に何度か行ったことがある旦那さんと意気投合し、 奥さんはよく夏○漱石について熱く語ったらしい ある日、なんかのパーティーの後夜遅くなり旦那さんに 送ってもらっていると、旦那さんが急に立ち止まった。 どうしたの、と見ると旦那さんはじっと夜空を見上げている。 満月。 旦那さんは奥さんをじっと見つめ、カタコトの日語で 「月がキレイですね」と一言。 奥さんはすぐ意味を理解し、「私もそう思う」と泣きながら

    vierger
    vierger 2008/08/17
    I love you tonight.
  • 決して使いたくない言い回し - 今日の一撃 - tak-shonai's "Today's Crack"

    世の中ではよく聞くけれど、なぜかどうしても違和感があって、個人的には決して使いたくないという言い回しがある。 その代表的なのが、例を挙げるときの 「○○であるとか、××であるとか ……」 という 「~であるとか調」 である。聞いているだけで、なんだか気恥ずかしい。 単に 「○○とか、××とか ……」 と、フツーに言えばいいのに、なんでまたご大層に、いちいち 「である」 を挿入しなければならないのか。単なる 「とか」 だけでは軽すぎるので 「である」 を付けるのかもしれないが、結局 「とか」 と言っちゃうのだから、その 「軽さ」 感が 「である」 とのギャップでますます増幅される気がする。 似た言い回しでも、 「○○ですとか、××ですとか ……」 だと、それほどの違和感は覚えない。多分、「である」 と 「とか」 の組み合わせがいけないのだと思う。口語の中に突然 「である」 なんていうご大層な

    決して使いたくない言い回し - 今日の一撃 - tak-shonai's "Today's Crack"
    vierger
    vierger 2008/07/31
    I don't like "〜と思われる"... I think that this sentence is for avoiding the responsibility.
  • 嫁、妻、家内の正しい使い分け - ひがやすを技術ブログ

    昨日のiPhoneが女性に受けない10の理由のエントリに「iPhone確かに買わないけど。なんかむかつく。」という女性のコメントがありました(今見ると消えてますね)。 なんか書き方悪かったかなぁとおもって、うちのかみさんに内容をチェックしてもらいました。かみさんからは、もしかすると、「嫁」という言葉のイメージが悪いのかもねというコメントをもらいました。確かに、「嫁」という漢字は女は家にいるべきだ見たいな印象を受けますね。 というわけで、嫁、、家内はどうやって使い分けるんだろうと思って、ぐぐってみました。 夫・主人・旦那、・家内・奥さんそれぞれの呼び方で何か意味があるのでしょうか 「嫁」と言う言葉の使い方 他にもいろいろな意見があったんですが、まとめると、こんな感じです。 嫁は、息子のをさすそうです。 知らなかった。使い方間違えてたよ。日に間違った使い方を広めたのは、きっと、加山雄三

    嫁、妻、家内の正しい使い分け - ひがやすを技術ブログ
    vierger
    vierger 2008/06/20
    Let's call your wife honey!! :)
  • 1