資料 話し言葉と書き言葉 ワープロなどで入力したテキストを読み上げるためには、書き言葉と発音の違いを整理しておかなければなりません。日本人が無意識にしゃべっていることがいかに複雑であるかについて例をあげながら説明します。 1 読み仮名と、実際の発音とは微妙に違います。 読み仮名と発音はほぼ1対1に対応します。しかしいくつか違いがあって、この違いは、規則的ではありません。
資料 話し言葉と書き言葉 ワープロなどで入力したテキストを読み上げるためには、書き言葉と発音の違いを整理しておかなければなりません。日本人が無意識にしゃべっていることがいかに複雑であるかについて例をあげながら説明します。 1 読み仮名と、実際の発音とは微妙に違います。 読み仮名と発音はほぼ1対1に対応します。しかしいくつか違いがあって、この違いは、規則的ではありません。
当初ここでSDL_Kanjiを使った日本語表示を紹介する予定でした しかし、今回は取りやめて日本語表示そのものの処理を紹介します SDL_Kanjiを取りやめた理由はbdfフォントを使っていることです このサイトはWindowsユーザで初心者の人が対象なので、 そういった人たちにbdfフォントの入手の説明を別途やる必要があります 実は簡単に入手できるんですが、bdfフォントの入手の解説を行うくらいなら、 日本語表示そのものの解説をやったほうがいいのかなと思い、変更しました とはいえSDL_Kanjiの方が機能が充実していますので、今回のやり方で満足できない人は 是非SDL_Kanjiを使ってみてください SDL_Kanjiにはサンプルソースがついているので使い方はわりとすぐ理解できると思います SDL_KanjiのサンプルでVCの注意点としては、付属のサンプルのプロジェ
という文に対して、私の、高い、ワインを、二宮さんに、飲まれた、という各文節間の係り受け関係「私の→ワインを」・「高い→ワインを」・「ワインを→飲まれた。」・「二宮さんに→飲まれた」を求めることです。 機械学習を用いた日本語係り受け解析は、ここ数年自然言語処理におけるホットトピックの一つとなっていて、我々のグループでも、最高精度の結果を出したことがあります(参考文献[1])。その当時より、研究室内で機械学習のためのライブラリが充実してきているので、演習の1ヶ月という短期間でも最新の研究に匹敵する結果(精度90%程度)を出すことができるかもしれません。 課題内容 本課題のメインテーマである機械学習とは、簡単に言えば、ある現象に関して既存のデータの振る舞いから未知のデータの振る舞いを推定する確率モデルを作るということです。この課題の文脈にこれを当てはめれば、日本語の係り受けという言語現象に関して
Other solutions that involve doing du -sx /* are incomplete because they will still descend other top-level filesystems are that mounted directly at "/" because the * expands to explicitly include all files and directories in "/", and du will still traverse them even with -x because you asked it to by supplying the directory name as a parameter (indirectly via "*"). Show Sample Output 4.0K /mnt 4.
動機 LaTeXでプレゼンテーション・シリーズ:まとめなどを書いている関係で,学生さんの卒論・修論発表にもLaTeXでPDFファイル... という人が多くなった. しかし,Vine Linux上のLaTeX + dvipdfmx で作ったPDFファイルを使って,例えばMacOSX上の「プレビュー」やAdobe Readerでスライドショーをすると,\bf なのに妙に線の細いフォントだったりして,ちとがっかりする. そこで,dvipdfmx でフォントを埋め込んだPDFファイルの作成についてまとめておく. [LaTeX] [Linux] Vine Linux 3.2 の dvipdfmx でフォントを埋め込む 準備 su cd /usr/share/texmf/fonts mkdir truetype cd truetype/ ln -s /usr/X11R6/lib/X11/font
今回は小ネタのmikioです。key/valueのレコードを高速に格納・参照・削除する仕組みが連想配列とかマップとか呼ばれて親しまれていますが、Tokyo Cabinetのオンメモリマップの性能をC++の各種実装と比較してみました。 以下の実装を対象として、100万レコードの格納と検索にかかる時間を計測します。キーと値は各8バイトの文字列とします。 Tokyo Cabientのオンメモリマップ(TCMAP) STL(C++の標準テンプレートライブラリ)のmapとmulti mapとset GNU拡張テンプレートのハッシュマップ Googleのdense hashおよびsparse hash テストコードはこちらに挙げておきます。具体的な操作としては、マップオブジェクトを生成し、バケット配列の要素数をレコード数と同じにチューニングし、ループを回してレコード群を格納します。なお、STLのマップ
たいにーえすぶいえむ TinySVM 奈良先端大の松本研究室が公開しているSVM学習ツール。様々なカーネルが用意されている。また自作カーネルを使うことも可能である。 とりあえずSVMにつっこんでみようという時に良く使う。 http://chasen.org/~taku/software/TinySVM/ [編集] 使い方 Tiny SVMの簡単な使い方。 ■素性の書き方 1 1:5 2:4 3:2 (正例) -1 4:1 5:3 6:3 (負例) まず、一番左の数字が"1"の場合、正例の素性である。これが"-1"の場合は負例の素性である。 ":"(コロン)の左側の数字が『素性番号』、右側の数字が『素性の重み』である。 素性番号には、単語や品詞を対応させ、重みには出現回数や確率を対応させる。 ■学習データを作成 まずは、学習データとして、テキストファイルを作成する。 例えば、以下
UNIXツール cut paste sed tr grep sort uniq cutコマンド cutコマンドはデータからフィールドを切り出すとき使う。 (例) cut -c1 file ファイルの各行の最初の文字を切り出す。 cut -c1-10 file ファイルの各行の1~10番目の文字列を切り出す。 cut -c20- file ファイルの各行の20番目から後の文字列を切り出す。 cut -d: -f1 file ファイルの各行のコロン(:)で区切られた最初のフィールドを切り出す。 cut -d' ' -f1,2 file ファイルの各行のスペースで区切られた最初と2番目のフィールドを切り出す。 pasteコマンド pasteコマンドは2つのデータを連結する。 (例) paste file1.txt file2.txt file1.txtに 1 2 3 file2.txtに One
今回は、Emacs LispとRubyとmozreplを使ってEmacsからFirefoxを操作する方法を紹介したいと思います。 mozreplとは mozreplとはFirefoxのアドオンの一つで、Firefoxをtelnetサーバーにしてしまうというものです。このアドオンを導入することで、ターミナルやプログラムからFirefoxを操作することが出来ます。 mozreplはこちらからインストールすることができます。mozreplをインストールしFirefoxを再起動させると、Firefoxの「ツール」メニューにMozReplというメニューが追加されます。そこでStartを実行すると、telnetコマンドを使ってFirefoxにアクセスできるようになります。 ターミナルで次のコマンドを打ってFirefoxにアクセスします。 rlwrap telnet localhost 4242(424
【Emacs本を書きました】 深いディレクトリ階層にあるファイルを開くのは面倒なものです。 比較的最近使ったファイル・よく使うファイルであればrecentfを使えば問題ありません。 もし、recentfに入っていないファイルの場合、長いパスを入力するなりlocateを使うなりしないといけません。 面倒ですね。 recentfは便利なのでここ参照 そこで、システム上のすべてのファイルをリストを作成して、そこから開く方法を使います。 anything.elをインストールする まずは準備段階として、anything.elをインストールしておきましょう。 最新機能なのですでに入れている人は更新しておきましょう。 具体的には M-x auto-install-batch anything を実行するだけです。 http://d.hatena.ne.jp/rubikitch/20100718/anyt
初心者にも優しいUbuntuを仕事や趣味に活用!「Journal」の本来の意味は「記録」。 パソコンで行ったアクションは全てログとして記録されていますが、この複雑で分かりにくいログファイルを日付ごとに一覧で表示してくれるのが「Activity Journal」。 オフィス文書、画像、動画、サウンドファイルなどを扱って保存した記録が一覧で表示されます。 これにより過去にさかのぼって作業履歴を確認したり、過去に作成したファイルを探しやすくなるという便利なツールです。 画像ファイル名上にマウスを重ねるとサムネイルが表示され、クリックすると実画像が表示されます。 同様に、動画、音楽も標準プレイヤーで再生され、オフィス文書も直接開くことができます。 この「Activity Journal」、Ubuntu 10.10では公式リポジトリに登録されており、Ubuntuソフトウェアセンターで「Acti
Tsukuba.R#8 - Tsukuba.R - Seesaa Wiki(ウィキ) 今回はつくばの回(奇数回が東京、偶数回がつくば)だったのですが、筑波大ではなく産総研にてやらせてもらったそうです。@toddler2009さん、ありがとうございました。 発表者のスライドでWebに上がっているものは以下の通り(抜けがあったら教えてください)。 Tsukuba.R#8で発表しました - ぬいぐるみライフ(仮) Tsukuba.R #8 - Mad Dryfarm Wolves TsukubaR#8主催 & 「俺のUseR!解説が45分でわかるわけがない」を発表してきた - 糞ネット弁慶 その頃id:syou6162は何をやっていたかと言えば京都でハチロクの集まりがあっていたので参加しにいっていました。LT的な発表が何件かあって、id:satzzさんが「ハチロク世代とは何だったのか」という発表
jfbterm とは KON2 をベースに作成された Linux のソフトウェアで、フレームバッファを使用してコンソールで多言語表示を行うことが出来ます。 jfbterm for FreeBSD とは jfbterm を FreeBSD に最適化するのがプロジェクトのゴールです。オリジナルの jfbterm には無い機能は次のとおりです。 マウスによるコピーペーストが出来ます。 キーリピート間隔を設定することが出来ます。 ビープ音を鳴らすことが出来ます。 カーソルを点滅させたり、色をつけたり、高さを調整することが出来ます。 スクリーンセーバーの種類と起動するまでの時間を指定することが出来ます。 バックスクロールが出来ます。 背景に画像を表示することが出来ます。 ANSI カラーを指定できます。 256 色表示が出来ます。 文字に影をつけることが出来ます。 MTRR を使用して描画速度を向上
時代遅れな独り言 どーでもいいことを思いついたときにてきとーに書きちらすブログ PR プロフィール [ルーム|なう|ピグの部屋] ニックネーム:どーてて ブログジャンル:くだらないブログ/パソコン メッセージを送る アメンバーになる プレゼントを贈る [記事作成・編集] カレンダー <<9月>> 日 月 火 水 木 金 土 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ブログ内検索 最近の記事一覧 『亡き妻へのレクイエム』リチャード・ニーリイ 挫折 どーでもいい疑問 Dropbox をどうするか 『ロジャー・マーガロイドのしわざ』 ギルバート・アデア 古本購入 結局 つかれた また買っちまった とりあえずできた [一覧を見る] ブログテーマ一覧 パソコンのこと ( 27 )
概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ
あくまで調べ中。なんだけど自分用にメモしておく。 大雑把に言うと、LDAは α=>[θ=>[z=>w]]<=β α,β: パラメータ θ,z : 潜在変数 w : 観測データという形をしていて、観測データの尤度を計算するには潜在変数θおよびzについて周辺化しないといけない。ところが潜在変数間に依存関係(θ=>z)があるので、θ、zそれぞれ独立に周辺化できない。 そこでBlei論文では変分ベイズ法という方法を使ってθとzの依存関係を切り離す方法をとっている。一方でGriffithsらのギプスサンプラを使う方法ではサンプリングしたzを使うことでzを観測データにしてしまうことで上記問題を解決している(多分 ついでにβにもディリクレ事前分布を導入していてBlei論文でのβをφ、ディリクレパラメータをβとしている。紛らわしい。その結果 α=>[θ=>[z=>w]]<=[φ]<=β α,β: パラメー
ポータブルで簡単な方法を探していたら、 http://ml.tietew.jp/cppll/cppll/article/4783 がよさそうだったけど、バグがあったのでいろいろ修正してみた。 #include <cstdlib> #include <string> //ワイド文字列からマルチバイト文字列 //ロケール依存 void narrow(const std::wstring &src, std::string &dest) { char *mbs = new char[src.length() * MB_CUR_MAX + 1]; wcstombs(mbs, src.c_str(), src.length() * MB_CUR_MAX + 1); dest = mbs; delete [] mbs; } //マルチバイト文字列からワイド文字列 //ロケール依存 void widen
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く