gologo13のブックマーク / 2010年9月20日

話し言葉と書き言葉

資料話し言葉と書き言葉ワープロなどで入力したテキストを読み上げるためには、書き言葉と発音の違いを整理しておかなければなりません。日本人が無意識にしゃべっていることがいかに複雑であるかについて例をあげながら説明します。１　読み仮名と、実際の発音とは微妙に違います。読み仮名と発音はほぼ１対１に対応します。しかしいくつか違いがあって、この違いは、規則的ではありません。

gologo13 2010/09/20

speech

リンク

当初ここでSDL_Kanjiを使った日本語表示を紹介する予定でしたしかし、今回は取りやめて日本語表示そのものの処理を紹介します SDL_Kanjiを取りやめた理由はbdfフォントを使っていることですこのサイトはWindowsユーザで初心者の人が対象なので、そういった人たちにbdfフォントの入手の説明を別途やる必要があります実は簡単に入手できるんですが、bdfフォントの入手の解説を行うくらいなら、日本語表示そのものの解説をやったほうがいいのかなと思い、変更しましたとはいえSDL_Kanjiの方が機能が充実していますので、今回のやり方で満足できない人は是非SDL_Kanjiを使ってみてください SDL_Kanjiにはサンプルソースがついているので使い方はわりとすぐ理解できると思います SDL_KanjiのサンプルでVCの注意点としては、付属のサンプルのプロジェ

gologo13 2010/09/20

c言語で日本語の文字の表示など

c
日本語

リンク

Tsujii Lab. Enshu3 -- Japanese Dependency Analysis

という文に対して、私の、高い、ワインを、二宮さんに、飲まれた、という各文節間の係り受け関係「私の→ワインを」・「高い→ワインを」・「ワインを→飲まれた。」・「二宮さんに→飲まれた」を求めることです。機械学習を用いた日本語係り受け解析は、ここ数年自然言語処理におけるホットトピックの一つとなっていて、我々のグループでも、最高精度の結果を出したことがあります（参考文献[1]）。その当時より、研究室内で機械学習のためのライブラリが充実してきているので、演習の1ヶ月という短期間でも最新の研究に匹敵する結果（精度90%程度）を出すことができるかもしれません。課題内容本課題のメインテーマである機械学習とは、簡単に言えば、ある現象に関して既存のデータの振る舞いから未知のデータの振る舞いを推定する確率モデルを作るということです。この課題の文脈にこれを当てはめれば、日本語の係り受けという言語現象に関して

gologo13 2010/09/20

係り受け解析

リンク

GLib-2.0

GLib is a general-purpose, porta ble utility library, which provides many useful data types, mac ros, type conversions, string utilities, file utilities, a mainloop abstraction, and so on.

gologo13 2010/09/20

glib
ref

リンク

googletest - Google C++ Testing Framework - Google Project Hosting

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

gologo13 2010/09/20

test

リンク

All commands

Other solutions that involve doing du -sx /* are incomplete because they will still descend other top-level filesystems are that mounted directly at "/" because the * expands to explicitly include all files and directories in "/", and du will still traverse them even with -x because you asked it to by supplying the directory name as a parameter (indirectly via "*"). Show Sample Output 4.0K /mnt 4.

gologo13 2010/09/20

リンク

dvipdfmx でフォントを埋め込んだPDFを作る - かさいますみ

動機 LaTeXでプレゼンテーション・シリーズ：まとめなどを書いている関係で，学生さんの卒論・修論発表にもLaTeXでPDFファイル... という人が多くなった．しかし，Vine Linux上のLaTeX + dvipdfmx で作ったPDFファイルを使って，例えばMacOSX上の「プレビュー」やAdobe Readerでスライドショーをすると，\bf なのに妙に線の細いフォントだったりして，ちとがっかりする．そこで，dvipdfmx でフォントを埋め込んだPDFファイルの作成についてまとめておく． [LaTeX] [Linux] Vine Linux 3.2 の dvipdfmx でフォントを埋め込む準備 su cd /usr/share/texmf/fonts mkdir truetype cd truetype/ ln -s /usr/X11R6/lib/X11/font

gologo13 2010/09/20

tex
tips

リンク

各種マップ実装の性能比較 - mixi engineer blog

今回は小ネタのmikioです。key/valueのレコードを高速に格納・参照・削除する仕組みが連想配列とかマップとか呼ばれて親しまれていますが、Tokyo Cabinetのオンメモリマップの性能をC++の各種実装と比較してみました。以下の実装を対象として、100万レコードの格納と検索にかかる時間を計測します。キーと値は各8バイトの文字列とします。 Tokyo Cabientのオンメモリマップ（TCMAP） STL（C++の標準テンプレートライブラリ）のmapとmulti mapとset GNU拡張テンプレートのハッシュマップ Googleのdense hashおよびsparse hash テストコードはこちらに挙げておきます。具体的な操作としては、マップオブジェクトを生成し、バケット配列の要素数をレコード数と同じにチューニングし、ループを回してレコード群を格納します。なお、STLのマップ

gologo13 2010/09/20

hash

リンク

はてなブログ | 無料ブログを作成しよう

【自分語り】１推しの卒業によせて . 私の1推し、ゆきりんこと柏木由紀ちゃんが、17年に渡り在籍したAKB48を卒業することになった。この機会に、ゆきりん推し（48ファン）としての自分自身のことをすべては不可能であるものの振り返ろうと思う。内容からして世代がわかることも仕方ないし、限りなくゼ…

gologo13 2010/09/20

リンク

TinySVM - 長岡技科大自然言語処理研究室

たいにーえすぶいえむ TinySVM 奈良先端大の松本研究室が公開しているSVM学習ツール。様々なカーネルが用意されている。また自作カーネルを使うことも可能である。とりあえずSVMにつっこんでみようという時に良く使う。 http://chasen.org/~taku/software/TinySVM/ [編集] 使い方 Tiny SVMの簡単な使い方。 ■素性の書き方 1 1:5 2:4 3:2 (正例) -1 4:1 5:3 6:3 (負例) まず、一番左の数字が"1"の場合、正例の素性である。これが"-1"の場合は負例の素性である。 ":"(ｺﾛﾝ)の左側の数字が『素性番号』、右側の数字が『素性の重み』である。素性番号には、単語や品詞を対応させ、重みには出現回数や確率を対応させる。 ■学習データを作成まずは、学習データとして、テキストファイルを作成する。例えば、以下

gologo13 2010/09/20

tinysvm

リンク

cut、head、tail、sort･･･定番のフィルタコマンドを使いこなす！　～業務でラクするためのUNIXテクニック～

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

gologo13 2010/09/20

paseteコマンドが使い道ありそう

command

リンク

UNIXツール

UNIXツール cut paste sed tr grep sort uniq cutコマンド cutコマンドはデータからフィールドを切り出すとき使う。（例） cut -c1 file ファイルの各行の最初の文字を切り出す。 cut -c1-10 file ファイルの各行の１～１０番目の文字列を切り出す。 cut -c20- file ファイルの各行の20番目から後の文字列を切り出す。 cut -d: -f1 file ファイルの各行のコロン(:)で区切られた最初のフィールドを切り出す。 cut -d' ' -f1,2 file ファイルの各行のスペースで区切られた最初と2番目のフィールドを切り出す。 pasteコマンド pasteコマンドは２つのデータを連結する。（例） paste file1.txt file2.txt file1.txtに 1 2 3 file2.txtに One

gologo13 2010/09/20

command

リンク

Emacs LispとRubyとmozreplを使ってFirefoxを操作する - saito’s blog

今回は、Emacs LispとRubyとmozreplを使ってEmacsからFirefoxを操作する方法を紹介したいと思います。 mozreplとは mozreplとはFirefoxのアドオンの一つで、Firefoxをtelnetサーバーにしてしまうというものです。このアドオンを導入することで、ターミナルやプログラムからFirefoxを操作することが出来ます。 mozreplはこちらからインストールすることができます。mozreplをインストールしFirefoxを再起動させると、Firefoxの「ツール」メニューにMozReplというメニューが追加されます。そこでStartを実行すると、telnetコマンドを使ってFirefoxにアクセスできるようになります。ターミナルで次のコマンドを打ってFirefoxにアクセスします。 rlwrap telnet localhost 4242(424

gologo13 2010/09/20

リンク

anything-filelist 〜すべてのファイルを瞬時に開く方法〜 - http://rubikitch.com/に移転しました

【Emacs本を書きました】深いディレクトリ階層にあるファイルを開くのは面倒なものです。比較的最近使ったファイル・よく使うファイルであればrecentfを使えば問題ありません。もし、recentfに入っていないファイルの場合、長いパスを入力するなりlocateを使うなりしないといけません。面倒ですね。 recentfは便利なのでここ参照そこで、システム上のすべてのファイルをリストを作成して、そこから開く方法を使います。 anything.elをインストールするまずは準備段階として、anything.elをインストールしておきましょう。最新機能なのですでに入れている人は更新しておきましょう。具体的には M-x auto-install-batch anything を実行するだけです。 http://d.hatena.ne.jp/rubikitch/20100718/anyt

gologo13 2010/09/20

anything

リンク

日々の作業履歴をビジュアル化。過去に作成したファイル/コンテンツをすぐに見つけ出せる「Activity Journal」 | Viva! Ubuntu!!

初心者にも優しいUbuntuを仕事や趣味に活用！「Journal」の本来の意味は「記録」。パソコンで行ったアクションは全てログとして記録されていますが、この複雑で分かりにくいログファイルを日付ごとに一覧で表示してくれるのが「Activity Journal」。オフィス文書、画像、動画、サウンドファイルなどを扱って保存した記録が一覧で表示されます。これにより過去にさかのぼって作業履歴を確認したり、過去に作成したファイルを探しやすくなるという便利なツールです。画像ファイル名上にマウスを重ねるとサムネイルが表示され、クリックすると実画像が表示されます。同様に、動画、音楽も標準プレイヤーで再生され、オフィス文書も直接開くことができます。この「Activity Journal」、Ubuntu 10.10では公式リポジトリに登録されており、Ubuntuソフトウェアセンターで「Acti

gologo13 2010/09/20

ubuntu

リンク

Tsukuba.R#8が開催されました - yasuhisa's blog

Tsukuba.R#8 - Tsukuba.R - Seesaa Wiki（ウィキ）今回はつくばの回(奇数回が東京、偶数回がつくば)だったのですが、筑波大ではなく産総研にてやらせてもらったそうです。@toddler2009さん、ありがとうございました。発表者のスライドでWebに上がっているものは以下の通り(抜けがあったら教えてください)。 Tsukuba.R#8で発表しました - ぬいぐるみライフ(仮) Tsukuba.R #8 - Mad Dryfarm Wolves TsukubaR#8主催 & 「俺のUseR!解説が45分でわかるわけがない」を発表してきた - 糞ネット弁慶その頃id:syou6162は何をやっていたかと言えば京都でハチロクの集まりがあっていたので参加しにいっていました。LT的な発表が何件かあって、id:satzzさんが「ハチロク世代とは何だったのか」という発表

gologo13 2010/09/20

R_Language

リンク

jfbterm for FreeBSD

jfbterm とは KON2 をベースに作成された Linux のソフトウェアで、フレームバッファを使用してコンソールで多言語表示を行うことが出来ます。 jfbterm for FreeBSD とは jfbterm を FreeBSD に最適化するのがプロジェクトのゴールです。オリジナルの jfbterm には無い機能は次のとおりです。マウスによるコピーペーストが出来ます。キーリピート間隔を設定することが出来ます。ビープ音を鳴らすことが出来ます。カーソルを点滅させたり、色をつけたり、高さを調整することが出来ます。スクリーンセーバーの種類と起動するまでの時間を指定することが出来ます。バックスクロールが出来ます。背景に画像を表示することが出来ます。 ANSI カラーを指定できます。 256 色表示が出来ます。文字に影をつけることが出来ます。 MTRR を使用して描画速度を向上

gologo13 2010/09/20

terminal

リンク

Ubuntu を CUI で使ってみる｜時代遅れな独り言

時代遅れな独り言どーでもいいことを思いついたときにてきとーに書きちらすブログ PR プロフィール [ルーム｜なう｜ピグの部屋] ニックネーム：どーててブログジャンル：くだらないブログ/パソコンメッセージを送るアメンバーになるプレゼントを贈る [記事作成・編集] カレンダー <<9月>> 日月火水木金土 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ブログ内検索最近の記事一覧『亡き妻へのレクイエム』リチャード・ニーリイ挫折どーでもいい疑問 Dropbox をどうするか『ロジャー・マーガロイドのしわざ』ギルバート・アデア古本購入結局つかれたまた買っちまったとりあえずできた [一覧を見る] ブログテーマ一覧パソコンのこと ( 27 )

gologo13 2010/09/20

terminal

リンク

N-gram コーパス - 日本語ウェブコーパス 2010

概要ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです．各 N-gram コーパスには，頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています． N-gram コーパスの構築においては，Google N-gram コーパスと同様の前処理を施しています．句点・感嘆符・疑問符を文の区切りとして利用しているので，「モーニング娘。」や「Yahoo!」などの固有名詞については，不適切な文の区切りがおこなわれています．また，文の区切りは削除するようになっているため，コーパス中に句点・感嘆符・疑問符は出現しません．形態素 N-gram コーパス，文字 N-gram コーパスともに，文境界マーク（<S>，</S>）は採用していますが，未知語トークン（<UNK>）は採用していません．また，文字 N-gram コーパ

gologo13 2010/09/20

corpus

リンク

はてなブログ | 無料ブログを作成しよう

オーベルジーヌ実食レポ食べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか都内にあるデリバリー専門のカレー屋で、ロケ弁などで大人気の本格欧風カレーが楽しめるらしいいいな〜いいな〜オブザイヤー都内の奴らはこんな良いモン食ってんのか許せねえよ………

gologo13 2010/09/20

firefox

リンク

Collapsed Gibbs Samplingを使ったLDAについて調べ中 - EchizenBlog-Zwei

あくまで調べ中。なんだけど自分用にメモしておく。大雑把に言うと、LDAは α=>[θ=>[z=>w]]<=β α,β: パラメータ θ,z : 潜在変数 w : 観測データという形をしていて、観測データの尤度を計算するには潜在変数θおよびzについて周辺化しないといけない。ところが潜在変数間に依存関係(θ=>z)があるので、θ、zそれぞれ独立に周辺化できない。そこでBlei論文では変分ベイズ法という方法を使ってθとzの依存関係を切り離す方法をとっている。一方でGriffithsらのギプスサンプラを使う方法ではサンプリングしたzを使うことでzを観測データにしてしまうことで上記問題を解決している(多分ついでにβにもディリクレ事前分布を導入していてBlei論文でのβをφ、ディリクレパラメータをβとしている。紛らわしい。その結果 α=>[θ=>[z=>w]]<=[φ]<=β α,β: パラメー

gologo13 2010/09/20

LDA

リンク

萌えの風景(<連載>建築マンガ) | CiNii Research

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業

gologo13 2010/09/20

paper
nea

リンク

http://www.cse.yorku.ca/~oz/hash.html

gologo13 2010/09/20

効率のいいハッシュ関数の作り方

hash

リンク

std::stringとstd::wstringの相互変換 - kryozahiro’s diary

ポータブルで簡単な方法を探していたら、 http://ml.tietew.jp/cppll/cppll/article/4783 がよさそうだったけど、バグがあったのでいろいろ修正してみた。 #include <cstdlib> #include <string> //ワイド文字列からマルチバイト文字列 //ロケール依存 void narrow(const std::wstring &src, std::string &dest) { char *mbs = new char[src.length() * MB_CUR_MAX + 1]; wcstombs(mbs, src.c_str(), src.length() * MB_CUR_MAX + 1); dest = mbs; delete [] mbs; } //マルチバイト文字列からワイド文字列 //ロケール依存 void widen

gologo13 2010/09/20

リンク

知らない人は損してると思うMacの使い方 Ctrl+2 - スチーム速報　ＶＩＰ

スチーム速報　ＶＩＰあの夏の日、僕たちは輝いていた。

gologo13 2010/09/20

mac

リンク

はてなブックマーク

タグ

2010年9月20日のブックマーク (25件)

話し言葉と書き言葉

日本語表示 KanjiSample

Tsujii Lab. Enshu3 -- Japanese Dependency Analysis

GLib-2.0

googletest - Google C++ Testing Framework - Google Project Hosting

All commands

dvipdfmx でフォントを埋め込んだPDFを作る - かさいますみ

各種マップ実装の性能比較 - mixi engineer blog

はてなブログ | 無料ブログを作成しよう

TinySVM - 長岡技科大自然言語処理研究室

cut、head、tail、sort･･･定番のフィルタコマンドを使いこなす！　～業務でラクするためのUNIXテクニック～

UNIXツール

Emacs LispとRubyとmozreplを使ってFirefoxを操作する - saito’s blog

anything-filelist 〜すべてのファイルを瞬時に開く方法〜 - http://rubikitch.com/に移転しました

日々の作業履歴をビジュアル化。過去に作成したファイル/コンテンツをすぐに見つけ出せる「Activity Journal」 | Viva! Ubuntu!!

Tsukuba.R#8が開催されました - yasuhisa's blog

jfbterm for FreeBSD

Ubuntu を CUI で使ってみる｜時代遅れな独り言

N-gram コーパス - 日本語ウェブコーパス 2010

はてなブログ | 無料ブログを作成しよう

Collapsed Gibbs Samplingを使ったLDAについて調べ中 - EchizenBlog-Zwei

萌えの風景(<連載>建築マンガ) | CiNii Research

http://www.cse.yorku.ca/~oz/hash.html

std::stringとstd::wstringの相互変換 - kryozahiro’s diary

知らない人は損してると思うMacの使い方 Ctrl+2 - スチーム速報　ＶＩＰ

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス