サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 16
kensuke-mi.hatenablog.com
誰得な内容ですが..ペルシア語を正しくコンピューターで扱う話. これがきちっと守れないと,「検索した単語が出てこない!」とか「レポート書いたけど,間違いだらけじゃないか!」という原因になるので,きちっと守りましょう.というお話です. 実はアラビア語入力システムとペルシア語入力システムは細部が異なります.ネイティブの方も混合させていることが多いですが,せっかくルールが制定されているので.この機会に知って正しい入力できるようにしましょう.じゃないと困ることになりますよ(ぼくみたいなへっぽこエンジニアが). 1 まずしっかりペルシア語入力モードを設定しましょう windows, Mac OS*, Linuxすべてにおいてアラビア語入力システムとペルシア語入力システムは別に用意されています.「形が似てるからいいじゃん」なんてのはダメです!形は似ていても別の文字.日本語の「黒」と簡体字の「鄢」は似て
URLの文字分割したい時など、?とかの特殊記号が登場する。 しかし、単純に?でstrsplit関数を使うと、文字が全部分解されてしまう。Fu*k これは?がメタ文字として扱われているためで、?を文字として扱って分割するにはエスケープを2つもつけないといけない。 以下、コード例 > test_vec <- "id5573746623646?dhdhcdsvcydsucusdv" > strsplit(test_vec, split="?") [[1]] [1] "i" "d" "5" "5" "7" "3" "7" "4" "6" "6" "2" "3" "6" "4" "6" "?" "d" "h" "d" "h" "c" "d" "s" "v" "c" "y" "d" "s" "u" "c" "u" "s" "d" "v" > strsplit(test_vec, split="\?")
Wordnetとは...プリンストン大学が開発している語データーベースっていう説明でいいのかなあ, 一応,wikipediaの記事を載せておくWordNet 日本語版wordnet(NICTが開発している)だと,日本語で解説されているページがけっこうある.例えばこんなの けど,英語版wordnetの使い方を日本語で解説した記事.というのはほとんど見つからない.ましてや,Python言語から英語版wordnetの使い方を解説した記事なんて見つからなかった. 仕方がないので,英語で探して,英語で読む. すると,こんな解説スライドがあった.どこかの大学の授業スライド?なのかな? どうも,Pythonからwordnetを利用する時には,nltkライブラリで簡単に扱えるらしい. スライドと同じ内容を,ちょっとだけ覚書を残しておく. クエリ語の同義語を得る >>> from nltk.corpus i
この記事ではこんなことを書くよ テキストマイニング的に次元削減とプロットする話 t-SNEとかいうイケてる名前のアルゴリズム プリキュアとセーラームーンはどっちの方がいいか はじめに 計算機分野に所属する人たちは時々、本当に間抜けなことを真面目に取り組もうとします。 例えば、自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみるとか眼鏡っ娘分類器を作る話とか。 ぼくも多分に漏れず、間抜けなことをよく取り組もうとします。 きっと、データサイエンティストと言っているけど、実際は、データマゾヒストなのですね。 さて、きょう、取くんで見る課題は「プリキュアとセーラームーンはどっちの方がサザエさんに近いのだろう?」というお題です。 実にどーでもいいお題ですが、簡単に答えられる人もそうそういないでしょう。 Googleにも聞いてみましたが、満足な答えは得られませんでした。 それで
"Bias Analysis in Text Classification for Highly Skewed Data"(Lei and Huan)を読んでいて、「文書分類タスクでよく使われるfeature selectionは4つある。Information GainとChi-squared testとOdds ratioとBi-Normal Separationだ」みたいなことが書いてあった。 自分の中で、あんまりわかってないまま使ってる感があったので、しっかり調べてみた。 Information Gain Information GainはよくIGとか省略される。 IGは要は、「クラスとの関連性がでかい単語ほど大きい値になるよ」というやり方。 簡潔にまとめると、 単語数×クラス数のクロス集計表をつくる。クロス表は(termが出現 or Not)×(クラス=c or Not)の4要素
ある時,「LDAのトピックと文書の生成(同時)確率」を求めるにはどうすればいいですか?と聞かれた. 正確には,LDAで生成されるトピックをクラスタと考えて,そのクラスタに文書が属する確率が知りたい.できれば,コードがあるとありがたい.とのことだった. うーん,LDAの式をがんばって眺めてたのはもう1年も前のことだしなあ.とぼくの鈍い頭はすぐには動かない. そこで,自分用過去ログをあさってみると,「Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログがわかりやすいよ!」と書いてあったので,これで復習. このページにも書いてあるのだが,i番目の文書の背後にあるトピックkの確率(i番目の文書をトピックkが生成する確率)はtheta_i,kによって求めることができる. じゃあ,実際にtheta_i,kを表示できるようにすれば
以前,ちょろっとだけGensimを使ったことがあったんだけど,久しぶりに本格的に使うことになりそうなので,メモに残しておく Gensimでのコーパスの作り方 - kensuke-miの日記 gensim 文章をベクトル空間にする方法 - kensuke-miの日記 インストールができてないよぉふぇぇ,って人は解説してくださっている方がいるので,そっちを見ればいいと思う Python GensimでLDAを使うための前準備・パッケージのインストール - Hive Color LSAって何だよぉふぇぇ,って人は「文章を与えると,重要っぽい語を返してくれるアルゴリズム」って解釈しておけばいいと思う. ちなみに,日本語での訳語は「潜在的意味インデキシング」という,機械学習一般ではLSIと呼び,LSAって呼ぶのは自然言語処理分野だけらしい. と,いうわけで前提がしっかり整理できたところで,実際にさく
理論的なことはほとんどわかってない. だけど,単語n-gramをembeddingsと呼ばれるベクトル表現にしてくれることだけはわかっている. そのうち,しっかり勉強しますから...そのうち... とりあえず,「toolとして使う.」を第一目標にしてみた. word2vecについて Google projectの公式ページ python interfaceのページ python interfaceの使い方 word2vec本体について Google projectの公式ページで入手可能. 大体はここに書いてある説明のとおりにやっていけば良いのだが,pre-trainedのモデルファイルの利用がちょっと気になる. pre-trainedの利用方法 kensuke-mi@pine12:~/opt/word2vec$ ./distance pre_treained/freebase-vector
LIBLINEARとは線形分類に特化した分類器である. 簡単な説明とか,使い方は検索すればすぐ出てくると思うが, LIBLINEARを用いた機械学習入門(単語分割) あたりはわかりやすいと思う. 一応,公式ページも載せておく. LIBLINEAR -- A Library for Large Linear Classification で,LIBLINEARに限ったことではないのだが,分類器を学習させるには,一般にハイパーパラメータのチューニングが必要になる.SVMの場合はCパラメータのチューニングが必要になるのだが,まあ理論的なことは黄色い本でも読んでもらいたい. このCパラメータのチューニングには,ふつうはグリッド探索というやり方が使われる. やってることはとっても単純で, 「ある範囲のCパラメータでどんどん学習とテストを繰り返して,一番いい精度が出ている時のCパラメータがベスト.」
このページを最初にブックマークしてみませんか?
『kensuke-miの日記』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く