[B! プログラミング] astrocyteのブックマーク

astrocyte id:astrocyte

プログラミングに関するastrocyteのブックマーク (15)

http://blog.yuku-t.com/entry/20110623/1308810518
astrocyte 2014/10/30
プログラミング

自然言語処理

テキストマイニング

gensim

LSI

Python

lda
リンク
ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。
ベイジアンフィルターで日本語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。ところが、日本語の場合は、「エアポートの無線ネットワークはどうやって設定しますか？」という文章を、「エアポートの無線ネットワークはどうやって設定しますか？」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。そこで、この高度な作業を
astrocyte 2014/09/14
プログラミング

mecab

ベイジアンフィルタ

形態素解析
リンク
知識ゼロからはじめるiPhoneアプリ開発 - A Day In The Life
iPhone アプリ開発を初めてはや2年。わけわからんレベルからなんとかアプリをリリースするところまでこぎつけました。もともと趣味ではじめた事ですが今は仕事でも iPhone アプリ開発をしています。ここに至るまで自分が調べたことや参考にした文書をアプリの構想からアプリをリリースするまでの手順にそってまとめてみました。 iOSアプリ開発関連の本を書きました初めて iOS アプリ開発をされるかた向けに「プロの力を身につける iPhone/iPadアプリケーション開発の教科書」という本を書きました。この記事を読んで iOS アプリ開発に興味を持たれた方におすすめです(2013年2月26日発売)。2015年1月17日にSwiftに対応した改訂版がでました。本の内容に関する詳しい記事はこちらです。 iOSアプリ開発の本を書きました初期投資 8400円とプライベートな時間、iPhoneまたは
astrocyte 2010/08/04
iphone

プログラミング

objective-c

iphoneアプリ

iPhone開発
リンク
Python基礎文法最速マスター - D++のはまり日誌
↓に便乗してPython版も書いてみました。 Perl基礎文法最速マスター - Perl入門〜サンプルコードによるPerl入門〜 Ruby基礎文法最速マスター - Route 477 PHP基礎文法最速マスター - Shin x blog ほとんど上記の記事と同じような内容で書いたのでPython入門記事としては色々抜けていたりしますがご了承ください。 Pythonは現在3.x系がリリースされていますが本記事では基本的にPython2.6について書きます。参考文献：初めてのPython (asin:4873113938) Python Documentation Index http://www.python.org/doc/ Python 和訳Document http://docs.python.jp/2/ 0. 対話環境として使う対話環境 pythonはそのまま実行すると対話環
astrocyte 2010/01/29
Python

入門

プログラミング

web開発
リンク
知らなかったらNGなWEBアプリケーション脆弱性一覧 : mwSoft blog
先日、AmebaなうがCSRFという非常にポピュラーな脆弱性を披露したかと思ったら、ここ数日はセブンネットショッピングでXSSの脆弱性と、ID推測による他ユーザの個人情報閲覧の問題が発生しているという噂が流れています。ユーザの情報を預かっておきながら、基本的なセキュリティの対策もできていないというのは、銀行に例えるなら、お金を預けようとした時に「お金は預かります。ちゃんと保管します。でも警備はあまりしないので盗まれたらスイマセン」と言われるようなものだと思う。警備に穴があったというのではなく、まともに警備してませんでした、というのはさすがにありえないことです。そこで、野良WEBプログラマである私が知っている脆弱性を列挙してみた。私はプログラマであってセキュリティの専門家ではないです。しかも今年の春辺りからずっと外向けのWEBプログラムは組んでません。その人間が知っているものを並べ
astrocyte 2009/12/17
webサービス

セキュリティ

プログラミング

まとめ
リンク
MySQL InnoDBだけで全文検索 - SH2の日記
実験エントリです。予習してみる「転置インデックス」というキーワードで検索して、しばらく勉強してみます。転置インデックス - Wikipedia mixi Engineers’ Blog » 転置インデックスを実装しよう ASCII.jp：悟空、秘剣「転置インデックス」を手に入れる｜Googleはなぜ的確に探せるのか？ [を] 転置インデックスによる検索システムを作ってみよう！転置インデックスで学ぶ検索エンジンの中身アプリ - 睡眠不足？！うーんなるほど。分かったような分からないような。作ってみるとりあえず、Twitter4Jを使ってこんなデータを用意しました。ちなみに人選は漢(オトコ)のコンピュータ道: MySQLerのTwitterアカウントまとめ。を参考にさせていただきました。 5707049458,2009-11-14 20:28:34,sakaik,@hbstudy
astrocyte 2009/12/07
MySQL

InnoDB

検索

全文検索

プログラミング
リンク
グーグルは“異形”のメーカー。ここが違う10個のポイント
グーグルは世界有数のハードウエアメーカーであり、ソフトウエアメーカーである。1990年代末に他に先駆けて「情報爆発」に直面し、いち早くそれに対応したグーグルのコンピュータは、従来のコンピューティングと比較すると常識外れにすら見える進化を遂げた。グーグルコンピューティングの特異さを10個紹介しよう。（1）自前主義グーグルは売上高を見ると「広告会社」だが、その実態は7000人を超えるエンジニアを抱える世界有数のメーカーである。しかもそのコンピューティングのあり方は、従来型のそれと大きく異なる（図1）。グーグルが“異形”のメーカーなのは、同社がハードもソフトも自前主義を貫いているからだ。使用するサーバーはすべて自社開発だ。一部報道では、グーグルは台数ベースで米デルや米ヒューレット・パッカード（HP）に次ぐ「世界第3位」のサーバーメーカーだという。サーバーだけではない。2007年、大手ネッ
astrocyte 2009/10/20
あとで読む

プログラミング

ビジネス

Google

IT
リンク
プログラマーの開発速度は「はまる」時間の長さで決まる : 小野和俊のブログ
プログラミングを始めてから今日に至るまで、様々なタイプのプログラマーと開発を共にしてきたが、驚くべき速度で高い品質のソフトウェアを作り上げるプログラマーには、一つ共通の特徴があるように思える。それは、「はまる」時間が極端に短い、ということである。風のプログラマー」を指向しており、開発速度を重要視している。例えば平成14年未踏ソフトウェア創造事業「PICSY」では、発表直前に知人でプロジェクトリーダーの鈴木健にレスキュー隊として呼ばれて 2,3日でGUI全般と、クライアント/サーバー通信部分の設計と実装を終わらせたのだが、このときなどは、大体の要件を口頭で聞いた後は、ほぼまったく手が止まらずコードを書き続ける感じで開発をしていた。「はまる」時間の長さは開発速度に直結するわけだが、プログラマーが「はまる」場合にはある程度の傾向があると思うので、今日は「はまる」プログラマ
astrocyte 2009/05/19
読み物

開発

プログラミング
リンク
プログラマは履歴書をどう見るか
本当の見方はこちら上のから読むといい。 How to recognize a good programmer (いいプログラマの見分け方) Another Resume Tip (さらに履歴書のコツについて) - Joel on Software Ten Tips for a Slightly Less Awful Resume (履歴書をもうちょっとマシにするための10のヒント) - Steve Yeggeによるアドバイスで、楽しい読み物。 Getting your resume read (履歴書を読んでもらうには) - Joel on Software
astrocyte 2009/04/01
ネタ

ビジネス

プログラミング

読み物

仕事
リンク
PHPプログラムを解析して何処が重いか？がブラウザ上で簡単に分かる「XHProf」:phpspot開発日誌
PHPプログラムを解析して何処が重いか？がブラウザ上で簡単に分かる「XHProf」 2009年03月25日- XHProf Documentation (Draft) PHPプログラムを解析して何処が重いか？がブラウザ上で簡単に分かる「XHProf」。通常、PHPでのプロファイリングというと、Xdebugでファイルを吐き出して、WinCacheGrindやKCacheGrindで読み込むというのが定番です。ですが、この方法だと、ファイルを吐き出したファイルをGETして、ソフトに読み込ませる、というちょっと面倒な手順が必要でした。 XHProf を使えば、ブラウザ上で、プロファイリングが出来るみたいです。 XHProfの特徴まず、セグメントごとの実行時間やメモリ利用の状況なんかがブラウザで見れます。プログラムの構造を把握するのにも使えます。プロファイリングの階層表示２つのプロファ
astrocyte 2009/03/26
PHP

web開発

tool

プログラミング

パフォーマンス
リンク
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
astrocyte 2008/12/20
あとで読む

プログラミング

プログラム

自然言語処理

資料

検索

検索技術
リンク
良い乱数・悪い乱数
Ｃ言語標準ライブラリの乱数rand( )は質に問題があり、禁止している学会もある。他にも乱数には様々なアルゴリズムがあるが、多くのものが問題を持っている。最も多くの人に使われている乱数であろう Visual Basic の Rnd の質は最低である。そもそも乱数とは乱数とは、本来サイコロを振って出る目から得られるような数を意味する。このような乱数は予測不能なものである。しかし、計算機を使って乱数を発生させた場合、次に出る数は完全に決まっているので、予測不能とはいえない。そこで、計算機で作り出される乱数を疑似乱数(PRNG)と呼び区別することがある。ここでは、特にことわらない限り乱数とは疑似乱数のことを指すとする。計算機でソフト的に乱数を発生させることの最大のメリットは、再現性があることである。初期状態が同じであれば、発生する乱数も全く同じものが得られる。このことは
astrocyte 2008/05/27
プログラミング

乱数

数学

開発
リンク
1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記
最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン
astrocyte 2008/05/15
全文検索

検索

検索エンジン

検索技術

プログラミング
リンク
あなたが一番好きなアルゴリズムを教えてください。また、その理由やどんな点が好きなのかも教えてください。 - 人力検索はてな
あなたが一番好きなアルゴリズムを教えてください。また、その理由やどんな点が好きなのかも教えてください。
astrocyte 2007/11/26
アルゴリズム

プログラミング
リンク
Leopard解体新書--第1回：RubyCocoaでWebページ表示:スペシャル - ZDNet Japan
印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます Leopard登場！その真価は如何に？いよいよ待ちに待ったLeopardことMac OS X 10.5が発売される。Appleによれば、300を超える新機能を引っさげての登場となる。インストールした直後は、新しくなったFinderやDockが目を引くだろう。Time Machineも強烈なインパクトがある。だが最初の驚きが過ぎると、「これだけ？」と感じる方もいるかもしれない。しかし、決してそんなことはない。もともとOSのバージョンアップとは、内部のライブラリやフレームワークを整備して、多くのアプリケーションが活躍する土台を整える事にある。それらが充分に活用されるとき、その真価が発揮されるだろう。とは言っても、せっかく手に入れたL
astrocyte 2007/10/25
おもしろそうだ

Mac OS X

RubyCocoa

Leopard

プログラミング
リンク
1