タグ

programmingに関するSriVidyutのブックマーク (172)

  • ウノウラボ Unoh Labs: mecabのユーザ辞書を追加した時にはまったメモ

    こんにちは satoです。mecabのユーザ辞書を追加したのですが,いろいろはまったので誰かがはまった時のためにメモっておきます。 1)品詞IDの取り方 2)ユーザ辞書の追加方法 3)禁止語句とか独自の要素を付けたい csvファイルの最後に追加すればOK 4)context_id.cpp(88) [it != left_.end()] cannot find LEFT-... ってエラーが出る left-id right-id の文字コードが csvファイルの文字コードと違うのが原因 nkf --utf8とかで文字コードをそろえる 5)CHECK_CLOSE_FALSE(sysdic->isCompatible(*d)) sys.dic と ユーザ辞書の文字コードが違うと出るエラー utf8とUTF8は違うと判定されるのでutf-8と書く 6)追加した辞書に品詞IDが付かない or 65

    SriVidyut
    SriVidyut 2007/09/20
    morph mecab 自然言語 形態素
  • Kazuho@Cybozu Labs: システムコールの最適化

    « Swifty 0.03 を公開しました | メイン | MySQL の高速化プチBK » 2007年09月19日 システムコールの最適化 今朝、会社で「最速のファイルコピー」についての話題が出ていました。そこで、ちょっと気になって、read(2) の呼出のオーバーヘッドがどの程度あるのか、ベンチマークをとってみました。 グラフは、それぞれの環境で、10MBのファイルを1,024回読み込むのにかかった時間を示しています。ファイルの内容は当然メインメモリにキャッシュされているので、実際は、カーネル内のバッファキャッシュからユーザープロセスのバッファへのメモリコピーの速度を測定していることになります。このグラフから、以下のような傾向を読み取ることができます。 (言うまでもないことですが)システムコールのオーバーヘッドは大きい Mac OS X のシステムコールのオーバーヘッドは Linux

  • プログラマ的思考回路が人生を豊かにする?:Geekなぺーじ

    「Response to "Programming Can Ruin Your Life" or The Benefits of Being A Programmer」という面白い記事がありました。 プログラマ的な発想を持つ素晴らしさを説いています。 「プログラマ的思考が人生を駄目にする?」で紹介した「Programming Can Ruin Your Life」に対する反論です。 原文では、プログラマであることの素晴らしさを10の項目で示しています。 以下にそれらを要約してみました。 かなり削ったり意訳しているので、ニュアンスが変わっている部分もあると思います。 是非、原文もご覧下さい。 我々は、潔癖症気味である。 寝る代わりに仕事を選ぶ。 仕事を細かいタスクに分けて作業をすることができる。 我々は、他の人が気がつかない細かい違いに目を向ける事ができる。 我々は、構造に美しさを見出せる。

  • LiveCodingに学ぶプログラミングの三原則 : 404 Blog Not Found

    2007年09月16日04:30 カテゴリArt LiveCodingに学ぶプログラミングの三原則 Mozilla24のLiveCodingの解説をやってきました。参加された方、お疲れさまでした。ほんと楽しかった。 言語もC++ありJavaありJavaScriptありActionScriptありPerlありとまちまちで、Editorもemacsありvimあり秀丸ありとまちまちでしたが、それでも全LiveCoderの共通項がはっきり見えたので、それを書き留めておきます。これらの共通項には私も含まれます。 コピペを恐れるな(don't be afraid to be a copycat) 参加者の一人として、100%フルスクラッチで書いていた人はいませんでした。たいていは関数単位でコピーし、それを適宜書き換えるというやり方をしていました。学校のテストでは反則もいいところですが、大人の世界ではこ

    LiveCodingに学ぶプログラミングの三原則 : 404 Blog Not Found
  • 今の子供達にどうやってプログラミングの楽しさを教えたらいいのか?

    うちはとても貧乏だったというのに、なぜか俺が小学三年生のときに、親父がパソコンを買ってきた。 親父は電気工事屋をやっていたから電気製品が好きだったんだろう。 当時小学六年生だった兄貴も機械いじりが好きだった。 電子ブロックなんてのが家にあった。 とはいえ、二十万円もするパソコンをコンビニでウーロン茶を買うかのように買ってきた親父が、あとでオカンになんて言われたのか、いまとなっては知るよしもない (いや、親父もオカンもまだ生きてるので、聞こうと思えば聞けるが) 。 ともかく、俺が小学三年生の時には家に MZ-2000 というパソコンがあった。 三年生のときはそもそもパソコンとはなにかも知らなかったし、親父も兄貴も壊れものを扱うかのように大事に触るので (実際壊れものだ) 、俺には触らせてもらえなかった。 親父や兄貴の背中越しに見ているだけだった。 当時はパソコン用のソフトなんてのがそこらに売

    今の子供達にどうやってプログラミングの楽しさを教えたらいいのか?
  • はてな伊藤直也氏MIJS講演「プログラマでいること」 : 小野和俊のブログ

    昨日MIJSのコンソーシアム内での技術発表会があり、理事会の方から「参加ベンダーの技術者が集まるイベントなので、技術者に元気を与えられるような人に講演をお願いしたい」という話があったので、はてな伊藤さんに講演をお願いした。 伊藤さんにお願いしようと思ったのは、伊藤さんなら、エンタープライズの世界にウェブの世界の元気な風を吹き込んでくれるのではないかと思ったからだ。 以下、私なりに講演の内容をまとめてみた。 ■「建物の建て方」 つくる対象がどのようなものかで、作り方は当然変わってくる。これは建物もソフトウェアも同じ。1階建ての格好良い小さなロッジを建てるのと、60階建ての安全で高品質な巨大ビルを建てるのとは方法も道具も異なる。ロッジを建てる時にはノコギリを使うが、巨大ビルを建てるにはクレーンを使う。 よくブログの世界でソフトウェアの開発について、ぜんぜん違うことをやっている人が同じ土俵で議論

    はてな伊藤直也氏MIJS講演「プログラマでいること」 : 小野和俊のブログ
  • オブジェクト指向再入門/オブジェクトに仕事をさせる、ということ

    関数に仕事をさせる、ということ あるまとまった処理があるとき、それを「関数」(サブルーチン)にするのは、 ド素人を除き、プログラマなら誰でも日常的にやっていることでしょう。 たとえばC言語では、「文字列を数値に変換する」という関数があります。 「文字列」と「数値」はCでは全く違う型であり、 「"123"」という文字列はそのままでは「123」という数値として 扱うことはできません。 「文字列を数値に変換する」は、自力でも書こうと思えば書けますが、 まともなプログラマならatoi()などのライブラリ関数を使うことでしょう ※1。 int a; char str[] ="123"; a = atoi(str); もし、ライブラリ関数にatoi()相当の関数がなかったとしたら、 きっと自分で同様の関数を作るはずです。 ライブラリ関数を使うにせよ自分で同等の関数を書くにせよ、 ある程度まとまった処理

  • よい子のC++(オブジェクト指向完全理解)

    �褤�ҤΣáܡܡʥ��֥������Ȼظ������ mokuji.txt,�ܼ� �ڤϤ���ˡۡ������������������������������������� intro.txt ��. �áܡܤȤ� 1-1. ���ʬ����ʤ��Ѹ���ڤ롡������������������ abst.txt 1-2. �áܡܤ�����˸�����װ��������������������� abst.txt 1-3. ����ʸ�������������������������������������� abst.txt 1-4. �áܡܤȤ��δ�Ϣ�Ѹ졡���������������������� abst.txt 1-5. ����ѥ�����󥯤���ˡ�������������������� abst.txt 1-6. �Σɣȥ��饹���饤�֥�ꡡ����������

  • 文字コード最新リンク集2005

    正規表現/文字コード最新リンク2005 [3000URL最新人気リンク発表][お報せ][開発管理運営者][サイトマップ] ★リンク追加希望はホムペ紹介掲示板へ | 文字主体の高速表示リンク集 | 紹介文付き ■:最近行ってない | ■:最近行った | ●リンク切れ最終チェック:2003/10/26 NEWSだ!(^o^)/ : 台風 - 地図検索 Start is Hello world : HSP - C - Borland - VB - DLL&OCX - Web開発 - DB - 正規表現 コミュニティ : 掲示板 - 市場 - 出会い  トレンド : そよ風くん(風力発電機) メモ帳(M)あります : 小説 - 料理 - 占い - ? - 辞書&文例 - HARD - SOFT - 政 - 名スレ ◆文字コード表 ◆日はjp ◆Unicode時代のWeb開発 ◆Un

    SriVidyut
    SriVidyut 2007/09/15
    charset 文字コード
  • http://adlib.rsch.tuis.ac.jp/~akira/lect/softa/ascii.html

    SriVidyut
    SriVidyut 2007/09/15
    charset 文字コード
  • Saqoosha :: YouTube の FLV を抜き出すのが簡単になっている件

    タケシが PHP やらでごにょごにょやっているとかゆっていたので、簡単に取得できる方法を書いとく。 どうやらすでに内部的にも Google とくっついているようで。これまでだとスクレイピングしないとわからなかった FLV のありかが、クライアントサイドだけでわかるようになっております。 http://www.youtube.com/watch?v=2yDSbFe62E4 こんな YouTube の URL があります。これの FLV のありかは、 http://cache.googlevideo.com/get_video?video_id=2yDSbFe62E4 ↑ココです。カンターン。 ・・・ あともうひとつ。外部 FLV で遊ぶときの tips。 ふつう。スクレイピングとかしてひっぱってきた外部 FLV とか、ストリーミングサーバーに置いてあって別のサブドメインとかになっているムービ

    Saqoosha :: YouTube の FLV を抜き出すのが簡単になっている件
  • マシン語ってどんな感じか知りたくなった方へ - shi3zの日記

    SriVidyut
    SriVidyut 2007/09/13
    assembler,分類例,理解 / マシン語は難しそうですが、hackerとかスキルドな人となるには不可欠な要素資質なのでしょう
  • Unicode の文字列をソースコードに埋め込む方法 - bkブログ

    Unicode の文字列をソースコードに埋め込む方法 Unicode の文字列をソースコードに埋め込む場合、直接 UTF-8 などで文字列を書く方法と、\uXXXX などのようにエスケープして表記する方法があります。後者の方法についてまとめてみました。 \uXXXX 形式の場合 Java, JavaScript, Python, C++, C (C99から) などの多くの言語では \uXXXX という表記 (universal character names) でUnicode の文字を文字列の中に埋め込めます。たとえば、「あいう」は "\u3042\u3044\u3046" となります。 \uXXXX で埋め込んだ文字がどのように解釈されるかは言語や処理系によって異なります。 gcc/g++ の場合、 -fexec-charset オプションで、実際に使う文字セット・エンコーディングを指

    SriVidyut
    SriVidyut 2007/09/10
    UTF-8,charset encoding,文字コード
  • 特集:prototype.jsを読み解く|gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    特集:prototype.jsを読み解く|gihyo.jp
  • prototype.jsを読み解く:第1回 Prototypeライブラリ(1〜197行目)|gihyo.jp

    他のライブラリや、自分のコードと共存させるときは、これらの名前と衝突しないように気をつける必要があります。同じ名前を使ってしまうと、コードがロードされた順番によって挙動が変わる、というようなわかりにくい問題が発生してしまう場合が出てきます。 オブジェクト、クラスの使われ方 ライブラリ内では、上記の名前空間は大きく分けて以下のような使われ形をしています。 その下に別のオブジェクトを入れるための親名前空間として使う Class.create()を使って Prototypeライブラリ風のクラスとして定義する Object.extend()を使って他のクラス、オブジェクトから継承されることを前提とする関数を集める コードを簡潔に記述する為に短い名前の関数として使う 特に、Object.extend()を使って継承を実現している箇所が多く、最終的にどのオブジェクト・クラスにどのメソッドが定義されてい

    prototype.jsを読み解く:第1回 Prototypeライブラリ(1〜197行目)|gihyo.jp
  • htmlの中で特殊記号を表示させる呪文 | 5号館を出て

    語(英語かも?)で紹介していたソースを忘れてしまったのですが、htmlの中で特殊記号を使うおまじないを紹介しているサイトがあります。 HTML/XHTML Character Entitiesに出ている表の中に示されている&で始まる文字列を書くと、特殊記号に変換されます。便利そうなので転載しておきます。おまじないの文字をそのまま書くと変換されてしまうので、ここでは特殊記号のうしろに書いた「おまじない文字列」では、&の後に半角スペースを挿入してありますので、使う時にはそれを削除して使ってください。 たとえば、最初のカギ模様(なんと呼ぶのかわかりません^^;)を出すには、&の後のスペースを削除して「& #1168」と書くと、「Ґ」と表示されます。 とりあえず©や÷、&euro、¼、&ge、&infin、&isin、&ne、&permil、&prop、®、&sub、&subeあたりが役に立ち

    htmlの中で特殊記号を表示させる呪文 | 5号館を出て
  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

    SriVidyut
    SriVidyut 2007/08/15
    programming
  • developer0000.jp

    SriVidyut
    SriVidyut 2007/08/15
    programming
  • スクレイピングはもっと簡単にならなければいけない - bits and bytes

    スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。 そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた Dapper: The Data Mapper は、そんな退屈な常識をモダーンなajaxでもって吹き飛ばした。もしDapperがどんなのなのか知らなかったら、ちょっと長くてはじめ退屈なんだけど デモムービー を見てみてください。 Dapperが教えてくれたことは、スクレイピングなんて、欲し

    SriVidyut
    SriVidyut 2007/08/15
    programming
  • phpによるスクレイピング処理入門:7. 例2.為替レートを取得してみる

    今回は、為替レートをスクレイピングにより取得してみましょう。といっても、実際は為替レートが表示されているHTMLファイルをスクレイピングし、該当箇所を抜き出すだけなので、基は殆ど同じです。 今回利用するサイトはひまわり証券株式会社 ブログパーツ FXレートウォッチャーです。元がブログパーツなので、取得するHTMLファイルの容量も少なくてよさそうなので、今回は、このサイトを利用してみます。 上記のサイトでは、<IFRAME>タグを利用して、パーツを表示するタイプです。なので、<IFRAME>タグのsrcのアトリビュートで指定されている、 を対象にしてみます。 サンプルソースを見ながら解説を進めます。 rate.php proxy.php ではプログラムを見てみましょう。 前回のはてなフォトライフではスクレイピング対象となるHTMLファイルを動的に変化させましたが、今回は固定ですね。3行目の