タグ

ブックマーク / chalow.net (7)

  • 64bit FreeBSD や Mac OS X で SUFARY(2.3.8) をコンパイルする

    64bit FreeBSD や Mac OS X で SUFARY(2.3.8) をコンパイルする 2008-04-10-1 [Tips] 自分用のメモ。 SUFARY を 64bit FreeBSD で configure & make しようとしたら、configure が通らなかったので、試行錯誤してなんとかなった記録。 思い出しながら書いているので不正確かも。 - SUFARY 臨時復旧ページ http://ta2o.net/tools/sufary/ まず、libtool-1.5.22 を入れて、それから下記の手順で。 % tar zxvf sufary-2.3.8.tar.gz % cd sufary-2.3.8 % libtoolize --force % ./configure % make % src/mkary README; src/sass a README 最後の

    64bit FreeBSD や Mac OS X で SUFARY(2.3.8) をコンパイルする
  • 日本語例文検索 JReK を公開!

    語例文検索 JReK を公開! 2008-11-06-1 [Release][Programming] 日語で書かれたウェブページのテキストを巨大な例文集(コーパス) とみなし検索するサイト JReK (ジェイレック)を公開しました。 日語を学んでいる人が、 日語作文する際に役に立つかと思います。 よろしくお願いします。 - 日語例文検索 JReK http://jrek.ta2o.net/ (オシャレでクールで日のイメージがアップしちゃうような カッコいいタイトル画像を募集中です!!!) 英語例文検索 EReK [2007-09-03-1](http://erek.ta2o.net/) の姉妹サイトです。 検索結果の表示方法は、 中心に検索キー、左右にコンテキストを配置する KWIC (KeyWord In Context) です。 ウェブ検索にはYahoo!ウェブサービス

    日本語例文検索 JReK を公開!
  • RSS を読み込んでランダムな文章を生成する

    RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。 って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。 以下、サンプルプログラムと実行例です。 サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

    RSS を読み込んでランダムな文章を生成する
  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
  • 高校の学習指導計画書に「高橋メソッド」と「もんたメソッド」が!

    高校の学習指導計画書に「高橋メソッド」と「もんたメソッド」が! 2007-03-29-3 大庭慎一郎情報。 高校の先生用の資料集に「高橋メソッド」と 「もんたメソッド」が載っている! 「新版 情報A 情報の活用と実践 / 学習指導書 指導計画・資料編」 ■高橋メソッド[2007-03-08-1] ■もんたメソッド[2005-06-01-3]

    高校の学習指導計画書に「高橋メソッド」と「もんたメソッド」が!
  • Googleが大規模日本語データを公開するという話

    Googleが大規模日語データを公開するという話 2007-03-13-1 [NLP] 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 Google: 大規模日語データ公開に関する特別セッション http://www.google.co.jp/events/anlp2007.html グーグル株式会社では、日語の言語処理研究推進のため大規模日語 データの公開を検討しています。つきましては仕様を決定するにあたり、実際 にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺い したく存じます。今回、言語処理学会様の御好意により、下記のとおり データ仕様に関する特別セッションを設けて頂ける事になりました。 日時: 2007年3月20日(火) 18:30 〜 19:00 会場: 龍谷大学 瀬田学舎 言語処理学会

    Googleが大規模日本語データを公開するという話
  • 自分マイニング! - Blogでよく使うフレーズは?

    自分マイニング! - Blogでよく使うフレーズは? 2005-01-18-3 [Blog] このBlogで私がよく使うフレーズを、SUFARYを使ってさくっと 調べてみました。自分マイニングです。 調査対象期間:2000年1月から今朝まで。 100回以上出現し6文字以上の文字列のみリストアップ: 順位出現回数フレーズ1204ということで2116というわけで3116たんだけど、4116インストール5110っています。6104インターネット ということで、1位は「ということで」でした。「わけ」より「こと」が 好きみたい。この結果をふまえると私の典型的な文章はこんな感じかな: ということで、結局インターネットというわけで、なんだったんだけど インストールしちゃっています。 ところで、今回使ったSUFARY は私が学生時代に作っていた 高速文字列検索エンジンです。[2003-09-29-4]や[

    自分マイニング! - Blogでよく使うフレーズは?
  • 1