タグ

2010年11月26日のブックマーク (7件)

  • 自動リンク(AutoLink)や英単語のカタカナ変換、漢字のふりがなをMecabで実現する【NADのカタカナ英語辞書の使用条件について更新】 - [Mi]みたいなもの

    オープンソースの形態素解析エンジンMecab(和布蕪)を導入して、今欲しいあれこれを試すことにしました。 今回は方法論を検討します。 やりたいこと 前回、Yahoo! JapanのWeb APIには「ルビ振り」というテキスト解析がある件という記事を書きました。 Yahoo! JapanのWeb API「ルビ振り」を使って「ふりがな」をつける方法です。 しかし仮に今後「タグ」を付ける方法を検討することを考えると、形態素解析が必要になります。 Yahoo! JapanのWeb APIでも形態素解析は可能ですし、性能も高いようです。 しかし自由度や汎用性の点でMecabに劣ります。何より英単語→カナ読みまではできません (うまく使い分けたいですね。APIは単独で使う分には便利!だし)。 漢字→フリガナ 英単語→カナ読み 自動リンク(AutoLink) タグ これらを実現するため、以下ではMeca

    自動リンク(AutoLink)や英単語のカタカナ変換、漢字のふりがなをMecabで実現する【NADのカタカナ英語辞書の使用条件について更新】 - [Mi]みたいなもの
    niomo9
    niomo9 2010/11/26
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
    niomo9
    niomo9 2010/11/26
  • rubygems の twitter を使って、簡単な bot を作ってみた - やる気のないブログ(A boring diary)

    ふと twitter の bot を作ってみたくなったので作ってみた。そのときのメモ 動作しているもの http://twitter.com/supertimebot 特徴は以下 5 分ごとに現在時刻をポストする bot ローカルで動作させているので、PC の電源を切っているときは動かない bot 入門用に、と思ったものなのでとってもシンプル 方針決め さて bot を作る、とは言ったものの、どう実現すればいいのか。恐らく必要となるものは次だろう twitter にアクセスするソフト ( スクリプト ) そのスクリプトを定期的に自動で実行してくれる環境 1. twitter にアクセスするソフト ( スクリプト ) 以前の記事を参考にスクリプトを用意すれば OK だろう。 2. そのスクリプトを定期的に自動で実行してくれる環境 crontab が使えるサーバがあれば実現できる……のだけれど

    rubygems の twitter を使って、簡単な bot を作ってみた - やる気のないブログ(A boring diary)
  • cron の設定ガイド

    ■はじめに cron とは、ジョブ(スクリプト)を自動実行するためのデーモンプロセスです。そして、Linux システムの管理を行なう場合、ログのローテートや、バックアップなど、定期的に自動実行したいジョブが数多くあります。特に、バックアップなどは、システムへの負荷が大きいため、通常は、ユーザからのアクセスが少ない、深夜や早朝に行なわれます。 このように、定期的に実行されるジョブは、crond というデーモンによって、自動的に行なうように管理することができます。そこで、今回は、cron の設定を行なうために必要なコマンドや、設定ファイルについて説明していきたいと思います。 ■設定手順 このページでは、以下の順番で cronの設定について説明します。 まず、Linuxシステム上で、cron を使用するために、サービスの起動で、サービスの状態を確認し、停止している場合には、サービスを起動します。

    niomo9
    niomo9 2010/11/26
  • crontabの書き方

    crontabの設定方法をすぐに忘れるのでメモ代わりにまとめています。 ※最初にまとめてからかなり時間が経過したので、内容の精査とその間に勉強した項目を追加しました。 crontabを設定する方法 crontabを設定する方法には2通りの方法があるので説明をしていきます。 crontab -e ※コマンドで設定 crontab ファイル ※ファイルを読み込んで設定 「crontab -e」コマンドで設定 「crontab -e」コマンドを実行するとcronを設定する画面が表示されます。 「e」では無く、横にある「r」を誤って指定してしまうと、設定されているcronの内容が削除されてしまうので注意してください。 $ crontab -e 設定を編集する画面が表示されるので、下記のような書式で設定を行います。 00 * * * * /root/disk-space.sh ちなみに、設定している

    crontabの書き方
  • TwitterのbotをOAuthに対応させる - しばそんノート

    Twitterの認証方式について Twitterの認証方式にはOAuthとBasic認証の二通りの仕組みがあります。 Twitter API Wiki / Authentication Basic認証はお手軽なので、世に存在するTwitter APIを利用する一般的なクライアントは、大抵がこちらの方法を使っているのではないかと思います。 ですが、実はこのBasic認証はセキュリティ上の理由から、将来的に非推奨になることが予告されています。 Twitter API Wiki / OAuth FAQ 既にTwitter API Wikiでは「今後作成するクライアントはOAuthを利用することを強く推奨する」と表明されており、それに応じてOAuthを使うクライアントも増えてきています。 …が、現状Basic認証を利用しているクライアントが既に大量に存在していることを考えると、今日明日でBasic

    TwitterのbotをOAuthに対応させる - しばそんノート
  • jugyo.org

    This domain may be for sale!