タグ

ブックマーク / chalow.net (13)

  • JSON を行単位にわかりやすく展開してくれるコマンド gron がピンポイントでとても便利

    JSON を行単位にわかりやすく展開してくれるコマンド gron がピンポイントでとても便利 2022-06-13-1 [Programming] コマンドラインでの JSON の操作には jq (軽量JSONパーサ)[2017-10-24-1] を使っています。万能で便利なんですが、奥まったところにある値だけを取りたいときとかちょっと面倒なんですよね。ちらっと値を見たいだけなのにおおげさになっちゃいがち。 ということで、 gron というのを使ってみました。 GitHub - tomnomnom/gron: Make JSON greppable!JSONをgrepしやすくするコマンドラインツールgronの紹介 - Qiitagronでjsonの扱いが楽になった話 – Tower of Engineers あ、これでいいや。 いわゆる「顧客(=私)が当に必要だったもの」だわ。 例えば、

    JSON を行単位にわかりやすく展開してくれるコマンド gron がピンポイントでとても便利
  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • RSS を読み込んでランダムな文章を生成する

    RSS を読み込んでランダムな文章を生成する 2008-09-07-3 [Programming][NLP][IIR][WebAPI] 今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、ちょっとしたハックを紹介。 bigram language model に基づく、ランダム文生成を行います。 って、まあ、単純にある単語の次に現れる単語の分布を用いて、文章を生成していくだけですが。 以下、サンプルプログラムと実行例です。 サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI::Escape; use utf8; binmode STDOUT, ":utf8"; my $appid = "Yaho

    RSS を読み込んでランダムな文章を生成する
  • 第一回集合知シンポジウム(1日目)

    第一回集合知シンポジウム(1日目) 2010-01-25-1 [EventReport][NLP] 1月25、26日開催の第一回集合知シンポジウムの一日目のメモ。 二日目のメモはこちらをどうぞ→[2010-01-26-1] プログラム詳細はこちらをどうぞ: - 研究会 開催プログラム - 2010-01-NLC ■類似した動作や状況を検索するための意味役割及び動詞語義付与システムの構築 竹内孔一・土山 傑・守屋将人・森安祐樹(岡山大) 単単語なら既存のウェブ検索エンジンでいいが、動作・状況を検索するには文章構造を考慮することが必要になる。 そのような集合知解析の基礎となるツールを目指す。 統計的アプローチでは難しいので(細かいところが正しくできない)、言語知識・文法知識を用いたルール規則ベースで行う。 複合名詞内係り受け、慣用句、主動詞、語義付与。 ■Q&Aサイトの「質問−回答」における結

    第一回集合知シンポジウム(1日目)
    bongkura
    bongkura 2010/06/17
  • 第一回集合知シンポジウム(2日目)

    第一回集合知シンポジウム(2日目) 2010-01-26-1 [EventReport][NLP] 1月25、26日開催の第一回集合知シンポジウムの二日目のメモ。 一日目のメモはこちらをどうぞ→[2010-01-25-1] プログラム詳細はこちらをどうぞ: - 研究会 開催プログラム - 2010-01-NLC ■Q&Aサイトに投稿する質問に書くべき情報の特殊さの推定 磯貝直毅・小島正裕・西村 涼・渡辺靖彦・岡田至弘(龍谷大) 質問するにあたって必要な最低限の情報は何か。 「excel について質問するならバージョンとOSも一緒に書くべし」とか。 QAサイトのカテゴリ特有フレーズ抽出で実現。 Yahoo!知恵袋データ使用。 ■Supporting Multilingual Discussion of Wikipedia Translation with the Language Grid

    第一回集合知シンポジウム(2日目)
    bongkura
    bongkura 2010/06/17
  • 「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト

    「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト 2010-01-26-2 [NLP][WebAPI][YahooHacks][Programming] 「第一回集合知シンポジウム」でプレゼンしたのですが、そのときデモしたり言及したりしたURLのリストです。 第一部 ウェブサービス(Web API)の基礎知識 - [を] ウェブサービス(Web API)とは?[2009-12-24-1] - [を] ウェブサービス(Web API)をプログラムから使う[2009-12-26-2] - MECAPI - MeCab Web Service (MeCab API) ttp://mimitako.net/api/mecapi.cgi ttp://yapi.ta2o.net/apis/mecapi.cgi (追記180618: 負荷が厳しいため何年か前から停止中) (追記1

    「ウェブサービスを使ったテキストマイニングとサービス適用」のURLリスト
  • [を]CHALOW Search: cat:IIR

    マルコフ連鎖と形態素解析でランダムな文章を生成する 2023-06-08-1 [Programming][NLP][IIR][WebAPI] 15年前に書いた記事のリニューアル版です。 RSS を読み込んでランダムな文章を生成する[2008-09-07-3] 前回と同様、bigram language model に基づく、ランダム文生成を行います。 ある単語の次に現れる単語の分布を用いて、文章を生成していくだけです。 形態素解析(日語の単語の認識)は、Yahoo!デベロッパーネットワークのテキスト解析 API の日形態素解析 (V2) を使います。 ベースとなるテキストデータは「日国憲法」(nkkp.txt) を使います (ref. [2023-06-07-1])。 プログラム mamarkov-build.pl で、テキストデータ (nkkp.txt) を形態素解析し、「ある単

  • IKEA で買った太陽電池式電気スタンドがとっても良い!

    IKEA で買った太陽電池式電気スタンドがとっても良い! 2009-06-19-2 [Gadget][LifeHacks] IKEAで買った太陽電池式の電気スタンド「SUNNAN」はすごく良いです。 - IKEA | 照明 | テーブルランプ | SUNNAN | ワークランプ 太陽電池式 http://www.ikea.com/jp/ja/catalog/products/00162479 コードレスなので、枕元や卓上などあちこちに楽々移動できます。 ストレスないよ!ストレスフリー! あと、なんだかんだですごく明るい。 周りの灯りがなくてもこれだけで読書できます。 灯りの持続時間は3,4時間くらい。 普段は、昼間部屋にほったらかしにして夜寝る前にちょこっと使う、という使い方で良いかと。 というわけで、IKEA に行く機会のある方はぜひゲットしてみてください。 2490円です。 色はオレン

    IKEA で買った太陽電池式電気スタンドがとっても良い!
    bongkura
    bongkura 2009/06/21
    買いそうになったけど、ダサいんだよね・・
  • Mac OS X で iTunes の音と内蔵マイク経由の声をまぜて Ustream 配信する方法

    Mac OS X で iTunes の音と内蔵マイク経由の声をまぜて Ustream 配信する方法 2008-10-11-4 [Mac][Tips][Software][WebTool] Mac OS X で iTunes などのデスクトップから流れる音と、内蔵マイク経由の声をきれいにミックスして、Ustream で配信する方法のメモ(図入り)。 デスクトップの音だけ配信する方法もこれ系で。 必要なソフト Soundflower と LadioCast。 入手先は下記。 Soundflower http://www.cycling74.com/products/soundflowerLadioCast http://blog.kawauso.com/kawauso/2007/07/053_ladiocast17.html (追記:最新情報はこちらから>http://blog.kawauso

    Mac OS X で iTunes の音と内蔵マイク経由の声をまぜて Ustream 配信する方法
    bongkura
    bongkura 2008/10/13
  • ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」

    ヤフーの日語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」 2008-08-21-1 [WebTool][NLP][Programming][Algorithm] Yahoo!デベロッパーネットワーク(YDN)に 「日語係り受け解析Webサービス」が登場しました。 Yahoo!デベロッパーネットワーク - テキスト解析 - 日語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに?」という方もいると思うので、 以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日語をコンピューターで処理するには、 まず形態素解析というのをやって、 文を形態素(≒単語)単位に分割します。 YDN の「日形態素解析Webサービス」[2007-06-18-1] で試すことができ

    ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
  • 地下鉄大江戸線のここがイヤ!

    地下鉄大江戸線のここがイヤ! 2008-06-06-3 [Life] 東京の地下鉄の中でも、大江戸線に乗るときはちょっと憂になります。 職場は六木で、通勤は日比谷線を使っているので普段は関係ないのですが、会社帰りに新宿方面に出るときには大江戸線を使います。 まず大江戸線の六木駅がすごく深いところにあるのが憂。 地下6,7階くらいの深さでしょうか? エスカレーターにぼーっと乗っていると平気で10分くらいかかります。 で、ホームに出て、来た電車に乗るわけですが、これがやたらと小さいのです。 まず天井が低いです。 吊り広告はまっすぐたらすとみんなの頭にあたるので、(中途半端に)折り畳まれています。 この吊り広告、横から見ると「Y」に見えます(分かりにくいかな)。 普通の地下鉄車両だと「|」なんですけどねえ。 ともかく、この折られた吊り広告を見るたびに、無理矢理押し込められているということ

    地下鉄大江戸線のここがイヤ!
    bongkura
    bongkura 2008/06/07
    同じく大江戸線嫌い
  • Algorithm::Diff で類似文字列検索

    Algorithm::Diff で類似文字列検索 2008-04-22-3 [Algorithm][Programming] Perl のモジュール Algorithm::Diff[2004-12-12-2]を使って、線形時間で類似文字列検索するサンプルプログラム。 まあ、 agrep があればそれでいいんですけどね。 サンプルコード(ads.pl): #!/usr/bin/perl use strict; use warnings; use Algorithm::Diff; use utf8; use Encode; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; my $key = shift; my @seq1 = split(//, decode('utf-8', $key)); while (<

    Algorithm::Diff で類似文字列検索
  • Googleを支える技術

    Googleを支える技術 2008-03-25-1 [BookReview] 献頂きました。ありがとうございます。 そうでなくとも絶対買うですが。 ■西田圭介 / Googleを支える技術 - 巨大システムの内側の世界 結論から言いますと、 Google のバックエンドの技術について 興味のあるITエンジニアや学生で、 英語よりも日語を読むほうがはやい人は必読です。 グーグルについての技術的なトピックが 日語でさくっと読めます。 Google 社員による英語論文やドキュメントを情報源とし、 それらを咀嚼して平易に解説しています。 「情報系の大学3年生程度の予備知識」を前提に 書かれているとのことで、 情報系の基礎的な語彙が分かっていれば、 確かに難解な話はありません。 数式も出てこないです。 内容紹介 第一章は検索の話で、クロール、インデックス、 ランキング、と Google

    Googleを支える技術
  • 1