タグ

ブックマーク / www.clear-code.com (14)

  • 事例紹介 - PGroongaで異体字検索をいい感じに! - 2023-11-14 - ククログ

    PGroongaのサポートサービスを担当している堀です。 トピックスでも触れていますが、国文学研究資料館様向けのサポートサービスで、国文学研究資料館様が運用している国書DBの改良を行いました。 どんな問題があって、どんな改良をしたかについては、トピックスに記載のある動画で紹介していますので、そちらを見ていただければと思います。 この記事では、動画で紹介しきれなかった問題点、解決策の詳細について記載します。 問題点の詳細 まずは、問題点からです。 国書DBの問題点は、異体字の検索が遅いことでした。 なぜ遅いかは動画では、「インデックスを使っていないから」と解説しています。 では、なぜインデックスを使っていなかった(使えなかった)のでしょうか? デフォルトのPostgreSQLで素朴に全文検索をする場合、 LIKE 演算子と % を使った中間一致になります。 つまり、 SELECT * FR

    事例紹介 - PGroongaで異体字検索をいい感じに! - 2023-11-14 - ククログ
    mickn
    mickn 2023/12/20
  • ウェブサイトのクリックジャッキング攻撃対策: iframeによる読み込みを防止する方法 - 2023-05-25 - ククログ

    こんにちは。普段使っているウェブサイトやメールなどの仕組みをもっと分かるようになりたい福田です。 このたび、会社のセキュリティ対策の一環として、iframe要素からこのウェブサイトを読み込むことができないようにしました。 私はこういった内容に詳しくないのですが、良い勉強の機会だと思って詳しい人に教えてもらいながらやってみました。 このウェブサイトの公開にはApacheを使っているので、.htaccessファイルを使って設定を行いました。 この記事では、私のようにこういった内容に興味はあるけれど詳しくない、という人向けに今回行った内容を紹介します。 iframeを使ってみる クリックジャッキング攻撃をイメージするためにも、まずはiframeを使ってみましょう。 次のようなhtmlファイルを作成します。 <!DOCTYPE html> <html> <head> <meta charset="

    ウェブサイトのクリックジャッキング攻撃対策: iframeによる読み込みを防止する方法 - 2023-05-25 - ククログ
    mickn
    mickn 2023/11/14
  • メタプログラミングをして割に合うかの判断基準:処理を1箇所に局所化できるか - 2014-01-16 - ククログ

    毎日他の人のコミットをながめる文化で生活していると、理由は浮かばないけど「ん?このコミットはなんか気になる」と感じるようになります。それは、新しいことを知ることができたコミットだったり、真似したくなるようなコードが入っているコミットだったり、なんかまずそうな気がするコミットだったり、様々です。 「ん?」と感じてコミットを見直してみても、何が気になったか自分でもすぐにわからない場合があります。そんなとき、気になったことをコミットした人に伝えるために、コミットへのコメントをまとめ始めます。「コミットした人に伝えるため」というように、他の人に伝えようとすることがポイントです。他の人に伝えるためにまとめようとすると、思いの外なにが気になったかまとまるものです。 今回は、メタプログラミングを使ってコードを整理したコミットで「ん?」と感じたときのことについて紹介します。このおかげで「メタプログラミング

    メタプログラミングをして割に合うかの判断基準:処理を1箇所に局所化できるか - 2014-01-16 - ククログ
    mickn
    mickn 2014/01/17
  • PDFやオフィス文書からテキストを抜き出すツールをテスト公開 - ChupaText 0.5.0 - 2010-11-08 - ククログ

    全文検索エンジンgroongaを囲む夕べ #1 : ATNDの定員が50人から120人に増えましたね。たぶん、何人かはキャンセルするはずなので、今のうちに登録しておくとおそらく参加できるでしょう。興味のある方はお早めに登録してください。 さて、以前、サーバ上でPDFやオフィス文書からテキストを抜き出す方法を紹介しました。これらを使うことにより様々なフォーマットの文書からテキストを抽出し、groongaなどの全文検索エンジンを利用して高速に目的の文書を見つけることができます。例えば、ファイルサーバやデスクトップ上にある文書を検索する用途にも有用です。 しかし、文書のフォーマット毎に抽出方法を変えなければいけないため、実際にテキストを抽出する部分(インデクサーの機能の一部)を作る場合に不便です。文書のフォーマットに依らず、同じ方法でテキストを抽出できると便利ですよね。 ということで、文書のフォ

    PDFやオフィス文書からテキストを抜き出すツールをテスト公開 - ChupaText 0.5.0 - 2010-11-08 - ククログ
    mickn
    mickn 2014/01/08
  • サーバ上でPDFやオフィス文書からテキストを抜き出す方法あれこれ - 2010-08-02 - ククログ

    groongaなどを使って全文検索システムを作るときは、PDFやオフィス文書などからテキスト情報を抜きだして検索用インデックスを作る必要があります。Windowsでテキストを抽出するソフトウェアとしてはxdoc2txtなどがありますが、ここでは、Linuxサーバ上でテキストを抽出する方法を紹介します。 PDF Linux上でPDFを閲覧する場合は、昔はXpdfでしたが、最近はEvinceやOkularの方がよく使われているようです。どちらもPDFの処理にはXpdfからforkしたPopplerというライブラリを使っています。 popplerにはPDFからテキストを抽出するpdftotextというコマンドが付属しているため、それを利用してPDFからテキストを抽出できます。 % pdftotext hello.pdf hello.txt これでhello.pdfのテキスト情報がhello.tx

    サーバ上でPDFやオフィス文書からテキストを抜き出す方法あれこれ - 2010-08-02 - ククログ
    mickn
    mickn 2014/01/08
  • Mac OS X版GTK+の日本語入力対応 その後 - 2013-12-26 - ククログ

    これまでの記事で、数回に渡ってMac OS X版GTK+の日本語入力対応状況について紹介してきました。 Mac OS XのCocoaGTK+で日本語入力を行うためのgtkimmodule(GtkIMCocoa)の開発 GtkIMCocoaの動作状況 Mac OS X版GTK+における日本語入力対応の近況 今回はMac OS X版GTK+の日本語入力関連最後の記事として、その後の状況について紹介します。 GTK+体での対応状況 GTK+2系、GTK+3系いずれについても、山博之氏およびek.kato氏によるimquartzが取り込まれており、最新版では追加パッチ無しで日語が入力できるようになっています。 GTK+2系 GTK+2系はGTK+ 2.24.19でek.kato氏によるimquartzが投入されました。GTK+ 2.24は安定系のブランチですので来はこのような大きな変更が

    Mac OS X版GTK+の日本語入力対応 その後 - 2013-12-26 - ククログ
    mickn
    mickn 2013/12/29
  • 社宅制度による社会保険料と所得税の削減 - 2013-01-30 - ククログ

    はじめに 来年4月の消費税率引き上げを前に、政府では軽減税率の導入や低所得層向けに現金給付する案などが検討されています。しかし、消費税負担額の増加は不可避な状況です。さらに健康保険、厚生年金といった社会保険料もその料率が年々引き上げられており、庶民の負担は増える一方です。 そのような状況において、会社としては社員の負担を軽減したいところです。ただ、給与の引き上げは追加のコストが発生するため容易ではありません。しかし、社宅制度を導入すると、追加のコスト無しに社員の可処分所得を増やすことができます。 以前紹介した退職金共済制度も可処分所得を増やす仕組みではありますが、社員が可処分所得の増加を実感できるのは退職金を受け取った時であり、在職中はメリットを感じられません。しかし、今回紹介する社宅制度は社宅契約時から社員の費用負担を軽減し、さらに毎月の可処分所得が増加することからメリットを感じてもらい

    社宅制度による社会保険料と所得税の削減 - 2013-01-30 - ククログ
    mickn
    mickn 2013/03/18
  • Mac OS XのCocoa版GTK+で日本語入力を行うためのgtkimmodule(GtkIMCocoa)の開発 - 2013-03-14 - ククログ

    株式会社クリアコード > ククログ > Mac OS XのCocoaGTK+で日本語入力を行うためのgtkimmodule(GtkIMCocoa)の開発 Mac OS X1には、Cocoaと呼ばれるネイティブアプリケーション構築のためのAPIがあります。 通常のアプリケーションはこのCocoaを使って実装されていますが、その他にUnix系OSではメジャーなGUIツールキットであるGTK+を使うこともできます。GTK+がMac OS X向けに移植されているので、GTK+で実装されたアプリケーションをMac OS Xでも使うことができるのです。 ただし、現在のMac OS X版GTK+には、日本語入力の点で課題があります。 そこで、Mac OS X版GTK+で日本語入力を行う上での問題点と、その解決のために新たに開発中のGTK+ immodule(GtkIMCocoa)について紹介します。

    Mac OS XのCocoa版GTK+で日本語入力を行うためのgtkimmodule(GtkIMCocoa)の開発 - 2013-03-14 - ククログ
    mickn
    mickn 2013/03/18
  • 取締役就任挨拶 - 2012-09-06 - ククログ

    2012年8月24日に開催した第6回定時株主総会において、新任取締役が一名選任され、9/1付けで就任することとなりました。以下、新任取締役からの挨拶です。 この度、新しく取締役に就任致しました、足永拓郎です。 私は10数年ほど前、自由ソフトウェアによるデスクトップ環境が非技術者にも便利に使える日が来ることを夢見て、自由ソフトウェアの開発活動を開始しました。 最初は、単なる趣味の一つとしての活動でした。 しかしながら、片手間で行うような活動では、できることに限りがあります。 私は、自由ソフトウェアの開発活動を継続していくためには、以下のことが必要だと強く思うようになりました。 自由ソフトウェア開発者が、自由ソフトウェアの開発そのもので生計を立てられる環境を作らなければならない 自由ソフトウェア開発者同士が、身近で支え合える環境を作らなければならない 日人の問題は、日人自身が解決しなければ

    取締役就任挨拶 - 2012-09-06 - ククログ
    mickn
    mickn 2012/09/07
    取締役就任挨拶 - ククログ(2012-09-06)
  • 「パッチ採用」はじめました - 2012-08-20 - ククログ

    クリアコードはプログラミングが好きな人を1名募集していますが、採用にあたって、新しく「パッチ採用」という選考プロセスを用いることにしました。 これまでは、面接と社長とのペアプログラミングで選考していましたが、この選考プロセスではクリアコードも応募者もお互いに十分に判断できる情報を得られませんでした。そのため、新しく「パッチ採用」という選考プロセスを考えました。「パッチ採用」はクリアコードがフリーソフトウェアの開発で学んだことを選考プロセスにも活かせないかということから考えられたクリアコードらしい選考プロセスです。「パッチ採用」の説明は採用情報ページにありますが、現時点のものを転載します。「パッチ情報」は今後も改良していく予定なので最新情報は採用情報ページで確認してください。 それでは「パッチ採用」の説明です。 パッチ採用 クリアコードはフリーソフトウェアを活用してソフトウェアを開発していま

    「パッチ採用」はじめました - 2012-08-20 - ククログ
    mickn
    mickn 2012/08/25
  • logalimacsをリリースしました - 2012-02-13 - ククログ

    2012/2/13にEmacsでlogaling-commandを利用するためのフロントエンドlogalimacsをリリースしました。 logaling-commandとは logaling-commandは翻訳作業に欠かせない訳語の確認や選定をサポートする CUI ツールです。 「対訳用語集」を簡単に作成、編集、検索することができます。 logalimacsとは logalimacsはEmacsからlogalingを利用するためのフロントエンドです。 CUIで対訳用語集を利用するよりもエディタ上でシームレスに対訳用語集を利用できるとより翻訳作業が捗るため、開発に着手しました。 使い方 Emacsを使っていて何らかのドキュメントの翻訳中に英単語を調べる時に、わざわざブラウザに切り替えたくないですよね? そこでlogalimacsの出番です。C-:を押すと、 カーソル位置の単語で対訳用語集を

    logalimacsをリリースしました - 2012-02-13 - ククログ
    mickn
    mickn 2012/02/14
    "logaling-commandは翻訳作業に欠かせない訳語の確認や選定をサポートする CUI ツールです。"
  • 入門GTK+ - 2009-10-14 - ククログ

    注: 脚注がたくさんあります。 そろそろオーム社から入門GTK+が出版されます。最後に日語のGTK+関連書籍が出版されたのが2002年なので、実に7年ぶりです1。 クリアコードにはGTK+に精通している開発者が在籍していたり2、GTK+を利用したソフトウェアに関するサポートを提供していたり3と日GTK+がもっと普及して業務でよりクリアコードの技術力を活かせる機会が増えることを期待しています。 というように期待している入門GTK+ですが、レビュー他で少し参加したため一足早く手元に届いています。興味がある方が購入するかどうかを検討するための材料になるようにGTK+まわりの現状も含めながら紹介します。 概要 入門GTK+ではざっくりまとめると以下を解説しています。 GTK+でよく使われるウィジェットの使い方 ドラッグアンドドロップなどGUIアプリケーションでよく使われる機能の作り方をいくつ

    入門GTK+ - 2009-10-14 - ククログ
    mickn
    mickn 2009/10/15
  • groongaのインデックスを自動更新 - 2009-04-22 - ククログ

    Sennaの後継となる組み込み型全文検索エンジンgroongaでインデックスを自動更新する方法を見つけたので紹介します。 「見つけた」という風に書いているのは、「ドキュメントには書いていないけどソースを見たらやり方がわかった」からです。 groonga Sennaは転置インデックス関連の機能のみを提供していましたが、groonaでは転置インデックスだけではなく、データ管理の機能も提供しています。そのため、DBMSなど他のデータ管理機能を持つソフトウェアと組み合わせなくても、groongaだけでデータ管理と高速な全文検索機能を実現することができます。 groongaはGitHub上で開発されていて、groongaに関するドキュメントやgroongaのAPIのドキュメントもGitHub上にあります。 また、Sennaとgroongaの比較やgroongaデータベースAPIも読んでおくとよいと思

    groongaのインデックスを自動更新 - 2009-04-22 - ククログ
    mickn
    mickn 2009/04/23
  • ククログ - クリアコード

    Groongaのトークナイザーがいっぱいあるけど、どれを使えば良いのか迷っていた阿部です。 特にNgram関連がいっぱいあって迷います。 さらにいうとBigramをしたいときに TokenNgram と TokenBigram のどちらを使えば良いのか迷います。 名前からは両方とも同じ処理ができそうです。 今回はこの疑問点について解説します。 この記事はグルカイ!第58回 の内容をククログとしてまとめました。

    ククログ - クリアコード
    mickn
    mickn 2006/09/10
  • 1