タグ

textに関するsbg3のブックマーク (40)

  • Markdown 記法を他の軽量マークアップ言語と見比べてみた

    以前に書いた Markdown の良さについて考えてみた の中で 整形済みテキスト (pre)、リスト (ul,ol,li)、強調表現 (em)、コード (code) などの表現に関して Markdown は少ない文字列でスッキリ書ける ようになっており、RD、Textile、Pukiwiki、Trac Wiki に比べてプレーンテキストとしては読みやすいです。 と述べましたが、せっかく調べたので各種記法の具体例を列挙し、個人的な感想をば。 目次 記法に関して参考にしたサイト Markdown RD (Ruby) Textile (Redmine) Pukiwiki Trac Wiki まとめ 記法に関して参考にしたサイト Markdown 【日語訳】 RD (Ruby) Textile (Redmine) Pukiwiki Trac Wiki Markdown # Title ## S

    Markdown 記法を他の軽量マークアップ言語と見比べてみた
  • テキストのメリハリをつける方法7つ

    私のデザイン修正で一番多い指示が、「メリハリをつけてください」で、以前はどうすれば良いかわからず困っておりました…。(今も時々わからなくなりますが…) 最近ようやくどうすればメリハリがつくかわかってきたので、その方法をまとめてみました。 「メリハリをつけてください」の修正意図は、目立つべきところが目立っていないので、重要な部分を視覚的にはっきりさせてください、ということだと思います。 例として、以下のような見出しとテキストをもとに考えてみます。 (メリハリをつける場合、サイト全体のバランスをみてつけることが必要ですが、ここではわかりやすくするため、見出しと説明文のみで考えています) (引用:Wikipedia: カメラ http://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%A1%E3%83%A9) 私の場合、メリハリをつけるのは以下7つの方法が多いです。

    テキストのメリハリをつける方法7つ
  • 本を読む 日本語テキストで使われている単語を辞書順にリストアップするワンライナー

    テキストがUTF-8でMeCabがEUC-JP仕様の場合。 $ nkf -e text.txt | mecab -O chasen | grep -v '^EOS$' | nkf -w | sort -f -k 2,2 | cut -f 1 | uniq > wordlist.txt校正とかの補助に。例えば、「Android」と「Anrdoid」、「すべて」と「全て」、「コンピュータ」と「コンピューター」が近くに並ぶ。

  • ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー

    あまり細かいことは気にせずテキスト分類器のRubyライブラリを1コマンドで自動生成する便利ツールを作りました。 いろいろ迷走している間に。 gem install nekoneko_genでインストールできます。 なにをするものなのか、ちょっと分かりにくいので、例で説明します。 2ちゃんねるの投稿からどのスレッドの投稿か判定するライブラリを生成する 例として、2ちゃんねるに投稿されたデータから、投稿(レス)がどのスレッドのレスか判定するライブラリを生成してみます。 準備 まず gem install nekoneko_genでインストールします。 Ruby 1.8.7でも1.9.2でも動きますが1.9.2のほうが5倍くらい速いので1.9.2以降がおすすめです。 環境は、ここではUbuntuを想定しますが、Windowsでも使えます。(WindowsXP, ruby 1.9.3p0で確認)

    ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー
    sbg3
    sbg3 2012/05/31
  • テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜

    中年以降の人生を考えるための5冊 今までずっと、ひたすらラクなことや楽しいことだけをやって生きていきたいと思っていたのだけど、40歳を過ぎた頃から、今までのやり方ではいろいろと行き詰まってくるようになってきました。何をやってもそんなに楽しくない。これからの人生はずっと下り坂が続いてい…

    テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜
  • 高速なテキストの分類分けに·bayon MOONGIFT

    bayonはフォーマットに沿った入力データを高速にクラスタリングするソフトウェアです。 テキストコンテンツは世の中にあふれています。そうしたコンテンツを収集するのは容易ですが、次はうまく分類分けして表示しなければなりません。そこで使えそうなのがbayonです。高速なクラスタリングを実現するソフトウェアです。 インストールします。configure、make、make installで完了です。 ヘルプです。 サンプルのファイルです。左がIDで、それに続く右側が属性となっています。 実行しました。100分割なので全てばらばらに検出されています。 例えば上記例では2つのグループにクラスタリングされています。 3つの場合のクラスタリングです。 中心ベクトルを求める方法です。 bayonは特徴的なキーを自動判別したり、クラスタリングの手法を変更することもできます。デフォルトではRepeated B

    sbg3
    sbg3 2011/12/05
  • GitHub - tcorral/Cutter.js: Truncate HTML code to limit its length by number of words without losing markup.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - tcorral/Cutter.js: Truncate HTML code to limit its length by number of words without losing markup.
  • [Python] 文書の類似度判定プログラムを作ってみたの話 (前編)

    個人的に Python が熱いです。以前にも同じような事を言った気がしますが。多分デジャブです。 Python といえば、アリエルには言わずと知れた Python 界隈の大物が御座しますが。そんな大物の縄張りで、僕のようなチンピラがこれまた安っちい記事を書くのはかなり恐縮ですが。その辺りは気にせず、図太い精神で書いてこうと思います。 Python は、再帰の途中で内部状態を維持しつつ途中結果を返すジェネレータだったり、(mutable ながら)リストに対して map とか filter とか出来ちゃうところで Lisp を感じられる辺り、かなりオモロい言語です。 せっかくだし何か書きたいなという事で、ベクトル空間モデル [1] を使った類似文書検索プログラムを作ってみました。 出来たものだけ見せると、以下のように動作します。 入力文書は標準入力から受け取ってます。4 行目の「国会図書館は…

  • 開発ドキュメントや利用規約の多言語版管理に·春雨 MOONGIFT

    春雨は複数言語を一つのHTMLドキュメント内に記述し、コマンドで各言語HTMLに展開するソフトウェア。 春雨はPerl製のオープンソース・ソフトウェア。Webサイトを多言語展開する際には、国際化処理を行うのが基だ。GetTextのようなライブラリを用いて行われるが、その際には実際の画面とローカライズされる文言とか別で管理されることになる。 生成された日語ドキュメント HTMLCSSによって文書構造とデザインが分かれたのと似ているが、言語が別管理というのは意外と不便に感じることも多い。そこで同一文書内で多言語展開できる春雨を紹介しよう。 春雨はHTMLタグにdata-lang-containerという定義をし、その中で使われるタグにlang=enまたはlang=jaといった要素を追加する。例えばとすれば、その中には日語を記述する。別な言語も並列して書く形だ。一つのHTML内で多言語を

  • About - CLEditor

    CLEditor is an open source jQuery plug-in which provides a lightweight, full featured, cross browser, extensible, WYSIWYG HTML editor that can be easily added into any web site. Live Demo Go ahead, take it for a test drive. Highlight some text and click some buttons. The following demos are a great source for code samples and examples of how to use plug-ins.

  • CSS3が日本語の禁則処理、傍点、縦書きなど対応へ、ドラフト公開

    スタイルシートの新たなWeb標準として現在策定が進められているCSS3に対して、日語に対応した禁則、傍点(圏点)、縦書き仕様などの機能が追加されたドラフトが公開されました。 9月28日にPublickeyで公開した記事「電子書籍フォーマット「EPUB」で縦書きとルビのサポート、来年5月には仕様完成の見通し」では、EPUBでの縦書きやルビ、傍点などの仕様を策定中であることを紹介しましたが、EPUBはXHTMLCSSをベースにした仕様であるため、仕様策定の作業はEPUBとCSSのそれぞれのグループが協力してCSS3に対して機能を追加する方法で行われていました。 これが最終的にCSS3の仕様として策定されれば、Webブラウザ上での禁則処理、傍点、縦書きなどの組み版処理が充実することになります(ルビはまだ作業中ですが)。大げさではなく、世界中のWebブラウザに対して日の日文化に対応した表

    CSS3が日本語の禁則処理、傍点、縦書きなど対応へ、ドラフト公開
  • jQueryによる画像に沿ったテキスト回り込みライブラリ·jQSlickWrap MOONGIFT

    jQSlickWrapはjQueryベース、JavaScript製のオープンソース・ソフトウェア。Webページの中に画像を差し込んで表示することは多々ある。そんなとき、画像が四角であれば回り込みも綺麗に行われるので申し分ない。だが三角の画像や、人物だけの画像の時に四角く回り込んでいるのはあまり格好が良くないだろう。 画像をスムーズに回り込んでいる イラストやシンボルに限定されるかも知れないが、背景が透明のPNG画像を使えば画像の形に合わせた回り込みができるのがjQSlickWrapだ。jQueryベースのソフトウェアで、背景を柔軟に処理して表示が出来るようになっている。 幾つかのサンプルがあるが、画像の枠線に合わせて透明な背景を無視して回り込みをしてくれる。Web上でこのような表現をするのは困難だったので、まるで雑誌のような仕上がりになるはずだ。さらに透明な背景を指定した色に変更することも

    jQueryによる画像に沿ったテキスト回り込みライブラリ·jQSlickWrap MOONGIFT
  • bayonでソフトクラスタリング - mixi engineer blog

    先日ようやくドラクエ9をクリアしたのですが、切ない話が多くて、たまに泣きそうになってしまったfujisawaです。以前ご紹介したデータクラスタリングツールbayonにいくつか機能追加を行いましたので、その中から以下の2つをご紹介させていただきます。 入力データ中の特徴的なキーを自動的に特定して、クラスタリングの精度を向上させる 事前に行ったクラスタリング結果を使用して、各ドキュメントに関連するクラスタを特定する 入力データから特徴的な要素を特定 bayonでは入力データとして、各ドキュメントに対し、その特徴を表すキーとポイントを指定する必要があります。例えば以下の例では、最近べたメニューの名前とその回数を、各ユーザの特徴として指定しています。 fujisawa 卵かけご飯 4 みそ汁 6 ソーメン 3 kimura ステーキ 8 みそ汁 7 寿司 4 ... ここで、実は「みそ汁」は多く

    bayonでソフトクラスタリング - mixi engineer blog
  • 軽量データクラスタリングツールbayon - mixi engineer blog

    逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

    軽量データクラスタリングツールbayon - mixi engineer blog
  • 超便利! ビジネスに役立つ無料ツール: 猫がキュートな癒し系のシンプルメモ帳「CatMemoNote」

    ● こんなところが便利! ファイル単位にすると散らかりがちなメモを1箇所に書き留めておける、シンプルなメモ帳ソフト。重要なメモにはパスワードも設定できる。のかわいいアイコンが印象的。 ● の足跡が点滅する、軽くてシンプルなメモ帳 以前連載で「kamicopi」というスクラップソフトをご紹介した。「kamicopi」は画像やWebページのスクラップが可能で、保存したりファイル名をつけることなくどんどんメモが取れ、箱を使って階層化できるため、資料作成や、下書きに威力を発揮する高機能なソフトだ。 また、メモ機能をもつアプリの代表といえば付箋紙。同じく当コーナーで「メモ箋人」というアプリをご紹介した。デスクトップにメモを付箋紙のように貼り付けられるのだが、アラーム機能やメール送信機能など、多彩な機能を搭載しているのが特徴だ。 いずれもPCで作業中に、手軽にメモをとりたい、情報を保存しておきた

  • 1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

    最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めのです。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • ■ 2 つの文(日本語のもの)の間の類似度を算出するアルゴリズムを紹介してください。

    ■ 2 つの文(日語のもの)の間の類似度を算出するアルゴリズムを紹介してください。

  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

  • DQNネーム(子供の名前@あー勘違い・子供がカワイソ)

    マタニティ・ハイ状態になっている貴方! 奇妙奇天烈・頓珍漢な名前を考えていませんか? 名前は他人に使っていただくものです。将来お子さんが悲しい思いをしないように、今ここで正気を取り戻しましょう!