タグ

textに関するterurouのブックマーク (15)

  • C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ

    C#(.NET Framework)に限ったことではありませんが、汎用的にテキストファイルを扱うようなアプリケーションを作っていると、よく 特定の文字コードのファイルしか読み出せないのでは困る ⇒文字コードを自動判別し、テキストの内容を取り出したい 読み出したファイルと同じ文字コードでファイルを書き出したい ⇒読み出したファイルの文字コードを知りたい といった場面に出くわします。 ですが、C#(.NET Framework)標準のライブラリではそのような機能は提供されていないため、文字コードを判定するには、 自前で文字コード判定のロジックを実装する 出来合いの外部ライブラリ、Windows版NKF32.dll、ICU4Cなどを利用する IE用の文字コード判別ライブラリ(mlang.dll)を利用する ※COMコンポーネント呼び出し要 のいずれかの方法を取ることになります。 HNXgrepと

    C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ
  • Quill - Your powerful, rich text editor

    Built for DevelopersGranular access to the editor's content, changes and events through a simple API. Works consistently and deterministically with JSON as both input and output. Cross PlatformSupports all modern browsers on desktops, tablets and phones. Experience the same consistent behavior and produced HTML across platforms. Fits Like a GloveUsed in small projects and giant Fortune 500s alike.

    Quill - Your powerful, rich text editor
    terurou
    terurou 2014/05/09
    Salesforceが作ってるとの事
  • Textillate.js

    About Textillate.js combines some awesome libraries to provide a ease-to-use plugin for applying CSS3 animations to any text. Usage Simply include textillate.js and it's dependencies in your project to start creating unqiue effects. Credits Textillate.js is built on top of the simple, yet amazingly powerful animate.css and lettering.js libraries.

  • GitHub - shogo4405/KanaXS: ひらがな⇔カタカナ。全角英数字⇔半角英数字。全角カタカナ⇔半角カタカナ相互変換ライブラリーのJS、AS3、JavaScript版

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - shogo4405/KanaXS: ひらがな⇔カタカナ。全角英数字⇔半角英数字。全角カタカナ⇔半角カタカナ相互変換ライブラリーのJS、AS3、JavaScript版
  • Devas - namespace gimite

    ダウンロード † Devasをダウンロード (Ver.3.5, ZIP形式) Windows 2000/XP用にはインストーラもあります。 バージョン情報などで3.5βと表示されますが、安定版です。 ソースコード (Ver.3.4) 開発者向け。Devasの動作には不要です。 ※Devasは開発を終了しました。今後のバージョンアップはありません。現在のバージョンを使うのは問題ありません。 ↑ フォルダ内のファイルを一括して検索(grep)、置換できます。 ヒットした箇所の前後を一覧で確認しながら、必要なものだけ置換できます。 ヒットした箇所を内蔵エディタ/外部エディタ(秀丸など)で表示して確認できます。 ワード検索や正規表現検索が可能です。正規表現で検索した場合は、置換文字列に\1, \2などの前方参照が使えます。 日語の文字コードを自動判別。Shift-JIS、Unicode、EUC_

    terurou
    terurou 2010/03/23
    テキスト検索/置換
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • テキストエディタ用バッファの各種データ構造とその評価 (2)

    vector類をvector類で管理する組み合わせについて、考察とパフォーマンス測定を行う。 測定項目は以下の項目とする。 バッファ構築時間 シーケンシャルアクセス+1文字削除時間・使用メモリ量 シーケンシャルアクセス+1文字挿入時間・使用メモリ量 vector<shared_ptr<array<char>>> 最も基的な組み合わせ。 STL には array が無いので、reserve であらかじめ領域を確保しサイズを固定にした vector<char> を代わりに用いる。 array のサイズは 32KB としてみる。array サイズを変えた場合の計測は余裕があれば行う。 文字データが array サイズ以上になった場合、可能なら前後の array に送る。そうでない場合は新たに array を作成する。 編集コストおよびブロック分割時コストは、ブロックサイズを B とすれば O(

    terurou
    terurou 2010/02/15
    オンメモリに全て展開出来る場合はGapBuffer、メモリに格納できない場合はPieceTable
  • テキストエディタ用バッファの各種データ構造とその評価

    概要 テキストエディタのためのバッファの各種データ構造について述べ、 それらを筆者がC++で STLに準じたインタフェースを持つテンプレートクラスとして実装したものについて、 パフォーマンス(処理速度、使用メモリ量)計測を行った結果を報告する。 筆者が実際にテキストエディタを実装する場合にどのデータ構造がよいか、という視点で評価を行う。 目次: はじめに バッファに要求される機能・性能 バッファクラスのインタフェース パフォーマンス計測 各種データ構造 gap_vector<wchar_t> VS. list<wstring> gap_vector<wstring> 終わりに 参考文献 はじめに テキストエディタは、簡単に言うと、シーケンシャルなテキスト情報を保持し、ユーザの指示により内容を表示、修正するプログラムである。 上図のような構造はオブジェクト指向な設計と親和性が高い。 テキスト

  • w.l.o.g. ギャップバッファ

    04:40 04/06/04 ピーステーブル PieceTable とも言う。文字列の Piece(小片)を繋げて、 一つの巨大な文書を表現する方式。 検索すると引っかかる文書のほとんどが AbiWord 関係なので、 このワープロソフトの主要な内部データ構造ということなのかな。 他に、MS-WordやOpenOffice.org関連の文書にも登場していて、 基的に単なるテキストエディタよりは、文字に付加情報をくっつける系の 編集ソフトに使われる場面が今のところ多いみたいです。 余談ですがAbiWordは、綱渡り的にですがBeOS版の開発が続いている貴重なワープロソフトなのです。感謝感謝。 概要 ファイルを読み込んだとしましょう。ABCDEFG、という7文字のファイル。 とりあえず、7文字分のOrigという名前のバッファを用意して、そこに格納します。 それと別に、Addという名前の空のバ

    terurou
    terurou 2010/02/15
    PieceTableの基本構造解説
  • 論文読み Charles Crowley. Data Structures for Text Sqeuences. 1998 - 言語ゲーム

    http://ned.rubyforge.org/doc/crowley98data.ps.gz 他に面白いリンクがここに一杯ある。 http://ned.rubyforge.org/ 結論 テキストエディタのデータ構造としては、piece table method が一番良い。 感想 今更テキストエディタを自分で作りたいという変わった人は読んだ方が良いです。この論文では、テキストをメモリやディスクでどのように保持するかという問題を、挿入、削除、位置特定の速度という観点から調べています。 位置特定とは、文を前から数えてどの位置にどの文字があるか調べるという問題ですが、ある位置を調べた後、次に調べたくなるのは前回調べた位置のすぐそばである可能性が高いという前提に立っています。 表示、例えばテキスト回り込みやプロポーショナルフォントの問題には触れていません。 UTF-8 のような可変長エンコー

    論文読み Charles Crowley. Data Structures for Text Sqeuences. 1998 - 言語ゲーム
  • テキストエディタコントロール

    テキストエディタコントロール Last Updated 2009/05/17 .Net Framework 標準の TextBox コントロールは元来 1 行テキストの編集を目的として作られていることもあって、テキストエディタとしては役不足です。RichTextBox コントロールをテキストエディタとして使うには自由性がなさすぎます。また、改行コードを表示しない点は大いに減点ものです。タイプライタの歴史が長いアメリカ人は気にならないのでしょうが、私はすごく気になります。そこで、.Net Framework 対応のテキストエディタコントロールを探していますがありませんね。いえ、あるにはあるのですが、どうもピッタリきません。市販のコントロールがあればそれでもいいと思っていますが、日語対応のものはありません。ニーズがないのでしょうか。 なければ作るが私の理念ですから、私はテキスト

  • HTTPプロトコルパーサのオーバーヘッドは18%以下という話 - kazuhoのメモ置き場

    「テキストプロトコルは遅くないよ」という話 - kazuhoのメモ置き場に関するの具体的な話。 Kazuho@Cybozu Labs: 「サーバ書くなら epoll 使うべき」は、今でも正しいのかを書く際に自作したベンチマークツールがあるのですが、それを使ったベンチマーク結果をid:tokuhiromがhttp://d.hatena.ne.jp/tokuhirom/20091001/1254355956にまとめてくれている*1。それについて、ちょっと補足と実測値を。 まず、コメントにも書いたんだけど、サーバのスループットを測る際にはTCP接続を多重化する必要があるので、-a 100 -n 100 -f *2のようなオプションでベンチマークをとってください。あと、ローカルホスト上での測定か、ホスト間での測定か、によっても当然結果は変わる。 自分の環境 (linux 2.6.18-028sta

    HTTPプロトコルパーサのオーバーヘッドは18%以下という話 - kazuhoのメモ置き場
  • 起動は2秒、ATOK、パンタグラフキー搭載--キングジム、デジタルメモ「ポメラ」発表

    ポメラは、文庫サイズ(幅145mm×奥行き100mm×高さ30mm)の体に、折りたたみ式のキーボードと4インチのハイコントラストTFT液晶(640×480)を装備している。バックライトはついていない。重さは約370g(乾電池別)。 キーボードはパンタグラフ式で、キーピッチは約17mm。ATOKを搭載するなど“文字入力のしやすさ”にこだわったツールとなっている。ATOKは、入力操作をMS-IMEスタイルにもできる。辞書学習機能もあり辞書登録もできるが、PCですでに使っている辞書ツールの連携はできない。駆動時間は、単4乾電池2で約20時間。 作成したデータはテキスト形式(.txt)で保存される。内蔵メモリは128Kバイトで1ファイルあたり約8000字のファイルを6ファイルまで保存できる。micro SDにも保存できるが、1ファイルあたり8000字の制限は変わらないという。文字制限について

    起動は2秒、ATOK、パンタグラフキー搭載--キングジム、デジタルメモ「ポメラ」発表
    terurou
    terurou 2008/10/21
    「1ファイルあたり8000字の制限」「技術的な問題はないが、・・・それぐらいあればよいのではないかと思った」 そんな制限をつけるセンスはどうかしてる
  • 文字コード変換ツール「KanjiTranslator」(フリーソフト)

    文字コード変換ツール「KanjiTranslator 1.6」 ツール概要 このツールは、大量のファイルの文字コード(及び改行コード)を一括して変換するツールです。 フリーソフトウェア・無保証です。 個人の方だけでなく、営利/非営利問わずどのような団体・機関でも無料でご利用頂けます。 対応している文字コードは、ShiftJIS, ISO-2022-JP, EUC-JP, UTF-8(日語のみ)です。 テキストエディタ Crescent Eveの文字コードエンジンにより、 変換元の文字コードは高精度で自動認識します。 ファイルを直接置き換える為、必ず事前にバックアップを行ってください。 変換エラーとなった場合、エラー理由が表示され、元のファイルがそのまま残されます。 (変換エラーとなる原因は「画像等のバイナリファイルを変換対象とした場合」もしくは 「対応していない文字コードだった」のどちら

    terurou
    terurou 2008/10/08
    判定率とか使い勝手とか、なんだかんだでこれが一番使いやすいんだよなぁ…。
  • CodeRepos に nobjdb.js 追加 - 最速チュパカブラ研究会

    http://coderepos.org/share/browser/lang/javascript/nobjdb CodeReposに「nobjdb.js」というファイルを追加しました。これは、「syobocalplus」のタイトル検索のルーチンを抜き出し、ライブラリ化したものです。 オブジェクトの集合の中から、文字列検索の結果によって部分集合を抜いてくる処理…… と言うとわかりにくいですが、要するに 購読しているフィードのリストの中をタイトルで検索する(例: LDR) タグクラウドの絞り込み検索(例: はてブ) などという処理です。これを素朴に実装すると for (var i in list) if (list[i].name.indexOf(keyword) >= 0) { // マッチ! } という感じですが、nobjdb.jsでは、ひとつの文字列にタイトルをすべて突っ込んで、 タ

    CodeRepos に nobjdb.js 追加 - 最速チュパカブラ研究会
  • 1