タグ

テキストに関するchaconconのブックマーク (3)

  • 日本語の文章をいい感じに文区切りするライブラリを作った - Qiita

    はじめに 昨今、自然言語処理技術の発展はめざましく、様々な分野で応用が進められています。 そんな私も自然言語処理技術AIを活用した業務をこなすことが多いのですが、その中でとりわけめんどくさい(しかし重要な)作業は、様々な前処理に関するものです。 大抵のタスクで実施することになる主な前処理としては、以下のようなものがあります。 クリーニング HTMLタグや記号等、テキスト中のノイズを除去 正規化(normalization) 全角・半角や大文字・小文字等の統一 文区切り(sentence segmentation) 文と文の区切りを検出し分割 単語分割(tokenization) 文を単語の列に分割 ストップワードの除去 解きたいタスクに不要な単語を除去 私は主にPythonを利用しているのですが、これらの中で日語の文区切りについては適当なライブラリが無く、毎回似たようなコードを書く羽目

    日本語の文章をいい感じに文区切りするライブラリを作った - Qiita
  • もし、HTMLのテキスト周りでデザイナーからこんなお願いをされたら... - Qiita

    HTMLのテキストはPhotoshopのように融通が効かないから、デザイナーからの細かいお願いはだいたい断っている...なんてことありませんか? モダンブラウザは色んなプロパティが対応してきているので、できることも増えています。 今回は、知っているといざというとき便利なテキスト周りのCSSを集めてみました。 「日語、文字詰めできないかな?ほら、このカタカナとかキモい。。」 「Webで文字詰めだと?無理なんだよあきらめな!」なんていう時代はもうとうに過ぎ去っています。OpenTypeのフォントであれば、日語でもちゃんと文字詰めできるんです。 .class { -moz-font-feature-settings: "palt"; -webkit-font-feature-settings: "palt"; font-feature-settings: "palt"; } ↓こんなかんじで

    もし、HTMLのテキスト周りでデザイナーからこんなお願いをされたら... - Qiita
  • アンダーラインと可読性:リンクをどのようにデザインするか?

    Cassandra Naji氏はJustinmindのマーケティングコンテンツ制作者です。Justinmindはあなたのソフトウェアソリューションをコードを書かずに視覚化しテストする為に、ウェブとモバイルアプリのプロトタイプ作成可能にするプロトタイプ製造するツールです。 Webの黎明期から、ハイパーリンクはオンライン上での体験の基礎をなす要素でした。リンクを開くということは、Webを閲覧している人々が最も頻繁に実行する行為のうちの一つであるということが研究で分かっています。 30年以上に渡り、デザイナーたちはリンクの新しいデザインを試してきましたが、今でもアンダーラインが最も広く使われています。青いアンダーラインのハイパーリンクは最も広く理解されているWebでの慣習の一つです。 World Wide Webは文書とリンクから構成される ―Tim Berners-Lee, 1991 一方で、

    アンダーラインと可読性:リンクをどのようにデザインするか?
  • 1