[B! テキスト] chaconconのブックマーク

日本語の文章をいい感じに文区切りするライブラリを作った - Qiita

はじめに昨今、自然言語処理技術の発展はめざましく、様々な分野で応用が進められています。そんな私も自然言語処理技術やAIを活用した業務をこなすことが多いのですが、その中でとりわけめんどくさい（しかし重要な）作業は、様々な前処理に関するものです。大抵のタスクで実施することになる主な前処理としては、以下のようなものがあります。クリーニング HTMLタグや記号等、テキスト中のノイズを除去正規化(normalization) 全角・半角や大文字・小文字等の統一文区切り(sentence segmentation) 文と文の区切りを検出し分割単語分割(tokenization) 文を単語の列に分割ストップワードの除去解きたいタスクに不要な単語を除去私は主にPythonを利用しているのですが、これらの中で日本語の文区切りについては適当なライブラリが無く、毎回似たようなコードを書く羽目

chaconcon 2020/05/27

リンク

もし、HTMLのテキスト周りでデザイナーからこんなお願いをされたら... - Qiita

HTMLのテキストはPhotoshopのように融通が効かないから、デザイナーからの細かいお願いはだいたい断っている...なんてことありませんか？モダンブラウザは色んなプロパティが対応してきているので、できることも増えています。今回は、知っているといざというとき便利なテキスト周りのCSSを集めてみました。「日本語、文字詰めできないかな？ほら、このカタカナとかキモい。。」「Webで文字詰めだと？無理なんだよあきらめな！」なんていう時代はもうとうに過ぎ去っています。OpenTypeのフォントであれば、日本語でもちゃんと文字詰めできるんです。 .class { -moz-font-feature-settings: "palt"; -webkit-font-feature-settings: "palt"; font-feature-settings: "palt"; } ↓こんなかんじで

chaconcon 2017/11/21

リンク

アンダーラインと可読性：リンクをどのようにデザインするか？

Cassandra Naji氏はJustinmindのマーケティングコンテンツ制作者です。Justinmindはあなたのソフトウェアソリューションをコードを書かずに視覚化しテストする為に、ウェブとモバイルアプリのプロトタイプ作成可能にするプロトタイプ製造するツールです。 Webの黎明期から、ハイパーリンクはオンライン上での体験の基礎をなす要素でした。リンクを開くということは、Webを閲覧している人々が最も頻繁に実行する行為のうちの一つであるということが研究で分かっています。 30年以上に渡り、デザイナーたちはリンクの新しいデザインを試してきましたが、今でもアンダーラインが最も広く使われています。青いアンダーラインのハイパーリンクは最も広く理解されているWebでの慣習の一つです。 World Wide Webは文書とリンクから構成される　―Tim Berners-Lee, 1991 一方で、

chaconcon 2017/02/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

テキストに関するchaconconのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス