タグ

2016年9月12日のブックマーク (3件)

  • Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記

    こんにちは! 日語のウェブサイトを作っていると、日語特有の問題にぶちあたることがありますよね。 その中でも今回着目したいのは、日語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日語改行問題とは何か ウェブブラウザで日語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。 たとえば、こんなかんじ。 「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。 英語では単語がスペースによって区切られますが、日語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。 そのため、英語では単語の途中で改行されることは通常ありませんが、日語では単語の途中で改行されることがよくあります。 文ならともかく、見出しやキャッチ

    Budou - 機械学習を用いた日本語改行問題へのソリューション - ウェブ雑記
    gabuchan
    gabuchan 2016/09/12
    パワフルだ
  • http://2ndidea.com/design/gray-on-web-design/

    gabuchan
    gabuchan 2016/09/12
    深い。こういうのすごくいい。
  • いろいろあって Elastic Cloud がオススメな件 - なんたらノート第三期ベータ

    MySQLのインデックスの代わりにElasticsearchを使おうと思い立っていろいろやってみた結果、Elastic社のホスティングけっこうオススメなんじゃないかってなった話です。これです: www.elastic.co 経緯としては、AWSにのっけたサービス、とりあえずMySQLとRedisだけでやってきた仕組みが、そろそろノーキャッシュ新規クエリ単発で1秒以上かかる場合が出てきたというのがあります。 アプリケーションで決まったパターンの問い合わせだけやってるぶんには、問い合わせのパターン数だけ複合インデックを作ればいいし、負荷分散したければリードレプリカが簡単、ということでほとんどの場合MySQLでいいのですが... MySQLは個別のインデックス勝手に組み合わせてくれない、全パターン定義しないといけない 管理者が使う検索機能のよっては、想定したインデックスにうまくヒットしない条件に

    いろいろあって Elastic Cloud がオススメな件 - なんたらノート第三期ベータ
    gabuchan
    gabuchan 2016/09/12
    参考になりまくる