https://amakan.net/ では書籍のシリーズ判定に日夜取り組んでおり、ここで最近追加された変更を紹介します。 シリーズ判定とは 先にシリーズ判定の課題について説明しておくと、まず書籍タイトルからシリーズ名を抽出したいという問題があります。似たような本の集合を見つけるのは簡単ですが、集合に名前が付けられて、かつルールが明確であることが求められます。そこで、シリーズ名を集合の名前かつ検索キーワードとして利用することでこれを解決します。 また、巻ごとに表記揺れした書籍タイトルからも同じシリーズ名を抽出したいという問題があります。ミスった場合、同じシリーズ名が抽出されず、別のシリーズが作成され、複数のシリーズに分割されてしまうという問題があります。書籍名はバイトが表紙を見ながら手入力しているのではないかという精度なので、大体表記揺れしています。 以前 「Kyoto.なんか #2」とい
こんにちは! 日本語のウェブサイトを作っていると、日本語特有の問題にぶちあたることがありますよね。 その中でも今回着目したいのは、日本語改行問題。最近、この問題を解決するためのライブラリを公開したので、紹介します。 github.com そもそも日本語改行問題とは何か ウェブブラウザで日本語で書かれたウェブサイトを見ていると、ときどき文章が変なところで改行されているのを目にすることがありますよね。 たとえば、こんなかんじ。 「ソリューション」が「ソリューショ」と「ン」に分かれてしまっています。読みにくいですね。 英語では単語がスペースによって区切られますが、日本語や中国語などのアジア圏の言語では単語がスペースで区切られないことが多いです。 そのため、英語では単語の途中で改行されることは通常ありませんが、日本語では単語の途中で改行されることがよくあります。 本文ならともかく、見出しやキャッチ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く