並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 6 件 / 6件

新着順 人気順

ipadicの検索結果1 - 6 件 / 6件

  • SQLiteでLinderaを使った日本語全文検索 - *iroi*

    これは はてなエンジニアアドベントカレンダー2023 3日目の記事です。 はてなエンジニア Advent Calendar 2023 - Hatena Developer Blog はてなエンジニアのカレンダー | Advent Calendar 2023 - Qiita 昨日は id:pokutuna さんの blog.pokutuna.com でした。私も若い頃に同僚とGitHub上で白熱してしまい観光名所になってしまっていたような気がします。気を付けていきましょう。 さて、この記事では SQLiteでLinderaを使った日本語全文検索をする話を紹介します。 モチベーション laiso.hatenablog.com 上の記事でも話題になっているように個人開発ではDBのコストは問題です。同様に全文検索したいときにもコストに頭を悩ませているのではないでしょうか? たとえば Amazon

      SQLiteでLinderaを使った日本語全文検索 - *iroi*
    • ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します

      こんにちは。iOSの日本語入力アプリである「azooKey」を開発しているMiwaです。 azooKeyは最近macOS版の開発が進んでいます。このazooKey on macOSに、完全にローカルで動作するニューラルかな漢字変換エンジンである「Zenzai」を開発し、搭載します。この記事ではZenzaiの技術を解説します。 Zenzaiを搭載したazooKey on macOSは現在アルファ版としてリリースしています。macOSをご利用の方はぜひ入れて試してみてください! Zenzaiの概要 日本語入力に欠かせないかな漢字変換ですが、その歴史は長く、50年にも及びます。この間様々なアルゴリズムが提案され利用されてきましたが、近年の技術開発はやや落ち着きつつあります。オープンソースのかな漢字変換ソフトウェアで今でも広く利用されているものは数えるほどしかありません。 クローズドソースのシステ

        ニューラルかな漢字変換エンジン「Zenzai」をazooKey on macOSに搭載します
      • MySQLで全文検索機能を使う際のパフォーマンスについて調査してみた - iimon tech blog

        こんにちは、CTOの森です。iimonは今回が初のアドベントカレンダー参加です! 本記事はiimonアドベントカレンダー1日目の記事となります。 はじめに 検証した環境 MySQL/mecabのインストール 大量のデータを入れる 1レコードのINSERTにかかった時間 検索してみる 検索文字列が「出来事」の場合 インデックスなし N-gram(bi-gram) IN NATURAL LANGUAGE MODE IN BOOLEAN MODE MeCab IN NATURAL LANGUAGE MODE IN BOOLEAN MODE 検索文字列が「チューリングはロンドンのリッチモンドに住み」の場合 まとめ 参照したサイト 最後に はじめに 今回はMySQLで全文検索機能を使う際のパフォーマンスについて書こうと思います! 全文検索をちゃんと使うのであればElasticsearchやSolrな

          MySQLで全文検索機能を使う際のパフォーマンスについて調査してみた - iimon tech blog
        • PodcastをWhisperで文字起こしして、BERTで句読点抜きの文章に句読点を付与する(その2) - Qiita

          PodcastをWhisperで文字起こしして、BERTで句読点抜きの文章に句読点を付与する(その2)Pythonpodcastwhisperbert はじめに 前回の記事では、Podcast配信の仕組みを踏まえて、各エピソードの音声ファイルのURLを取得し、Whisperで文字起こしするところまでを書きました。このとき、文字起こしはできたものの、なぜか句読点が入らないという問題がありました。 そこで今回は、句読点のない文章に句読点を入れる方法を取り上げます。先にお伝えしておきますが、私はこの領域には知見が浅く、「句読点の無い文章に句読点を挿入する(BERTによる予測)」の記事を大いに参考にさせていただきました。 こんな方におすすめ 文字起こしをしたものの句読点が入らず困っている あまり詳しくないもののとりあえずBERTを動かしてみたい 句読点付与の成果 先にどのような結果となったのかをお

            PodcastをWhisperで文字起こしして、BERTで句読点抜きの文章に句読点を付与する(その2) - Qiita
          • 楽曲「デュレエ」 | StudioGnu

            コンセプトと設計 初音ミクは、一般のユーザーたちで音楽やイラストを投稿しあうCGM(消費者生成メディア)を基盤に、独自の文化体系を構築し、既存の表現を拡張し、音楽観を変容させてきました。今日では、こうした拡張や変容の影響にある楽曲が、メジャーの主要チャートに多数ランクインするなど、音楽界全体へその存在を強く波及させています。 一方で、特に初音ミクが登場した 2007 年から2010 年代初頭にかけては、そのビジュアル、非人間性、特有の機械音、あるいは当時強く根付いていた「オタク」というワードへの偏見など、様々な要因でミクは広く容認されていたとは言えず、むしろ明確に排斥される状況が存在しました。 例えばこの過渡期に学生だった人々が、「学校でVOCALOID曲が流れ、周りがそれを揶揄する状況」を経験したケースはよく見かけられます。公共性と多様性を象徴する場所で、相容れない拒絶反応との間に立たさ

              楽曲「デュレエ」 | StudioGnu
            • jphrase

              View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery Meta License: MIT License Author: shimajiroxyz Requires: Python >=3.11 jphraseは、日本語のテキストを文節に分割するためのライブラリです。 形態素解析から得られた単語の品詞情報に基づき、ルールベースで文節を決定します。 Basic Usage from jphrase import PhraseSplitter splitter = PhraseSplitter() print(splitter.split_text("今日はよく寝ました")) ['今日は', 'よく', '寝ました'] splitter = Phr

                jphrase
              1