サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
monsierpixy.hatenadiary.org
CFStringTokenizerはトークン分割に非常に役立つAPIです。 分割される様子を見る限り、結構きちんと形態素解析できていると思います。 (もしかしたら、mecab使っているのかな?まぁ、その辺はよくわからないですが、とりあえずおいておきましょう。) 今回そんなCoreFoundationのCFStringTokenizerで、遊んでみます。 目標 文字列をトークン分割する(わかちがきする) トークン分割された文字列をローマ字表記に変更する すもももももももものうち すもも も もも も もも の うち sumomo mo momo mo momo no uchiって感じの2項目です。 取得できるローマ字表記は、読み用のものではないので、その点はご留意を。 (助詞の『は』や『へ』は、きちんとトークン分割されますが、『ha』『he』と出力されます) この点に関しては、もうちょっと調
このページを最初にブックマークしてみませんか?
『monsierpixy.hatenadiary.org』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く