エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
文字列の ID 化と相互変換を SUFARY を使って行う方法
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
文字列の ID 化と相互変換を SUFARY を使って行う方法
文字列の ID 化と相互変換を SUFARY を使って行う方法 2008-04-10-2 [Programming] 例えば、巨大なコー... 文字列の ID 化と相互変換を SUFARY を使って行う方法 2008-04-10-2 [Programming] 例えば、巨大なコーパスに対して出現する単語の共起情報を計算するときなどに、 (1) 各単語をあらかじめ ID (例えば整数) に変換して、 (2) その ID で内部処理を行い、結果をその ID で出力し、 (3) 出力結果 の ID を元の単語に戻す、 というロジックをよく使う。 機械学習の学習データの feature や、ログデータ分析なんかもこのロジックでやったりする。 SUFARY を用いてこの作業を効率的に行う方法をメモ。 速度よりも省ディスクスペースを優先する人向け。 巨大な単語集合(例えば100万とか1000万とか1億とか)に有効。 小規模なら、ありもののDBやハッシュで良いかと。 まず準備。 各行はキー文字列と付加情報をスペースでつないだもの。 mkary