エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Google の日本語解析データ - 傀儡師の館.Python:楽天ブログ
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Google の日本語解析データ - 傀儡師の館.Python:楽天ブログ
2007.11.03 Google の日本語解析データ カテゴリ:ことばの処理 グーグルが大規模な日本語の解析データ... 2007.11.03 Google の日本語解析データ カテゴリ:ことばの処理 グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果 グーグルでは、200億文に上る日本語データを解析したという。含まれている単語は、約2550億個。1~7gramのデータを公開しており、例えば7-gramのデータは11億種類以上にも上る。 Google Japan Blog: 大規模日本語 n-gram データの公開 を読む。 すごいなぁ。特定非営利活動法人 言語資源協会 の GSK2007-C Web日本語Nグラム第1版 で公開されているのね。といっても無料じゃないけど。「抽出対象となった文数は約200億文で、出現頻度20回以上の1~7グラムを収録している。」で DVD-R 6枚の 26GB(gzip で圧縮した状態で)。すごい量だな。ちなみに 個人・非会員42,000円か。んー、個人でも会員