HTML文書からの本文抽出は「句読点(。、.,!?)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり.いや,精度でるんだからいいんだけど.
![Yusuke Nojima on Twitter: "HTML文書からの本文抽出は「句読点(。、.,!?)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり.いや,精度でるんだからいいんだけど."](https://cdn-ak-scissors.b.st-hatena.com/image/square/c1d1dcebd7a05b1eb001babdb14ff278bb4aac66/height=288;version=1;width=512/https%3A%2F%2Fpbs.twimg.com%2Fprofile_images%2F1156565412%2F36076.png)
このドキュメントはサイボウズ社内のトレーニング用に作成したものです。 作成時点では C++11 はまだあまり利用できない状況でしたので、C++98 ベースの記述になっています。 いずれ更新を予定しています。 モダンの定義モダンとはテンプレートメタプログラミング(TMP)を駆使することです。嘘です。 宗教論争に意味はないので、ここでは 「最近の C++ の仕様・機能を理解し、C より実装効率が良く不具合の少ない」 プログラミング技法を「モダン C++ プログラミング」と定義します。 つまり、不具合が少なく、かつ C にはもう戻れなくなるような効率の良さを達成するものです。 学習効率(ROI)が極めて良くないような技法(例えば TMP)は、この定義では除外されます。 勉強方法お勧めの順序は以下。決して全部を読もうとしないこと。 C++ Language Tutorial のような、あっさりした
The POCO C++ Libraries are powerful cross-platform C++ libraries for building network- and internet-based applications that run on desktop, server, mobile, IoT, and embedded systems. Latest Release: 1.13.2 [Changelog] Get Started! The POCO C++ Libraries have been trusted by C++ developers worldwide for 18 years to build challenging and mission-critical applications in a wide variety of industries.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く