サイボウズ・ラボ サイボウズ・ラボはサイボウズグループの研究開発部門として、次世代の製品・サービスの基盤となる技術を中長期視点で研究開発しています。 新着情報 Cybozu Inside Out | サイボウズエンジニアのブログ try! Swift Tokyo 2024 参加レポート (2024-05-06) QAエンジニアがプロダクトオーナーになってみた話 (2024-04-30) ポジティブな気持ちから変化を起こせるチームを作るために意識していること (2024-04-26) 本番に近い状況でクラスをテストする (2024-04-25) 「ソフトウェアテストをカイゼンする50のアイデア」勉強会を開催したら、 濃い議論ができた話 (2024-04-24) 秋元@サイボウズラボ・プログラマー・ブログ このレイオフは存在しない – 架空のCEOのレイオフメッセージをAI生成 (2023-0
これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・本文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される
プログラムなどで個人情報などのデータを大量に扱ったり、あるいはExcelのお勉強などで大量の偽データが入ったデータが欲しい場合がありますが、そういう際に極めてお役立ちな無料で利用できるネットサービスです。 出力形式はHTML、XML、CSV、タブ区切りテキストの4種類。出力件数は最大5000件まで。それ以外にも名前や電話番号などなど、いろいろなデータをミックスさせることができます。それも適当なランダム値ではなく、日本でよく使われている名字上位1000位までとか、平成16年の年齢別・男女別の未婚率に基づいて性別を出力とか、かなりのこだわりが見えます。 詳細は以下の通り。 なんちゃって個人情報 出力される値はそれぞれ以下のようになっています。 名前: 苗字は日本でよく使われる苗字のうち上位1000位まで(日本人の7割が含まれます)。名前は150種類ほど。 ふりがな: 名前のふりがなを出力 性別
Getting Started R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS. To download R, please choose your preferred CRAN mirror. If you have questions about R like how to download and install the software, or what the license terms are, please read our answers to frequently asked questions before you send
氏名:五十嵐 健夫 所属:東京大学大学院情報理工学系研究科コンピュータ科学専攻 (教授) 住所:〒113-0033 東京都文京区本郷7-3-1 東京大学 理学部7号館 303号室 (地図) 電話:03-5841-4109 (直通) FAX: 03-5841-4105 takeo @ acm.org
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く