2019年12月4日のブックマーク (7件)

  • PDFから「使える」テキストを取り出す(第4回) - golden-luckyの日記

    昨日までで、PDFからテキストを取り出すにあたり、グリフから文字を手に入れるところまでを説明しました。 いや当のことを言うと、まだ全然説明できてないんです。 でも、文字の話ばかりしていても先に進めないので、今日は(可能な場合には)PDFから文字を入手できるものとし、そこからテキストを再構築する話に進みます。 文字については改めて明後日にでも補足記事を書くかも(このシリーズはいちおう今日と明日で終わる予定)。 PDFオペレータを読むとグリフを置く場所がわかる 昨日に引き続き、次のようなテキストセクションで考えます。 グリフから文字の解決は済んでいるということにして、TJオペレータの引数は文字そのものに置き換えました。 BT /F1 12.4811 Tf 125.585 -462.55 Td [(#1)] TJ /F2 13.2657 Tf 19.932 0 Td [(代数的データ型とパター

    PDFから「使える」テキストを取り出す(第4回) - golden-luckyの日記
    koyancya
    koyancya 2019/12/04
    PDF の中身見るやつ、懐かしいな......
  • iTerm2 で `cat /dev/urandom` すると印刷ダイアログが出ることがある - mizdra's blog

    皆さんは /dev/urandom と呼ばれるUnixデバイスをご存知でしょうか. /dev/urandom は一言でいうと擬似乱数を出力する疑似デバイスで, catすると以下のようにランダムなバイト列を逐次的に出力してくれます. 出力するバイトの値域に特に制限は無いため, ターミナルに印字不可能な文字が表示されたりします. 良い具合にバイト列が揃うと漢字が流れてきたり, 異国の文字が流れてきたりと眺めているだけでも結構面白いです. 皆さんも是非お試し下さい. 私は絵文字が流れてきたのを見て大喜びしてました. ところでこの cat /dev/urandom ですが, iTerm2でひたすら動かしていると稀に印刷ダイアログが開くことがあります. 印刷するともれなく異国の文字たちがお出迎えしてくれます 実は cat /dev/urandom しなくても echo コマンドで簡単に再現できます.

    iTerm2 で `cat /dev/urandom` すると印刷ダイアログが出ることがある - mizdra's blog
    koyancya
    koyancya 2019/12/04
  • [速報]「Amazon CodeGuru」発表。機械学習したコンピュータが自動でコードレビュー、問題あるコードや実行の遅い部分などを指摘。AWS re:Invent 2019

    Amazon Web Services(AWS)は、米ラスベガスで開催中の年次イベント「AWS re:Invent 2019」の基調講演で、機械学習を用いて自動的にコンピュータがコードレビューをしてくれる「Amazon CodeGuru」を発表しました。 Amazon CodeGuruのコードレビュー機能は、Amazon自身のこれまでの大量のコードと、GitHubで公開されているポピュラーな1万のオープンソースソフトウェアのコードを基に機械学習のトレーニングを行ったモデルを用いて、対象となるコードを解析。 GitHubやCodeCommitのプルリクエストと連係し、問題があるとされた個所には人間に読める形式でコメントをしてくれるというもの。 並列処理や脆弱性の問題あるコードを指摘 例えばAWSにおけるベストプラクティスのコードから外れているものや、並列処理における問題などの指摘。

    [速報]「Amazon CodeGuru」発表。機械学習したコンピュータが自動でコードレビュー、問題あるコードや実行の遅い部分などを指摘。AWS re:Invent 2019
    koyancya
    koyancya 2019/12/04
  • 現用ボーダールータを(社長が)ふっとばした話

    アーカイブ2022年8月 (1)2022年2月 (1)2021年11月 (1)2021年9月 (1)2021年5月 (1)2021年3月 (1)2021年1月 (1)2020年12月 (1)2020年11月 (2)2020年10月 (3)2020年9月 (1)2020年8月 (3)2020年7月 (1)2020年6月 (2)2020年5月 (4)2020年4月 (2)2020年3月 (2)2020年2月 (1)2020年1月 (1)2019年12月 (4)2019年11月 (3)2019年10月 (5)2019年9月 (4)2019年8月 (5)2019年7月 (6)2019年6月 (7)2019年5月 (7) はっきり覚えていないのだが、たぶん20年前のことだと思う。S・アール・エスとIフォレストが協業を始め、Sくらインターネットができた直後ぐらいの話だ。 土曜日だったか、日曜日だったか

    現用ボーダールータを(社長が)ふっとばした話
    koyancya
    koyancya 2019/12/04
  • BigQuery時代における、分析SQLコーディングスタイルの提唱 - Qiita

    なぜ、分析SQLコーディングスタイルの提唱が必要か コーディング規約は主に「保守性」「品質」を維持するために求められるルールで、その重要性については周知の通りと考えます。 一方で、SQL、特に分析SQLについては、こういった規約の模範の「答え」がまだ出ていないように見受けられます。 例えばJavascriptであれば、GoogleAirBnBなど、うまくいっている会社のコーディング規約の転用が可能です。 しかしながら、分析SQLにはそういった事例の公開が少ないのが現状です。 そこで、BigQueryのstandardsqlを前提とし、コーディング規約の最もわかりやすい部分である「コーディングスタイル」について、記事で提唱します。 記事は、下記の記事を参考にしています。 BigQueryで読みやすいSQLを書くコツ - たったの3つであなたの意図はもっと伝わる。 分析SQLのコーディン

    BigQuery時代における、分析SQLコーディングスタイルの提唱 - Qiita
    koyancya
    koyancya 2019/12/04
    わしは予約語大文字マンなので、息苦しいな......
  • 時間は有限なのでHabitifyを使って能力を高めることで一日を実質48時間にし圧倒的なパフォーマンス向上を実現する - Kentaro Kuribayashi's blog

    記事では、パフォーマンスを高める目的でよい習慣をみにつけるために必要な考え方、ツールを用いた実践について述べる。 良い習慣が限られた時間におけるパフォーマンスを高める 「人間は習慣の生き物である(Humans are creatures of habit)」とは、アメリカのプラグマティズム哲学者であるジョン・デューイの言葉だという。出典にあたって確かめたわけではないので、そのフレーズのいわれている文脈はわからないため誤解している可能性は否めないものの、習慣について語る文章では頻繁に引かれる言葉であるため、多くの人々の心を捉え続けていることは確かだろう。経験的にも、悪い習慣によってこれまで無駄にしてきた様々なことが思い浮かぶし、良い習慣を身につけることが高いパフォーマンスにつながることは普通にありそうなことだ。 また、時間は誰にとっても平等であるみたいなこともよくいわれる。長い目で見れば早

    時間は有限なのでHabitifyを使って能力を高めることで一日を実質48時間にし圧倒的なパフォーマンス向上を実現する - Kentaro Kuribayashi's blog
    koyancya
    koyancya 2019/12/04
    わしも Google カレンダーに「起床」とか「帰宅」みたいな予定を入れてるんだけど、形骸化してしまった。Habitify なら、継続日数が出るからそうはならないのかな......
  • Engadget | Technology News & Reviews

    Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

    Engadget | Technology News & Reviews
    koyancya
    koyancya 2019/12/04
    飛行機の QR 改札、スループット最悪だと思うが...... -> “QRコードをゲート通過に使うのは、航空機の搭乗などでは一般的”