映画『Winny』公開記念 杉浦隆幸氏、高木浩光氏たちが振り返る「Winnyとは何だったのか」:むしろ「本質的に良くない部分」を問うことが必要(1/3 ページ) それは権力による創造の抑圧だったのか――元IPAセキュリティセンター長、セキュリティ研究者、ユーザー、セキュリティエンジニア、「One Point Wall」開発者たちが、さまざまな立場からWinny事件が残した影響を振り返った。
![映画『Winny』公開記念 杉浦隆幸氏、高木浩光氏たちが振り返る「Winnyとは何だったのか」](https://cdn-ak-scissors.b.st-hatena.com/image/square/9de92d643b436bedc6d56b6d1fa064a258c26814/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fait%2Farticles%2F2304%2F19%2Fcover_news013.jpg)
今回の目的 前回は、青空文庫のWebサイトから梶井基次郎の小説データを取得して、そこから本文のデータを抽出する方法を見ました。今回は、自然言語処理で扱いやすいように分かち書きをするための準備をします。 ところで、自然言語処理とはもちろん私たちが日常的に使っている言葉(ここでは日本語としましょう)をコンピューターに処理させることです。その結果、コンピューターに入力された言葉からは、何らかの情報が取り出されます。何らかの情報とは例えば地名や製品名、ランチの注文かもしれませんし、ユーザーがしたい何かのアクションかもしれません。あるいは、入力された言葉が、全体として肯定的なものなのか、否定的なものなのかを判断するといったことも考えられます。 いずれにせよ、こうした処理を行うには、入力された言葉をさまざまな段階を踏んで解析する必要があるでしょう。 例えば、「くるまでまつ」という文について考えてみます
今回の目的 前回までは画像処理についていろいろと試してきました。今回からは数回に分けて、自然言語処理(Natural Language Processing)について学んでいく予定です。ここ数年、機械学習の世界においてはTransformerやGPT-x、BERTなどなど、さまざまな技術が生み出されて、自然言語処理の分野が活況を呈しています。その適用領域も翻訳、文章の要約、感情分析、チャットボットなどなど、幅広いものです。 そうした中で、取りあえず今回からは青空文庫から著作権の切れた作品を学習データとして、文章生成を行うことを目的として、自然言語処理にまつわるさまざまな要素を学んでいくつもりです。
リスト内包表記を使って、リストを作成する基本と、enumerate関数やzip関数と組み合わせる例、for句をネストしたり内包表記をネストしたりする例を紹介。 # リスト内包表記 squares = [n ** 2 for n in range(5)] print(squares) # [0, 1, 4, 9, 16] # 反復可能オブジェクトから渡される値を使用しない例 from random import randint random_nums = [randint(1, 5) for _ in range(5)] print(random_nums) # [1, 5, 2, 1, 5]など # 'a'~'z'を要素とするリストの作成 chars = [chr(n + ord('a')) for n in range(26)] print(chars) # ['a', 'b',
テレワークはコミュニケーションが不足するって本当かな?:仕事が「つまんない」ままでいいの?(66)(1/4 ページ) 新型コロナウイルス感染症(COVID-19)対策により、対面でのコミュニケーションが難しくなり、在宅勤務やテレワークが広がりを見せています。それに伴い、会社に出勤しているときと異なるオンラインやテキスト中心のコミュニケーションに、難しさを感じていませんか。 在宅勤務が一時的なものなら、それほど気にすることはないのかもしれません。でも、新型コロナウイルス感染症が収束するまでにはもうしばらく時間がかかりそうですし、これだけ在宅勤務やテレワークが普及すると、「コロナ前に戻る」ということはないでしょう。 これからは、オンラインやテキストの「新たなコミュニケーション」を模索していく必要がありそうです。 私はこの数年間、在宅勤務、フルリモートでテレワークをしてきました。また、コミュニケ
# 文字列の定義 s = 'foo' # 文字列リテラルはシングルクオート/ダブルクオートなどで囲む print('s:', s) # 'foo' s = str([0, 1, 2]) # str関数は他のオブジェクトの文字列表現を作成する print('s:', s) # '[0, 1, 2]' # リストの定義 l = ['foo', 'bar'] # リストリテラルは[]で囲む print('l:', l) # ['foo', 'bar'] l = list('foo') # list関数に文字列(反復可能オブジェクト)を渡す print('l:', l) # ['f', 'o', 'o'] # タプルの定義 t = (0, 1, 2) # タプルリテラルは()で囲む print('t:', t) # (0, 1, 2) t = () # 空のタプル print
クラウドコンピューティングは、まず米国で台頭した。2015年以来、米国はIT環境のクラウド化が世界で最も進んでおり、クラウド導入をけん引している。だが、米国に続く国々の導入状況はまちまちだ。2022年には、各国のクラウド導入は米国より1~7年以上遅れそうだ。また、2022年に米国では、IT支出全体の14%がクラウドサービスに投入される見通しだ。 ITプロバイダーやサービスプロバイダーは、国や地域別の市場成長の見通しを踏まえ、世界各地の既存および計画中のハイパースケールデータセンターへの投資に優先順位を付けなければならない。同時に、クラウド支出が増えるように各市場の多様な特性を把握した上で、個々の企業のクラウド導入や活用の意欲を刺激する施策を講じる必要がある。 国別のクラウド支出とその成長に関するGartnerの調査は、クラウドの導入がどの国で速いペースで進んでいるか、どの国で遅れているかを
このサービスは、経済産業省からの3年間にわたる委託を受けて、さくらインターネットが提供するもの。委託期間終了後は同社が自立して運営することになっている。 Tellusでは、どんなデータが提供されるのか 衛星データに関しては、サービス開始時点で利用できるのは、日本の衛星「ASNARO-1」「ALOS(だいち)」「ALOS-2(だいち2号)」の光学データ(「衛星写真」)と、SAR(合成開口レーダー)画像が中心。SAR画像は、植生や地表の状況を把握するために使われる。例えば洪水被害地域を特定し、保険金支払いの迅速化に役立てるといった用途で使われているという。 光学データでは、ASNARO-1のデータ(地上分解能0.5m)、ALOSが搭載する光学センサー「AVNIR-2」のデータ(地上分解能10m)、Landsat-8のデータ(地上分解能15/30m)がある。地上分解能0.5mの光学画像を無償で提
固定回線でも「ギガ不足」におびえる時代が到来か、トラフィック急増により現場で起きている悲劇とは:ものになるモノ、ならないモノ(81)(1/2 ページ) 生活で何げなく使っている定額制の「固定回線」。しかし、さまざまな動画サービスの登場により、爆発的に増えるトラフィックに対して、プロバイダーは「限界が近い」と訴える。その理由とは。 「従量課金に移行しないと、このままではとても立ち行かない」 ある固定回線系プロバイダーの幹部が悲痛な面持ちで筆者に訴えた。 「ここ数年の爆発的なトラフィックの伸びに設備投資が追い付かず、ユーザーからのクレームが増加している」 それは、プロバイダーだけの問題ではなく、NTT東日本・西日本(NTT東西)のフレッツ光にもいえることらしい。ただ、筆者は忘れてはいない。確か10年前にも同じような言葉を聞いた。いや、その前から事あるごとに聞いてきたような気がする。このような「
Gartner、2019年の戦略的テクノロジートレンドのトップ10を発表:自律的なモノ、拡張アナリティクス、AI主導開発、エンパワードエッジなど Gartnerは、「企業や組織が2019年に調査する必要がある」と認定した戦略的テクノロジートレンドのトップ10を発表した。「インテリジェント」「デジタル」「メッシュ」がキーワードだという。 Gartnerは2018年10月15日(米国時間)、「企業や組織が2019年に調査する必要がある」と認定した戦略的テクノロジートレンドのトップ10を発表した。 Gartnerは戦略的テクノロジートレンドを、「テクノロジーが出現したばかりの状態を脱し、幅広く使われて広範な影響を与え始め、大きな破壊的変革をもたらす可能性を持つようになったトレンド」や、「今後5年間で重要な転換点に達する、変動性が高く、急成長しているトレンド」と定義している。 「過去2年間、一貫し
「あるエンジニア、かく語りき2」は、エンジニア参加型メディア「エンジニアライフ」から、@IT自分戦略研究所編集部が独自の視点で選んだ“良”コラムを転載するものです。 市井のエンジニアが人生の節目節目で考えたことをつづる本連載。シーズン1(2013年10月~2014年5月)は、“一介の職業エンジニア”松坂高嗣さんがエンジニアのキャリアを解説した。シーズン2は、複数のエンジニアたちが、エンジニア生活のリアルをお届けする。 なぜ使われないシステムが作られるのか 基幹系システムの開発、導入に携わっていると、理不尽な出来事に遭遇することがままある。 開発したシステムが使われることなくお蔵入りになった案件は何度か経験した。納品後、数年たって「高額な開発費を使ったのにシステムが使われていない」と発注者から呼び出されたこともある。 「動かないコンピュータ問題」などの記事を読むと、類似の事例が多く掲載されて
シマンテックは同社の認証基盤、Symantec Validation and ID Protectionに、スマートフォンを併用したプッシュ認証の機能を追加した。セキュリティと利便性の両立を目指し、パスワード撲滅を狙う。 シマンテックは2014年2月19日、同社の認証サービス「Symantec Validation and ID Protection」(VIP)の新機能として、スマートフォンでプッシュ通知を受け取り、PIN番号/指紋認証で本人認証を行うための新機能「モバイルプッシュ」(VIP Access Push)を発表した。日本における高いセキュリティニーズから生まれた機能で、オンライン商取引だけでなく医療、ATM、電子データ交換(EDI)などの領域での利用を見込んでいる。 モバイルプッシュ対応サイトにてユーザーがIDとパスワードを用いてログインすると、事前登録されたスマートフォン(現
展示会で見たIT業界トレンドその2――機械学習エンジン、ワークスタイル変革:展示会レポート(1/2 ページ) ITベンダ各社が結集したイベントから業界トレンドの一部を紹介。今回は、タブレットデバイスを使ったワークスタイル変革やデータ活用のためのテクノロジを中心に紹介します。 2013年5月8~10日の3日間、リード エグジビジョン主催の展示会「第4回 クラウドコンピューティング EXPO 春」「第18回 データウェアハウス&CRM EXPO」などが開催されている。同イベントは、「Japan IT Week」としていくつかの展示会が同時開催されているため、多領域にわたるソリューションが一度に見られる。本稿ではその1に続き、クラウド関連の企業動向を中心に一部他領域の出展企業についても紹介する。 自社全体がデモ環境に Microsoftブースはかなりの「人だかり」 日本マイクロソフトのブース展示
2013年5月8~10日の3日間、リード エグジビジョン主催の展示会「第4回 クラウドコンピューティング EXPO 春」「第18回 データウェアハウス&CRM EXPO」などが開催されている。同イベントは、「Japan IT Week」としていくつかの展示会が同時開催されているため、多領域にわたるソリューションが一度に見られる。本稿ではクラウド関連の企業動向を中心に一部他領域の出展企業についても紹介する。「展示会で見たIT業界トレンドその2――機械学習エンジン、ワークスタイル変革」と併せて読んでほしい。 バックエンド処理高速化で、データ分析エンジンの価値が高まってきた 日本IBMブースでは、ビジネスアナリティクスやビッグデータ活用の具体例を前面に押し出した展示が注目を集めていた。 日本IBMは多様なアプリケーションを提供しているが、その中でもデータ分析を実施する際に注目されるのが「Cogn
大規模システムの開発を加速、CAがDevOpsに新ソリューション:CA World 2013レポート 少ない予算で、より速くアプリ開発と提供のサイクルを回す――。モバイル端末やソーシャル・ネットワークの普及でB2C、B2Bのインタラクションが増す中、特に決済系などEコマースで利用されているメインフレームを含む基幹システムのアプリ開発のスピードアップが急務となっている。現在、6~12カ月かかっている開発サイクルを数週間、あるいは数日へと加速することは可能だろうか? 2013年4月21日から3日間、CA Technologies主催で米ラスベガスで開催された年次プライベートイベント、CA Worldでは「モバイル」「DevOps」「クラウド」「SaaS」をキーワードに新たに買収もしくは投入されたソリューションの紹介が行われたが、ここでは主にDevOps関連に焦点を当ててレポートをする。 メイン
会社の中に管理していない野良クラウドシステムが横行? これが原因の情報漏えいや、データ消失、リソースのムダが大量に発生していることが調査で示された。 スピードや柔軟性を求めて企業のクラウド移行が進む中、「不正なクラウド」利用や、バックアップと復旧の複雑さ、クラウドストレージの非効率性などに起因するコストも上昇傾向にあるという。2013年1月16日に米Symantecが29カ国の3236組織を対象に昨年実施した調査結果を発表した。 それによると、クラウド利用について少なくとも検討中という組織は90%に上り、前年の75%からさらに増加した。半面、時間とコストの削減を理由に不正クラウドが導入されるケースも多かった。 不正クラウドとは「会社ITインフラの管理下にない、またはITインフラに組み込まれていないパブリッククラウドアプリケーションを事業部門が導入すること」とSymantecは定義。77%の
インテルが、並列処理向けのコプロセッサを発表。x86アーキテクチャによるメニーコアはGPGPUによる並列処理よりも、既存のソフトウェア資産が活用できるという。 インテルは2012年11月12日、コプロセッサ「Xeon Phi」を発表した。2013年1月28日にXeon Phi 5110Pが、2013年上半期中にはさらに3100ファミリーが投入される予定だ。 現時点で、国内メーカーではデル、HP、日立、富士通、NEC、IBM、SGI、クレイがXeon Phi搭載製品の出荷を予定している。 5110Pはピーク時性能として1.011TFLOPSの倍精度演算が可能で、8GB GDDR5メモリを搭載、320Gbpsの帯域幅を持つ。60コア、240スレッドの並列が可能だ。一方の3100ファミリは1TFLOPSの倍精度演算性能、6GB GDDR5メモリを搭載、240Gbpsの帯域幅となっている。 「40
ユーザー同士のつながりを元に時系列に140文字のメッセージを20個ほど表示する――。Twitterのサービスは、文字にしてしまうと実にシンプルだが、背後には非常に大きな技術的チャレンジが横たわっている。つぶやき数は月間10億件を突破、Twitterを流れるメッセージ数は秒間120万にも達し、ユーザー同士のつながりを表すソーシャル・グラフですらメモリに載る量を超えている。途方もないスケールのデータをつないでいるにも関わらず、0.1秒以下でWebページの表示を完了させなければならない。そのために各データストレージは1~5ms程度で応答しなければならない。 Twitterのリスト機能の実装でプロジェクトリーダーを務めたこともあるNick Kallen氏が来日し、2010年4月19日から2日間の予定で開催中の「QCon Tokyo 2010」で基調講演を行った。「Data Architecture
2010/03/15 大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。 nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く