Latest evidence-based health information
Ipad

ヤフーは機械学習の科学者を支援するために大量の匿名化されたユーザーデータを公開した。

ヤフーは機械学習の科学者を支援するために大量の匿名化されたユーザーデータを公開した。
ヤフーは機械学習の科学者を支援するために大量の匿名化されたユーザーデータを公開した。

機械学習は、自動運転車から画像認識、オンラインレコメンデーションエンジンまで、あらゆるアプリケーションに浸透しつつあります。しかし、GoogleやFacebookのような企業でない限り、機械学習プログラムのテストと検証に必要な膨大な実世界のデータセットを入手するのは困難です。

ヤフーは木曜日、機械学習科学者向けに「史上最大規模」と称するデータセットを公開し、この状況の是正に貢献した。これは、YahooニュースやYahooスポーツなどのニュースストリームにおける匿名化されたユーザーインタラクションのコレクションである。

ヤフーによると、このファイルには1100億件のイベント(ユーザーがニュース記事をクリックした日時やフィード内で何らかのアクションをとった日時の記録)が含まれており、13.5TB(圧縮すると1.5TB)のデータで構成されています。これは、これまで公開された最大のデータセットの10倍以上の大きさだとヤフーは述べています。

ヤフーニュースフィード ヤフー

データはニュースフィード(上の赤枠部分)とのインタラクションから得られる。

「データは機械学習研究の生命線です」と同社は述べている。「しかし、真に大規模なデータセットへのアクセスは、従来、大企業に勤務する機械学習研究者やデータサイエンティストだけが享受できる特権であり、ほとんどの学術研究者には手の届かないものでした。」

機械学習とは、時間の経過とともに「学習」し、問題解決能力を向上させるプログラムの一種を指します。初期の例としてはスパム検出が挙げられますが、機械学習は画像認識、言語翻訳、その他ビジネス用途を含む様々なタスクに利用されています。Googleは最近、機械学習に関する取り組みを「すべて見直す」と述べました。

コンピューター科学者は、機械学習システムを導くためのモデルを作成し、アルゴリズムを記述しますが、それらのモデルをテストして改善するための大規模なデータセットが必要です。

ヤフーのパーソナライゼーション科学研究ディレクター、スジュ・ラジャン氏は、人工的に作られた合成データセットを使うこともできるが、それらは人間がオンラインで示す混乱や予測不可能な行動を反映していないと述べた。

 「現実世界のデータは複雑で、多くの課題を抱えています。そして、人工データセットを作成する際には、必ずしもそうした課題が考慮されているわけではありません」と彼女は述べた。「私の行動を考慮に入れなければ、作成したアルゴリズムはうまく機能しないかもしれません。」

彼女は、科学者たちがこのデータを活用して、NetflixやAmazonのようなより優れたレコメンデーションエンジンを構築することを期待しています。しかし、クラウドプロバイダーがユーザーとのインタラクションに応じてデータ処理方法を決定するのを支援することで、情報検索、ソーシャルフィードランキング、さらにはシステムエンジニアリングといった他の研究分野も推進できる可能性があると彼女は述べています。

ユーザーデータは、非商用利用のための匿名化されたデータセットのライブラリであるYahoo LabsのWebscopeデータ共有プログラムを通じて、木曜日にダウンロード可能になる予定だった。

このデータは、Yahoo!ニュース、スポーツ、金融、映画、不動産の各サービスにおけるユーザーのインタラクションに基づいています。このデータは昨年初めの4ヶ月間に2,000万人のYahoo!ユーザーから収集されました。インタラクションデータに加え、一部のユーザーについては、年齢層や性別などの分類された人口統計情報も含まれています。また、関連ニュース記事のタイトル、要約、キーフレーズも公開しています。

ヤフーによれば、オンラインマーケティング会社クリテオが昨年発表したこれまでの最大のデータセットは1テラバイトで、約40億件のイベントが含まれていたという。

同社によると、その目標は、企業の研究者よりも長期プロジェクトを追求する自由度が高いことが多いものの、それを実行するための現実世界のデータが不足している学術研究者のために、少しでも競争の場を平等にすることだという。

「彼らは、ヤフーで活用できるような方法で問題を解決できるかもしれないし、私たちがまだ考えもしなかったような新たな研究課題を考え出すかもしれない」とラジャン氏は語った。

Otpoo

Health writer and researcher with expertise in evidence-based medicine and healthcare information.