Google は、同社が保有する膨大な公開情報を解析する新しい方法をユーザーが発見するのに役立つ可能性のある 2 つのツールを導入しました。
あるツールは、500年分のデジタル化された書籍の中で、選択したフレーズがどのくらい頻繁に出現するかをカウントし、別のツールは、検索結果を読みやすさのレベルに応じて分類します。
最初のサービスである「Books Ngram Viewer」では、同社の膨大なデジタル書籍コレクション内で特定のフレーズを検索できます。検索結果には、原資料へのリンクに加えて、そのフレーズが最も頻繁に使用された時期を示すタイムラインも表示されます。

このツールは、Googleがデジタル化した520万冊の書籍に含まれる5000億語のデータベースを検索対象としています。サンプル書籍はすべて1500年から2008年の間に出版され、中国語、英語、ドイツ語、フランス語、ロシア語、スペイン語で書かれています。
Googleはこのサービスによって、学術分野に新たな定量分析の形態を導入することを目指しています。関連する単語やフレーズの人気を追跡することで、歴史的な傾向や新しいアイデアの誕生に関する洞察が得られる可能性があります。ある研究者グループは、このアプローチを説明するために「カルチュロミクス(culturomics)」という造語を用いました。
こうした指標は、多くの場合は歴史的な出来事によって、フレーズがどのように流行したり廃れたりするかを示します。
例えば、「第一次世界大戦」というフレーズを検索すると、この用語が第二次世界大戦勃発直前に使われ始めたことがわかります。当然のことながら、「第一次世界大戦」というフレーズの使用頻度は1950年代には減少しました。これは、人々が続編の存在に気づく前の第一次世界大戦の名称です。
Googleは通常の検索機能に新たな分析機能を追加しました。読解レベル別に検索結果を分類できる新しい高度な検索機能です。検索結果は初級、中級、上級の読解レベルに分類されます。
Google では各読解レベルを定義する属性を指定していませんが、ほとんどの読みやすさテストでは、文章が複雑になればなるほど読みにくくなるという前提の下、各文の単語数や各単語の文字数や音節数などの属性を見てテキストを分析します。
あるサンプルでは、IDG サイト InfoWorld の資料の 74 パーセントが中級レベル、21 パーセントが初級レベル、3 パーセントが上級レベルに分類されています。
Googleのドキュメントでは、読解レベルの違いが検索の精度向上に役立つ可能性があると説明されています。大学教授は高度な検索結果のみを求めるかもしれませんが、中学校の教師は生徒向けのより基本的な教材を探したいかもしれません。