ニューヨーク・タイムズ紙のベストセラーリスト入りした作品は、たまたま売れたわけではないし、市場は一般に言われているほど予測不能ではない。ジャンルにかかわらず、ベストセラーには共通する隠れた特徴がたくさんある。そうした特徴は、私たちがなぜ本を読むのかということについて、新しい考察を与えてくれる。
アルゴリズムを利用すれば、出たばかりの本やこれから出る本がベストセラーのDNAを持っているかどうかを調べることが可能だ。実際、コンピューター・モデルに原稿を読ませて、数千という特徴を調べさせた結果、ヒットする小説には特有のパターンがあることがわかった。
著者たちが作成したモデルを使えば、研究用に集めた本のなかから、80%から90%の確率でベストセラーかどうかを見分けることができる。一例を挙げると、J・K・ローリングの作品がベストセラーになる確率は95%、ジョン・グリシャムは94%、パタースンは99%だった。
なお、著者たちがベストセラーの成功の要因を解き明かしたいと思うのは、金銭的な動機によるものではない。絶滅の危機にさらされている出版業界で、生命力のある新しい原稿を見つけることが、業界の維持、さらには多様化に役立つのではないかと考えているからである。
もちろん、コンピューターは私たちのようには本を読めない。コンピューターにできるのは、インプットされた情報を受け入れ、その情報を文字、コンマ、単語、文、章などに分解して分析することだ。しかしパターン認識にかけては、コンピューターのほうが人間よりもはるかに上である。
その本の特徴を見つけたあと、コンピューターはそれをもとに別のプログラムを使って、潜在的なパターンを分析する。この分析工程では「機械学習」と呼ばれるコンピューターの能力を利用し、類似性を基準に文書を分類する。たとえばメールソフトの場合、スパムメールにはスペルミスや「バイアグラ」などのよく見られる共通の単語があるので、そうした情報をもとにメールを分類している。小説の分類も、このメールのフィルター機能のようなものだ。すでにベストセラーになった本と売れなかった本を大量に用意して、それらをコンピューターに投入し、明確な特徴をもとにふたつに分けるようコンピューターを訓練するのである。
とはいえ、本書はアルゴリズムについての本ではない。本書を読んで、あらためて読み手、あるいは書き手としての自分を振り返ったり、小説の目的や好きな作家、嫌いな作家について思いをめぐらせたり、さらには人間と機械の関係についても考えていただきたい。
小説を構成しているのは、様々な順番で並んだ言葉、すなわち言語のブロックである。これによって人は小説を「体験」する。このブロックの中には名詞が多く含まれており、それらによって小説の作者はトピックを、さらにはテーマを読者に届ける。
著者たちの分析の結果、ベストセラーに共通するジャンルは
3,400冊以上の要約が楽しめる