映画レビューのスコアには根本的な欠陥がある


Rotten Tomatoes と Metacritic は、映画の良さを判断する際の最初の目的地となっています。私は最近まで、各サイトがどのようにしてレビュースコアを算出しているのか知りませんでした。それに気づいてから、私はそれらをすべて間違って読んでいたことに気づきました。

ロッテン トマトとメタクリティック評価の由来

ロッテントマトそしてメタクリティックFlixster などの映画リスト アプリから Google の検索結果に至るまで、あらゆるものに評価が埋め込まれています。おそらく映画タイトルの横にある評価を見たことがあるでしょう。経験豊富なユーザーは、各サイトに実際に次のような機能があることさえ知っているかもしれません。スコア: 1 つは批評家用、もう 1 つは一般視聴者用。気づいていないかもしれませんが、これらの数値は各サイトが計算しているということです。とても違う。

批評家の評価を得るために、Rotten Tomatoes では、映画の知名度に応じて、通常は数百件程度の批評家レビューをさまざまな情報源から収集します。各レビューは分類されますFresh (ポジティブ) または Rotten (ネガティブ) のいずれかです。表示されるスコアは、総レビューのうち「新鮮」とみなされるレビューの割合です。たとえば、最近のスーパーヒーローの衝突では、バットマン vs スーパーマン, このサイトでは 327 件のレビューが収集され、そのうち 90 件が肯定的なカテゴリーに分類されました。 90 は 327 の 28% なので、それが映画のスコアになります。

一方、Metacritic は、システムにもう少しニュアンスを加えています。同社はウェブ上からレビューを収集し、0 から 100 の範囲のスコアを割り当てます。サイトが数値評価システムやレターグレードなどの測定可能な指標を使用している場合、Metacritic は、最も正確に表現していると思われる数値を入力します。その姿。その後、サイトは加重平均すべてのレビューの中で。同社は個々のレビュー担当者にどの程度の重みを割り当てるかについては明らかにしていないが、特定のレビュー担当者が全体のスコアでより重要な点を与えられると説明している。彼らの「身長」に基づいて。このシステムにより、もう少しニュアンスを表現できるようになります。の場合バットマン vs スーパーマン, Metacriticはこの映画に44点を与え、Rotten Tomatoesの28%よりもかなり高い評価を与えました。

IMDb と同様に、Rotten Tomatoes と Metacritic も個別のユーザー スコアを持っていることは指摘しておく価値があります。これらは 3 つのサイトすべてで多かれ少なかれ一貫して機能します。ユーザーは 1 から 10 までのスケールで映画を評価できます (厳密には、Rotten Tomatoes では 5 つ星評価が使用されますが、計算が機能的に同じになるように 5 つ星を使用することもできます)。そして、最終的なユーザー評価を決定するために、各サイトはスコアの重み付けを異なる方法で行っています。

ロッテン・トマトがスコアを極限まで引き上げる

Rotten Tomatoes の手法の問題点は、レビュー全体を「良い」か「悪い」に要約することで、批判的なレビューにコイン投げのようなニュアンスを与えてしまう点です。これにより、レビュースコアが二極化する方向に劇的に変動します。 Rotten Tomatoes では注目を集めていませんが、Web サイトの Tomatometer スコアのすぐ下に各映画の「平均評価」が表示されます。このスケールは、10 点スケールの値が割り当てられたレビュー担当者のスコアを平均します。もし私たちがバットマン対スーパーマンの例をもう一度見てください、その平均評価は実際には4.9。それは均等ですより高いMetacriticが映画を評価したよりも。しかし、ロッテン・トマトは、映画は悪くないと思ったが問題があると思った批評家を、映画がまったくのくだらないと思った批評家と同じように扱うため、平均をわずかに下回る 4.9 点が 28% というひどいスコアに引きずり込まれることになります。 。

ただし、この影響はマイナスだけではありません。夏のもう一つの大規模なスーパーヒーロー対決を見て、その逆の効果を見てみましょう。キャプテン・アメリカ:シビル・ウォー現在、Rotten Tomatoes では 7.9 という立派な平均評価を獲得していますが、Tomatometer のスコアは 92% とかなり高くなります (137 件中 126 件の「フレッシュ」レビュー)。もう一度言いますが、Metacritic の手法シビル・ウォーのスコアは 77, これは、Rotten Tomatoes の平均評価に非常に近いです。適切なことに、この効果により、トマトメーターはキャプテン アメリカのスーパー ソルジャー血清に少し似ています。善は偉大になる。悪いことはさらに悪化する

同じ効果が Rotten Tomatoes のユーザー スコアにも当てはまりますが、それほど顕著ではありません。 3.5 つ星 (または 10 点中 7 つ) のスコアは肯定的、または「新鮮」とみなされます。それ未満の場合は、ネガティブまたは「腐っている」とみなされます。ユーザー スコアは、肯定的な評価の割合を表します。その間これはまだ単純です、ソース データには主観的な「良い」または「悪い」よりも中間点の余地があり、そこから取得できるはるかに大きなデータ セットが含まれています。

Metacritic はより微妙ですが、より偏っている可能性もあります

Rotten Tomatoes の最大の問題はニュアンスを避けていることかもしれませんが、そうしたいのには理解できる理由があります。 Metacritic はニュアンスを尊重しますが、「間違っている」と批判されることもあります。前に説明したように、Metacritic はレビューを平均する前にレビューに数値を割り当てます。ただし、これらの数字を選択することは主観的な試練になる可能性があります。

たとえば、多くのレビュー サイトでは、レビューに A から F のスケールで評価を付けています。 F の場合、Metacritic は次のようになります。そのレビューにスコア 0 を割り当てます一方、B- のようなレビューは 67 を獲得する可能性があります。一部のレビュー担当者は、F は 50 に近い必要がある、または B は 80 に近い必要があると信じており、この指標の割り当て方法に同意しません。文字全体の標準化の欠如成績はともかく、これは Metacritic の重要な問題を浮き彫りにしています。それは、意見にどのように数値を付けるのかということです。

逆説的ですが、Metacritic はレビュー担当者に、より多くのことを提供します。そしてスコアのコントロールが難しくなります。レビュアーのランキングや意見は、ブール値の良い/悪い値よりも数値スコアの方が忠実に表現されます。その一方で、査読者の意見が同意できない形で表現される可能性がある、より柔軟な余地もあります。これは産業が始まると大きな問題になる可能性がありますレビュースコアに依存する。もちろん、Metacritic が各レビュー担当者に 100 点か 0 点のスコアの選択しか許可していなかったら、おそらくもっと多くの意見の相違があったでしょう (数学的に言えば、これはまさに Rotten Tomatoes のやり方です)。

レビュースコアで本当に重要なことは何か

レビュースコアに関してどれだけ「客観的」になろうと努めても、意見を数値に変換しようとしていることに変わりはありません。それは愛を化石燃料に変えようとするようなものです。この変換は一見意味がありません。ただし、レビュースコアは依然として役立ちます。世の中にはたくさんの映画がありますが、ほとんどの人は自分ですべてを観るのに十分な時間もお金もありません。評論家は、どの映画に時間を費やす価値があるかを判断するのに役立ちます。便利なレビュー スコアを使用すると、決定が単純な 2 桁の数字に変換され、さらに簡単になります。私の経験 (意見でもあります!) では、各指標を使用する最適な方法を次に示します。

  • Rotten Tomatoes は、基本的な「はい/いいえ」レコメンデーション エンジンです。「この映画を見るべきですか?」という質問に対する簡単な答えが必要な場合は、 Rotten Tomatoes はおそらくこれにかなりうまく答えます。スコアは必ずしも映画の良さを反映しているわけではありませんが、映画に対する熱意をかなりよく表しています。それは映画を極端に引っ張る傾向があることに注意してください。

  • Metacritic は、批評家の意見に基づいて映画の価値を測定しようとします。意見は決して客観的ではありませんが、Metacritic はおそらく Rotten Tomatoes よりも映画の実際の品質に近いものになるでしょう。その裏返しとして、サイトが意図せずに独自の意見を注入してしまう可能性もあります。

  • すべてのサイトのユーザー レビューは、一般的に一貫して一般の意見を表しています。 Rotten Tomatoes、Metacritic、IMDb のユーザー評価には多少の違いがありますが、これらはすべて一般に公開されているため、どのユーザー評価を使用しても、映画を鑑賞する平均的な観客がどのように考えているかをある程度知ることができます。覚えておいてください、まさにその通りです。映画を観に行く平均的な観客。自分の好みが主流と異なる場合、ユーザーの評価に同意できない可能性があります。

最も重要なことは、あなたの意見は依然としてあなた自身のものであることを忘れないでください。査読者は、どれほど善意に満ちたものであっても、あなたとは異なるバックグラウンドを持っており、あなたが好きではないものを楽しむ可能性があります。映画ファンは、競技スポーツのようにレビューのスコアを追跡することを好みます。それはとても楽しいことですが、意見を測定している限り、スコアは決して真に客観的ではないことに留意することが重要です。何に時間を費やすかを決めるのに最も役立つ指標を使用しますが、数字で何が好きか嫌いかを判断しないでください。