Hollywood is niet alleen de plek van droomfabrieken, rode lopers en eindeloze reeksen sequels. Het is ook een miljardenindustrie waarin elk filmbesluit – van releaseweekend tot kleur van de filmposter – onderbouwd wordt met data. Maar hoe goed werkt dat eigenlijk? Hoe vaak voorspellen die modellen correct hoeveel mensen naar de bioscoop gaan? En, eerlijk is eerlijk: wanneer gaat het compleet mis?
Elke filmstudio heeft dezelfde nachtmerrie: een film van 200 miljoen dollar die na twee weken uit de zalen verdwijnt. En dus werd Hollywood in het afgelopen decennium overspoeld door data-consultants, AI-voorspellers en analytics-bedrijven. Platforms als Cinelytic, Epagogix en Vault AI beloven het onmogelijke: wij kunnen voorspellen hoeveel mensen jouw film gaan zien.
Ze voeren datasets in met duizenden variabelen: genre, cast, leeftijdscertificering, releasedatum, marketingbudget, trailer-views, social-media-buzz, IMDb-scoreverwachtingen, zelfs weersvoorspellingen in Los Angeles. Een model berekent dan de kans op een hit of flop.
Sommige tools claimen precisie tot op 85%. Maar wie iets langer in data-analyse werkt, weet: een getal zonder context is net zo nuttig als een Oscar voor ‘meest veelbelovende regressieanalyse’.
De meeste box-office voorspellingsmodellen combineren drie lagen data:
Daarbovenop worden sentimentanalyses losgelaten op Twitter, Reddit en TikTok. Tools meten het aantal keren dat ‘excited’ en ‘must-see’ voorkomen in posts over een film. Zo ontstaat een verwachtingscurve: een openingsweekend van 70 miljoen dollar? 45 miljoen? Of, met wat geluk, 150 miljoen als het publiek massaal komt opdagen.
2023 was het jaar waarin Barbie en Oppenheimer — twee totaal verschillende films — op dezelfde dag uitkwamen. Data-voorspellers stonden op scherp.
De voorspelling:
De realiteit:
Beide modellen zaten er fors naast — niet in de richting, maar in de schaal. Niemand had de ‘Barbenheimer-hype’ voorzien: een internet-fenomeen waarin mensen beide films op één dag gingen kijken, in roze outfits of met Einstein-t-shirts.
De les? Data kon wel aangeven dat beide films potentieel sterk waren. Maar data kon niet voorspellen dat sociale media een culturele gebeurtenis zouden creëren die bioscoopbezoek herdefinieerde.
Gemiddeld genomen doen de betere modellen het redelijk goed bij films die in lijn liggen met het verleden. Een Marvel-film? Een sequel van Fast & Furious? Dat is voorspelbare data.
Onderzoekers van de NYU Data Science Review analyseerden honderden releases en concludeerden: ‘In 70 tot 75 procent van de gevallen voorspellen moderne ML-modellen het openingsweekend binnen ±20% accuraat.’
Maar bij de overige 25 procent gaat het mis – en dat zijn vaak de films waar de industrie het meeste van leert.
Voorbeelden:
Zelfs met petabytes aan data blijft één ding lastig: gedrag van mensen.
Voor de lezer van TheDataConnection is dit meer dan film trivia. De logica van box-office-modellen lijkt sterk op hoe we in het bedrijfsleven voorspellen: omzet, klantgedrag, churn, product-populariteit.
En de fouten die Hollywood maakt, maken bedrijven ook:
– Blind vertrouwen op historische data
– Onderschatten van externe gebeurtenissen
– Overwaarderen van feature importance zonder context
De les is universeel: voorspellen is geen wetenschap van zekerheid, maar van waarschijnlijkheid.
Hollywood is ondanks alle missers niet gestopt met data. Integendeel: AI-gedreven simulaties testen tegenwoordig alternatieve castingkeuzes, soundtrack-effecten, en release-datums. Een studio kan zo letterlijk de vraag stellen: ‘wat als Ryan Gosling níet Ken was geweest?’
Het resultaat is een industrie die data slimmer inzet – maar hopelijk niet als vervanging van creativiteit.
Data maakt Hollywood slimmer, maar niet onfeilbaar. Het voorspelt trends, geen magie. En soms, heel soms, gebeuren de mooiste dingen juist buiten het model – zoals een onverwachte hype, een briljante film of een roze golf die niemand zag aankomen.
Of zoals ze in Los Angeles zeggen: ‘Nobody knows anything. But the spreadsheet still gets the final say.’
De Redactie
PS werk jij in de fllmwereld en wil je jouw ervaringen met data-analyse of machine learning of Generatieve AI delen, neem dan even contact op met de redactie van TheDataConnection.nl via info@thedataconnection.nl