Een nieuw machine-learningproject starten kan overweldigend zijn.
Welke modellen kies je? Welke data heb je nodig? En hoe bouw je iets dat écht waarde toevoegt?
Deze korte gids helpt je op weg. Negen modellen die elke startende data-scientist zou moeten kennen — met uitleg wat ze doen, wat je ermee kunt, welke data je nodig hebt én directe links om meteen te oefenen.
Wat het is — Klassieke baseline-modellen. Lineaire regressie voorspelt een getal (bv. omzet), logistische regressie een kans (bv. churn: ja/nee).
Wat het kan — Snel, transparant, goed uitlegbaar aan business.
Data — Gestructureerde, numerieke features; beperkt multicollineariteit.
Snel starten:
Wat het is — Bomen die beslissingen nemen via ja/nee-splitsingen.
Wat het kan — Intuïtief en uitlegbaar; goed voor feature-begrip.
Data — Tabulaire data met numeriek en categorisch door elkaar.
Snel starten:
Wat het is — Ensemble van veel beslisbomen die samen stemmen.
Wat het kan — Sterk all-round; vaak robuust tegen overfitting.
Data — Tabulaire datasets (klant-, transactie- of riskdata).
Snel starten:
Wat het is — Boosting van bomen: elke boom corrigeert fouten van de vorige.
Wat het kan — Topprestaties op tabulaire data; vaak Kaggle-winnaar.
Data — Goede feature-engineering/opschoning loont; kan met categorisch.
Snel starten:
Wat het is — Zoekt de optimale scheidingsgrens (hyperplane) tussen klassen.
Wat het kan — Sterk bij complexe maar kleinere datasets; goede marges.
Data — Goed geschaald/gestandaardiseerd; niet te groot (schaling!).
Snel starten:
Wat het is — Classificeert op basis van de k meest gelijkende buren.
Wat het kan — Simpel & effectief voor aanbevelingen en patronen.
Data — Features waar ‘afstand/nabijheid’ betekenisvol is.
Snel starten:
Wat het is — Probabilistisch model met (naïeve) onafhankelijkheidsaanname.
Wat het kan — Bizar snel en zeer bruikbaar voor tekstclassificatie.
Data — Getokenized tekst (bag-of-words/TF-IDF) of binaire features.
Snel starten:
Wat het is — Meerstaps neurale netwerken (fully-connected).
Wat het kan — Vangt niet-lineaire relaties; flexibel voor tabulaire data.
Data — Genormaliseerde numerieke features; voldoende samples.
Snel starten:
Wat het is — Klassieke modellen voor autoregressie + moving average; SARIMAX voegt seizoenen & exogene variabelen toe.
Wat het kan — Transparant en betrouwbaar bij trends/seizoenen.
Data — Regelmatige tijdreeksen (uur/dag/maand), stationariteit controleren.
Snel starten:
Deze negen modellen vormen je gereedschapskist. Bouw er sterke baselines mee, vergelijk objectief en leer vooral waarom een model werkt — niet alleen dat het werkt.
Een goed model begint niet bij code, maar bij gezond verstand — en schone data.