Hoe werkt het?

Meld je aan, leer in jouw tempo en behaal je internationaal erkend certificaat. Met persoonlijke begeleiding van onze experts op elk moment dat je het nodig hebt.

Hoe werkt het?

Meld je aan, leer in jouw tempo en behaal je internationaal erkend certificaat. Met persoonlijke begeleiding van onze experts op elk moment dat je het nodig hebt.

Basisbegrippen statistiek in Lean Six Sigma

Anend Harkhoe
Anend Harkhoe Lean-specialist

Als je voor het eerst een Lean Six Sigma-training volgt, merk je al snel dat statistiek zijn eigen taal heeft. Termen als p-waarde, nulhypothese, normale verdeling en standaarddeviatie vliegen je om de oren. Voor wie geen statistische achtergrond heeft, kan dat overweldigend voelen.

Maar het goede nieuws is dit: je hoeft geen wiskundige te zijn om met statistiek in Lean Six Sigma te werken. Je moet wel begrijpen wat de begrippen betekenen en wanneer je ze gebruikt. Dit artikel geeft je een overzicht van de belangrijkste statistische begrippen, uitgelegd vanuit de context van procesverbetering. Een bredere introductie op het vakgebied vind je in het artikel wat is statistiek.

Populatie en steekproef

Alles in statistiek begint bij twee begrippen: de populatie en de steekproef.

De populatie is de volledige groep waarover je een uitspraak wilt doen. Dat kan een grote groep zijn, zoals alle klanttelefoontjes in een jaar, of een kleinere, zoals alle facturen die vorige maand zijn verwerkt. De populatie is het geheel.

De steekproef is een selectie uit die populatie. Je meet niet alles, maar een representatief deel. Op basis van die steekproef trek je conclusies over de populatie als geheel. Hoe groter en representatiever de steekproef, hoe betrouwbaarder die conclusies zijn.

Dit onderscheid is belangrijk, omdat het ook terugkomt in de notatie. Kengetallen van de populatie schrijf je met Griekse letters, zoals μ voor het gemiddelde en σ voor de standaarddeviatie. Kengetallen van de steekproef schrijf je met Latijnse letters, zoals x̄ en s. Het zijn kleine letters, maar het verschil is groot.

Centrale tendens: waar ligt het midden?

Als je een dataset hebt, wil je vaak weten wat de typische waarde is. Daarvoor gebruik je maten voor centrale tendens.

Het gemiddelde is de bekendste. Je telt alle waarden op en deelt door het aantal. Simpel, maar gevoelig voor uitschieters. Eén extreem geval kan het gemiddelde flink optrekken of neerdrukken.

De mediaan is de middelste waarde als je alle waarden op volgorde zet. Bij een even aantal waarden neem je het gemiddelde van de twee middelste. De mediaan is robuuster dan het gemiddelde, omdat uitschieters er nauwelijks invloed op hebben. In procesverbetering gebruik je de mediaan dan ook regelmatig naast het gemiddelde.

De modus is de waarde die het vaakst voorkomt. Bij een bimodale verdeling zijn er twee modi, wat kan wijzen op twee verschillende groepen in je data, een signaal dat de moeite waard is om nader te bekijken.

Spreiding: hoe groot is de variatie?

Een gemiddelde zonder context zegt weinig. Als de gemiddelde doorlooptijd van een aanvraag drie dagen is, maar sommige aanvragen duren een dag en andere tien, heb je een heel ander probleem dan wanneer alle aanvragen twee tot vier dagen duren. Spreiding vertelt je hoe groot die variatie is.

De range is de simpelste maat: het verschil tussen de hoogste en de laagste waarde. Handig als eerste indicatie, maar gevoelig voor uitschieters.

De standaarddeviatie, ook wel standaardafwijking of sigma (σ) genoemd, is de meest gebruikte maat voor spreiding. Het geeft aan hoe ver de waarden gemiddeld van het gemiddelde afliggen. Hoe groter de standaarddeviatie, hoe meer variatie in het proces. Het terugdringen van de standaarddeviatie is een van de kernambities van Six Sigma, en het sigma niveau van een proces laat direct zien hoe goed dat lukt.

De variantie is het kwadraat van de standaarddeviatie. Je ziet de variantie minder in dagelijkse rapportages, maar wel in statistische berekeningen op de achtergrond.

Kwartielen verdelen je dataset in vier gelijke delen. Het eerste kwartiel (Q1) is de waarde waaronder 25% van de data valt, het derde kwartiel (Q3) de waarde waaronder 75% valt. Het verschil tussen Q3 en Q1 heet de interkwartielafstand en is een robuuste maat voor spreiding die je terugziet in een boxplot.

Verdeling: hoe ziet de data eruit?

Naast centrale tendens en spreiding wil je weten hoe je data verdeeld is. Is de verdeling symmetrisch? Zijn er uitschieters? Heb je een piek of meerdere pieken?

De normale verdeling, ook wel de Gausscurve of klokcurve genoemd, is de meest bekende verdeling in de statistiek. De waarden zijn symmetrisch verdeeld rond het gemiddelde, met de meeste waarnemingen dicht bij het midden en steeds minder naarmate je verder van het gemiddelde afkomt. Veel natuurlijke processen en productieprocessen volgen deze verdeling, wat het een handig uitgangspunt maakt voor statistische analyses.

Niet alle data is normaal verdeeld. Een niet-normale verdeling kan scheef zijn, meerdere pieken hebben of een zware staart. Dat heeft gevolgen voor welke statistische technieken je kunt gebruiken. Sommige toetsen gaan ervan uit dat je data normaal verdeeld is. Als dat niet zo is, moet je andere methoden kiezen.

De Z-score geeft aan hoeveel standaarddeviaties een waarde afwijkt van het gemiddelde. Een Z-score van 2 betekent dat de waarde twee standaarddeviaties boven het gemiddelde ligt. Je gebruikt de Z-score om uitschieters te identificeren en om waarden op verschillende schalen met elkaar te vergelijken. In de context van proceskwaliteit is de Z-score ook de basis voor process capability analyse, waarbij je bepaalt in hoeverre een proces binnen de specificatiegrenzen blijft.

Hypothesetoetsen: is het echt of toeval?

In de Analyze-fase van DMAIC wil je aantonen dat een gevonden verband of verschil niet toevallig is. Daarvoor gebruik je hypothesetoetsen.

Je formuleert altijd twee hypotheses. De nulhypothese stelt dat er geen effect of verschil is. De alternatieve hypothese stelt dat er wel een effect of verschil is. Vervolgens bereken je op basis van je data hoe waarschijnlijk het is dat je de gevonden uitkomst zou zien als de nulhypothese waar is.

Die waarschijnlijkheid heet de p-waarde. In Lean Six Sigma hanteren we standaard een grenswaarde van 0,05. Is de p-waarde kleiner dan 0,05, dan verwerp je de nulhypothese en concludeer je dat het gevonden verschil statistisch significant is. Is de p-waarde groter, dan houd je de nulhypothese aan.

Hierbij kunnen twee soorten fouten optreden. Een type I-fout betekent dat je de nulhypothese verwerpt terwijl die eigenlijk waar is, een vals positief resultaat. Een type II-fout betekent dat je de nulhypothese aanhoudt terwijl die eigenlijk niet waar is, een vals negatief resultaat. Beide fouten kosten je iets: de eerste leidt tot onnodige ingrepen, de tweede tot gemiste verbeteringen.

Van toets naar inzicht

Een hypothesetoets geeft je een ja of nee: is het verschil significant? Maar je wilt ook weten hoe groot het verschil is en hoe zeker je bent over die schatting. Daarvoor gebruik je een betrouwbaarheidsinterval.

Een betrouwbaarheidsinterval van 95% rondom een gemiddelde van 8,3 dagen zegt: als we dit experiment vaak zouden herhalen, zou het werkelijke gemiddelde van de populatie in 95% van de gevallen binnen dit bereik vallen. Het geeft je een eerlijker beeld dan één getal alleen, omdat het de onzekerheid in je meting zichtbaar maakt.

De correlatiecoëfficiënt geeft aan hoe sterk twee variabelen samenhangen en in welke richting. De waarde loopt van -1 tot 1. Een waarde van 1 betekent een perfect positief verband: als de ene variabele stijgt, stijgt de andere mee. Een waarde van -1 betekent een perfect negatief verband. Een waarde van 0 betekent geen lineair verband. Let op: correlatie is geen causaliteit. Twee variabelen kunnen samenhangen zonder dat de ene de andere veroorzaakt.

ANOVA, ofwel variantieanalyse, gebruik je als je drie of meer groepen met elkaar wilt vergelijken. Een t-toets vergelijkt twee groepen. Wil je weten of de verwerkingstijd verschilt tussen maandag, woensdag en vrijdag, dan gebruik je ANOVA. De methode toetst of de gemiddelden van de groepen significant van elkaar afwijken.

Controlekaarten: de wacht houden

Controlekaarten, ook wel control charts genoemd, zijn grafieken waarmee je een proces over tijd volgt. Ze laten zien of de variatie in een proces normaal is, ook wel common cause variation genoemd, of dat er bijzondere oorzaken aan het werk zijn die buiten de normale grenzen vallen.

In de Control-fase van DMAIC gebruik je controlekaarten om de behaalde verbetering te borgen. Ze geven een vroeg signaal als het proces dreigt terug te vallen naar het oude gedrag.

Gebruik de begrippen als kapstok

Deze begrippen zijn geen doel op zich. Ze zijn de taal die je nodig hebt om te communiceren over processen, metingen en analyses. Hoe vertrouwder je met deze termen wordt, hoe sneller je de stap maakt van data naar inzicht en van inzicht naar verbetering. In de artikelen over beschrijvende statistiek en verklarende statistiek lees je hoe je deze begrippen in de praktijk toepast.

Notaties in statistiek: populatie versus steekproef

In statistiek zie je vaak twee soorten notaties door elkaar: Griekse letters voor populatiekengetallen en Latijnse letters voor steekproefkengetallen. Als je een σ ziet staan, weet je dat het gaat over de spreiding van de volledige populatie. Zie je een s, dan gaat het over de spreiding van een steekproef. Hetzelfde getal, andere betekenis.

KengetalPopulatieSteekproef
Aantal metingenNn
Gemiddeldeμ (mu)x̄ (x-bar)
Standaardafwijkingσ (sigma)s
Variantieσ² (sigma kwadraat)
Correlatiecoëfficiëntρ (rho)r
ProportiePp

Waarom is dit relevant in Lean Six Sigma? Omdat je in de praktijk bijna altijd met steekproeven werkt, maar uitspraken doet over de populatie. Je meet een selectie van processen, orders of klantcontacten, en trekt daar conclusies uit over het hele proces. De notatie herinnert je eraan wat je werkelijk in handen hebt: een schatting, geen absolute waarheid.

Wil je meer over Lean Six Sigma en hoe je statistiek toepast in een echt verbeterproject? Bekijk onze online Lean Six Sigma opleidingen en ontdek welk niveau bij jou past.

Deel dit artikel

Start vandaag. Sluit je aan
bij 4.125 professionals.

Begeleiding van ervaren Lean-specialisten
Eén vaste prijs, geen verborgen kosten
Slaag voor je examen met 100% garantie
Ontvang een internationaal erkend certificaat
Leer waar en wanneer je wilt, in jouw tempo
Gratis beginnen met een realistische demo
Begeleiding van ervaren Lean-specialisten
Eén vaste prijs, geen verborgen kosten
Slaag voor je examen met 100% garantie
Ontvang een internationaal erkend certificaat
Leer waar en wanneer je wilt, in jouw tempo
Gratis beginnen met een realistische demo
HomeKennisbankBasisbegrippen statistiek in Lean Six Sigma