Voordat je een proces kunt verbeteren, moet je het begrijpen. Dat klinkt voor de hand liggend, maar in de praktijk worden processen vaak beoordeeld op basis van losse indrukken, ervaringen of een enkel getal dat toevallig opvalt. Een logistiek manager die ziet dat een levering te laat was, of een teamleider die merkt dat klachten toenemen: het zijn signalen, maar geen analyse. Beschrijvende statistiek helpt je verder. Het zet de data die je verzamelt om in een helder beeld van hoe het proces er werkelijk voor staat.
Beschrijvende statistiek is daarmee de eerste statistische stap in elk Lean Six Sigma-project. Je gebruikt het om je dataset samen te vatten en te ordenen, zodat je de belangrijkste kenmerken in één oogopslag ziet. Het is de basis waarop de rest van je analyse rust.
Beschrijvende statistiek is de vorm van statistiek die zich richt op het samenvatten, ordenen en presenteren van data. Je beschrijft wat je ziet, zonder daar conclusies uit te trekken die verder gaan dan de data zelf. Vandaar de naam: je beschrijft, je verklaart nog niet. Dat doe je later.
De dataset die je analyseert kan bestaan uit metingen van een steekproef, maar ook uit gegevens van een volledige populatie. In Lean Six Sigma werk je vaak met steekproeven, omdat het meten van alle gevallen te tijdrovend of te kostbaar is. Denk aan een zorginstelling die niet elke patiëntdossierverwerking kan meten, maar wel een representatieve steekproef van honderd gevallen bekijkt. Beschrijvende statistiek helpt je dan om die steekproef overzichtelijk te maken voordat je er conclusies aan verbindt. De begrippen populatie en steekproef worden uitgebreid uitgelegd in het artikel over basisbegrippen van statistiek.
Binnen beschrijvende statistiek zijn er drie typen kengetallen, elk met een eigen focus.
De eerste is centrale tendens. Dit zijn kengetallen die de typische of meest representatieve waarde in je dataset aangeven. De drie bekendste zijn het gemiddelde, de mediaan en de modus. In een Lean Six Sigma-project gebruik je deze om vragen te beantwoorden als: wat is de gemiddelde doorlooptijd van dit proces? Wat is de meest voorkomende verwerkingstijd?
Het gemiddelde is gevoelig voor uitschieters. Een enkel extreem geval kan het gemiddelde flink vertekenen. Stel dat negen bestellingen binnen twee dagen worden verwerkt, maar één bestelling door een storing tien dagen duurt. Het gemiddelde stijgt dan fors, terwijl de mediaan gewoon op twee dagen blijft. De mediaan, de middelste waarde in een gerangschikte reeks, is daartegen bestand en geeft in veel procescontexten een betrouwbaarder beeld van de typische situatie.
De tweede is spreiding. Centrale tendens vertelt je waar het midden ligt, maar niet hoe sterk de waarden van elkaar afwijken. Daarvoor gebruik je maten voor spreiding, zoals de standaardafwijking, de variantie en het bereik. In Lean Six Sigma is spreiding een kernbegrip: hoge spreiding betekent een onvoorspelbaar proces, en onvoorspelbare processen leveren inconsistente kwaliteit. Het terugdringen van spreiding is dan ook een van de centrale doelen van Six Sigma. Het sigma niveau van een proces geeft direct aan hoe groot die spreiding is ten opzichte van de specificatiegrenzen.
De derde is verdeling. De verdeling beschrijft hoe vaak elke waarde voorkomt in je dataset. Je maakt dit zichtbaar in een histogram of een frequentietabel. De verdeling laat zien of je data symmetrisch is, of er uitschieters zijn en of je data normaal verdeeld is. Dat laatste is relevant omdat veel statistische technieken die je later in de Analyze-fase van DMAIC gebruikt, een bepaalde verdeling als uitgangspunt nemen.
Voor centrale tendens en spreiding werk je vaak met een boxplot of een histogram. Een boxplot toont in één oogopslag het midden, de spreiding en eventuele uitschieters. Een histogram laat de frequentieverdeling zien en maakt direct duidelijk of de data normaal verdeeld is of een scheef patroon heeft. Voor procesdata over tijd gebruik je een run chart of een controlegrafiek, zodat je ook trends en verschuivingen herkent. In de praktijk combineer je deze grafieken: eerst een histogram om de verdeling te begrijpen, dan een boxplot om groepen te vergelijken.
Naast de drie soorten kengetallen zijn er drie hoofdactiviteiten die centraal staan in beschrijvende statistiek. Je verzamelt data via metingen, observaties of registraties. Je organiseert die data door ze te sorteren, groeperen en structureren. En je presenteert de data in grafieken, tabellen of kengetallen die het patroon zichtbaar maken voor iedereen in het verbeterteam.
Die laatste stap, het presenteren, wordt in Lean Six Sigma vaak onderschat. Een goed gevisualiseerde dataset maakt het gesprek over het proces een stuk concreter en helpt bij het overtuigen van stakeholders.
In de Measure-fase van DMAIC gebruik je beschrijvende statistiek om de nulmeting van het proces vast te leggen. Je beantwoordt vragen als: wat is de huidige procesprestatie? Hoe groot is de variatie? Wat is de typische doorlooptijd of foutfrequentie?
Dit is het startpunt van elk verbeterproject. Zonder een duidelijke beschrijving van de huidige situatie weet je aan het einde van het project niet of je verbetering echt iets heeft opgeleverd. Beschrijvende statistiek geeft je die nulmeting. Op basis van die meting bepaal je ook het defectpercentage en de bijbehorende sigmawaarde, zodat je de startpositie van het project zwart op wit hebt.
Beschrijvende statistiek vertelt je wat er is. De volgende stap is begrijpen waarom dat zo is, en of het patroon dat je ziet ook geldt buiten je steekproef. Dat is het terrein van verklarende statistiek, ook wel inferentiële of toetsende statistiek genoemd. De twee vormen vullen elkaar aan: je begint met beschrijven, daarna ga je verklaren.
Wil je leren hoe je beschrijvende statistiek toepast in een echt verbeterproject? Bekijk onze online Lean Six Sigma opleidingen en ontdek welk niveau bij jou past.