1. OnderwijsMathStatistiekStatistiek en histogrammen
Statistisch werkboek voor dummies met online oefenen, 2e editie

Door Deborah J. Rumsey

Een histogram is een staafdiagram gemaakt voor kwantitatieve gegevens. Omdat de gegevens numeriek zijn, verdeelt u deze in groepen zonder tussenruimten te laten (zodat de balken zijn verbonden). De Y-as toont frequenties (tellingen) of relatieve frequenties (procenten) van de gegevens die in elke groep vallen.

Hoe een histogram te maken

Om een ​​histogram te maken, verdeelt u eerst uw gegevens in een redelijk aantal groepen van gelijke lengte. Tel het aantal waarden in de gegevensset op dat in elke groep valt (maak met andere woorden een frequentietabel). Als een gegevenspunt op de grens valt, moet u een beslissing nemen over de groep waarin u het wilt plaatsen, waarbij u ervoor zorgt dat u consistent blijft (plaats het altijd in het hoogste van de twee, of plaats het altijd in het laagste van de twee). Maak een staafdiagram met behulp van de groepen en hun frequenties - een frequentiehistogram.

Als u de frequenties deelt door de totale steekproefgrootte, krijgt u het percentage dat in elke groep valt. Een tabel met de groepen en hun percentages is een relatieve frequentietabel. Het bijbehorende histogram is een histogram met relatieve frequentie.

U kunt Minitab of een ander softwarepakket gebruiken om histogrammen te maken, of u kunt uw histogrammen met de hand maken. Hoe dan ook, uw keuze van intervalbreedten (bins genoemd door computerpakketten) kan verschillen van die in de afbeeldingen, wat prima is, zolang de uwe er hetzelfde uitzien. En dat zullen ze doen, zolang u geen ongewoon laag of hoog aantal staven gebruikt en uw staven even breed zijn.

U kunt ook verschillende begin- / eindpunten kiezen voor elk interval, en dat is ook prima. Zorg ervoor dat je alles duidelijk labelt, zodat je instructeur kan zien wat je probeert te doen. En wees consistent over waarden die direct aan een grens eindigen; zet ze altijd in de onderste groep, of plaats ze altijd in de bovenste groep. Als u echter een keuze hebt, maakt u uw histogrammen met behulp van een computerpakket zoals Minitab. Het maakt uw taak veel eenvoudiger.

Zie het volgende voor een voorbeeld van het maken van de twee soorten histogrammen.

Testscores voor een klas van 30 studenten worden weergegeven in de volgende tabel.

Frequentiehistogrammen en relatieve frequentiehistogrammen zien er hetzelfde uit; ze zijn net klaar met verschillende schalen op de Y-as.

Het frequentiehistogram voor de scoresgegevens wordt weergegeven in de volgende afbeelding.

frequentiehistogram

U vindt de relatieve frequenties door elke frequentie te nemen en te delen door 30 (de totale steekproefgrootte). De relatieve frequenties voor deze drie groepen zijn 8/30 = 0,27 of 27%; 16/30 = 0,53 of 53%; en 6/30 = respectievelijk 0,20 of 20%.

Een histogram op basis van relatieve frequenties ziet er hetzelfde uit als het histogram (van dezelfde gegevens). Het enige verschil is het label op de Y-as.

Histogrammen begrijpen

Een histogram geeft u algemene informatie over drie hoofdkenmerken van uw kwantitatieve (numerieke) gegevens: de vorm, het midden en de spreiding.

De vorm van een histogram wordt weergegeven door het algemene patroon. Vele patronen zijn mogelijk, en sommige zijn gebruikelijk, waaronder de volgende:

  • Klokvormig: ziet eruit als een bel - een grote bult in het midden en staarten die aan dezelfde kant naar beneden gaan met ongeveer dezelfde snelheid. (Figuur a) Rechts scheef: een groot deel van de gegevens komt naar links, met een paar grotere observaties naar rechts. (Figuur b) Links scheef: een groot deel van de gegevens wordt naar rechts verplaatst, met een paar kleinere waarnemingen naar links. (Figuur c) Uniform: alle balken hebben een vergelijkbare hoogte. (Figuur d) Bimodaal: twee pieken, of (afbeelding e) U-vormig: Bimodaal met de twee pieken aan de lage en hoge uiteinden, met minder gegevens in het midden. (Zie figuur 4-1 (figuur f) Symmetrisch: ziet er aan elke kant hetzelfde uit als u het in het midden splitst; klokvormige, uniforme en U-vormige histogrammen zijn allemaal voorbeelden van symmetrische gegevens. (Figuren a, d en f)
gemeenschappelijke histogrampatronen

U kunt het midden van een histogram op twee manieren bekijken. Een daarvan is het punt op de x-as waar de grafiek in evenwicht is, rekening houdend met de werkelijke waarden van de gegevens. Dit punt wordt het gemiddelde genoemd en u kunt het vinden door het evenwichtspunt te lokaliseren (stel u voor dat de gegevens zich op een wipper bevinden). De andere manier om het midden te bekijken, is door de lijn in het histogram te lokaliseren, waarbij 50 procent van de gegevens aan weerszijden ligt. De lijn wordt de mediaan genoemd en vertegenwoordigt het fysieke midden van de gegevensset. Stel je voor dat je het histogram in tweeën snijdt zodat de helft van het gebied aan weerszijden van de lijn ligt.

Spread verwijst naar de afstand tussen de gegevens, ten opzichte van elkaar of ten opzichte van een centraal punt. Een ruwe manier om de spreiding te meten, is om het bereik of de afstand tussen de grootste waarde en de kleinste waarde te vinden. Een andere manier is om te zoeken naar de gemiddelde afstand vanaf het midden, ook wel bekend als de standaarddeviatie. De standaardafwijking is moeilijk te vinden door alleen naar een histogram te kijken, maar je kunt een ruw idee krijgen als je het bereik neemt dat gedeeld wordt door 6. Als de hoogten van de balken dicht bij het midden erg lang lijken, betekent dat dat de meeste de waarden liggen dicht bij het gemiddelde, wat een kleine standaardafwijking aangeeft. Als de balken kort lijken, heeft u mogelijk een grotere standaardafwijking.

U kunt werkelijke samenvattende statistieken maken om de kwantitatieve gegevens te berekenen, maar een histogram kan u een algemene richting geven voor het vinden van deze mijlpalen. En net als cirkeldiagrammen en staafdiagrammen, zijn niet alle histogrammen eerlijk, volledig en nauwkeurig. Je moet weten waar je op moet letten om ze te evalueren.

Hoe scheve gegevens recht te zetten met histogrammen

U moet speciale overwegingen maken voor scheve gegevenssets, in termen van welke statistieken het meest geschikt zijn om te gebruiken en wanneer. Je moet ook weten hoe het gebruik van verkeerde statistieken misleidende antwoorden kan geven.

U kunt het gemiddelde en de mediaan relateren om meer te weten te komen over de vorm van uw gegevens. Als het gemiddelde en de mediaan bijna gelijk zijn, ontstaat een vorm die ongeveer symmetrisch is

Het gemiddelde wordt beïnvloed door uitbijters in de gegevens, maar de mediaan niet. Als het gemiddelde en de mediaan dicht bij elkaar liggen, staan ​​de gegevens niet scheef en bevatten ze waarschijnlijk geen uitbijters aan de ene of de andere kant. Dat betekent dat de gegevens er aan elke zijde van het midden ongeveer hetzelfde uitzien, wat de definitie is van symmetrische gegevens (zie a, d of f in de vorige afbeelding).

Het feit dat het gemiddelde en de mediaan dichtbij zijn, geeft aan dat de gegevens ruwweg symmetrisch zijn, kan in een ander type testvraag worden gebruikt. Stel dat iemand je vraagt ​​of de gegevens symmetrisch zijn en je geen histogram hebt, maar je hebt wel het gemiddelde en de mediaan. Vergelijk de twee waarden van het gemiddelde en de mediaan, en als ze dicht bij elkaar liggen, zijn de gegevens symmetrisch. Als ze dat niet zijn, zijn de gegevens niet symmetrisch.

Hoe een misleidend histogram te herkennen

Lezers kunnen worden misleid door een histogram op manieren die met een staafdiagram niet mogelijk zijn. Vergeet niet dat een histogram numerieke gegevens behandelt, niet categorische gegevens, wat betekent dat u moet bepalen hoe u de numerieke gegevens wilt onderverdelen in groepen om op de horizontale as weer te geven. En hoe u die groepen bepaalt, kan de grafiek er heel anders uitzien. Kijk uit voor histogrammen die schaal gebruiken om lezers te misleiden. Net als bij staafdiagrammen kunt u verschillen overdrijven door een kleinere schaal op de verticale as van een histogram te gebruiken, en u kunt verschillen bagatelliseren door een grotere schaal te gebruiken.