Inhalt
Geschäftliche, staatliche und akademische Aktivitäten erfordern fast immer die Erfassung und Analyse von Daten. Eine Möglichkeit zur Darstellung numerischer Daten sind Diagramme, Histogramme und Diagramme. Diese Visualisierungstechniken ermöglichen es den Menschen, einen besseren Einblick in Probleme zu gewinnen und Lösungen zu finden. Lücken, Cluster und Ausreißer sind Merkmale von Datensätzen, die die mathematische Analyse beeinflussen und in visuellen Darstellungen gut sichtbar sind.
Löcher in den Daten
Lücken beziehen sich auf fehlende Bereiche in einem Datensatz. Wenn beispielsweise in einem wissenschaftlichen Experiment Temperaturdaten im Bereich von 50 bis 100 Grad Celsius, jedoch nichts zwischen 70 und 80 Grad Celsius erfasst werden, würde dies eine Lücke im Datensatz bedeuten. Ein Liniendiagramm dieses Datensatzes hätte "x" -Markierungen für Temperaturen zwischen 50 und 70 und wieder zwischen 80 und 100, aber es gäbe nichts zwischen 70 und 80. Forscher können tiefer graben und untersuchen, warum bestimmte Datenpunkte nicht angezeigt werden in einer gesammelten Probe.
Isolierte Gruppen
Cluster sind isolierte Gruppen von Datenpunkten. Liniendiagramme, die eine der Möglichkeiten zur Darstellung von Datensätzen darstellen, sind Linien mit "x" -Markierungen über bestimmten Zahlen, um die Häufigkeit ihres Auftretens im Datensatz darzustellen. Ein Cluster wird als Sammlung dieser "x" -Markierungen in einem kleinen Intervall oder einer kleinen Datenmenge dargestellt. Wenn beispielsweise die Prüfungsergebnisse für eine Klasse von 10 Schülern 74, 75, 80, 72, 74, 75, 76, 86, 88 und 73 sind, befinden sich die meisten "x" -Markierungen auf einem Liniendiagramm in der 72- bis 76 Punkte Intervall. Dies würde einen Datencluster darstellen. Beachten Sie, dass die Häufigkeit für 74 und 75 zwei ist, für alle anderen Werte jedoch eins.
An den Extremen
Ausreißer sind Extremwerte - Datenpunkte, die erheblich außerhalb anderer Werte in einem Datensatz liegen. Ein Ausreißer muss deutlich kleiner oder größer sein als die Mehrheit der Zahlen in einem Datensatz. Die Definition von "extrem" hängt von den Umständen und einem Konsens der an der Untersuchung beteiligten Analysten ab. Ausreißer können schlechte Datenpunkte sein, auch als Rauschen bezeichnet, oder sie können wertvolle Informationen über das untersuchte Phänomen und die Datenerfassungsmethode selbst enthalten. Wenn beispielsweise die Klassenwerte meist im Bereich von 70 bis 80 liegen, einige jedoch in den unteren 50er Jahren, können diese Ausreißer darstellen.
Alles zusammenfügen
Lücken, Ausreißer und Cluster in Datensätzen können sich auf die Ergebnisse der mathematischen Analyse auswirken. Lücken und Cluster können Fehler in der Datenerfassungsmethodik darstellen. Wenn beispielsweise bei einer Telefonumfrage nur bestimmte Vorwahlen abgefragt werden, beispielsweise Wohnanlagen mit niedrigem Einkommen oder gehobene Vorortwohngebiete, und kein breiter Querschnitt der Bevölkerung, besteht die Möglichkeit, dass Datenlücken und -cluster vorliegen . Ausreißer können den Mittel- oder Durchschnittswert eines Datensatzes verzerren. Beispielsweise beträgt der Mittelwert oder Durchschnittswert eines Datensatzes, der aus vier Zahlen besteht - 50, 55, 65 und 90 - 65. Ohne den Ausreißer 90 beträgt der Mittelwert jedoch ungefähr 57.