ylim(4,7) die gefährlichste Funktion in ggplot
Am selben Tag, an dem ich einen Blogeintrag zum Thema Skalierungen geschrieben habe, hätte ich fast einen richtigen Bock geschossen. Zum Glück gibt es aufgeweckte Kollegen, denen es auffällt, wenn sich plötzlich Mittelwerte ändern.
Was war passiert. In einem Artikel, in dem wir mehrere Studien zum Thema Akzeptanz von Warnapps kombiniert haben, wollten wir in der letzten Runde mit dem Verlag noch die Abbildungen, die die Gruppenmittelwerte zeigen, aufhübschen und insbesondere in den Studien den Achsenrange angleichen, damit die Ergebnisse leichter miteinander zu vergleichen sind.
Nach einem kurzen Blick auf die Abbildungen sah es auch so auch so aus, als ginge das ganz gut. Meine Kollegin war aber recht alarmiert, weil sich die Ergebnisse plötzlich geändert hatten.
Was war geschehen?
Ein Beispiel mit dem Diamonds Datenset
Zuerst schauen wir uns einfach mal zwei Subsets seperat an, die mit einem miesen Schliff (fair-cut) und einem premium-Schliff (premium-cut).
Die zu schnelle Lösung mit ylim()
Nach einem blick auf die Mittelwerte sieht es auch hier so aus, als könnte man beide Abbildungen ganz gut darstellen, wenn man eine Skalierung von 3500 bis 7000 wählt. Aber das ändert auch hier sehr dramatisch die Mittelwerte und Standardabweichungen.
Zur Ehrenrettung von ylim. Wir erhalten auch eine Warnung, dass 1102 Datenpunkte außerhalb der limits entfernt wurden. Also Augen auf bei Warnungen.
Die bessere Lösung coord_cartesian()
Der bessere Befehl an dieser Stelle ist eindeutig coord_cartesian().