Deskriptive Statistiken

Diagnostik
AdventskalendR
Autor:in

Gerrit Hirschfeld

Veröffentlichungsdatum

22. Dezember 2024

Deskriptive Statistiken

Neulich ist mir mal wieder in einem meiner Master-Kurse aufgefallen, dass die meisten leider schon so viel Kummer gewöhnt sind, dass sie auch wenn sie mit R arbeiten immernoch sehr vieles von Hand machen. Konkret ging es darum, dass die Studis eine Tabelle mit deskriptiven Statistiken für 20 einzelne Items aus der summary-Funktion abgeschrieben haben.

Ich find’s ja einen guten Einsatz, aber es zeigt mir leider, dass es auch die meisten digital Natives ganz selbst verständlich ist, genau die Arten von stupiden Aufgaben - hier Werte aus einer Tabelle in eine andere zu schreibe - von Software/Computern zu übernehmen, für die diese eigentlich entwickelt wurden.

Ein paar lesbare und druckbare Deskriptiv Statistiken

Ein Paket, dass man wunderbar nutzen kann, um deskriptive Statistiken zu erstellen ist CompareGroups. Wie der Name schon sagt, ist es eigentlich entwickelt worden, um Gruppen miteinander zu vergleichen, man kann aber einfach die Gruppierungsvariable weglassen und dann hat man sehr hübsche Tabellen, bei denen auch schon in Abhängigkeit des Variablentyps passende deskriptive Statistiken gewählt werden.

Als Bonus kann man sich diese Tabellen auch direkt als eine Word-Datei abspeichern lassen kann. Da die viele Journals Tabellen immernoch in seperaten Files haben möchten, ist das ein sehr guter workflow.

Hier also ein kleines Beispiel:

library(ggplot2) # nur für das Datenset
library(dplyr)

Attaching package: 'dplyr'
The following objects are masked from 'package:stats':

    filter, lag
The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union
library(compareGroups)

data(diamonds)
names(diamonds)
 [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
 [8] "x"       "y"       "z"      
res_tab<-diamonds %>%
  compareGroups(~ carat +cut + color + clarity) %>%
  createTable() 
Warning in compareGroups(., ~carat + cut + color + clarity): data argument will
be ignored since formula is already a data set

Export als rmd oder word-Datei

Netterweise stellt das Paket auch eine Reihe von Exportfunktionen bereit, hier z.B. als rmd oder word-Datei.

export2md(res_tab, file = "test.ddd")
Summary descriptives table
[ALL] N
N=53940
carat 0.80 (0.47) 53940
cut: 53940
Fair 1610 (2.98%)
Good 4906 (9.10%)
Very Good 12082 (22.4%)
Premium 13791 (25.6%)
Ideal 21551 (40.0%)
color: 53940
D 6775 (12.6%)
E 9797 (18.2%)
F 9542 (17.7%)
G 11292 (20.9%)
H 8304 (15.4%)
I 5422 (10.1%)
J 2808 (5.21%)
clarity: 53940
I1 741 (1.37%)
SI2 9194 (17.0%)
SI1 13065 (24.2%)
VS2 12258 (22.7%)
VS1 8171 (15.1%)
VVS2 5066 (9.39%)
VVS1 3655 (6.78%)
IF 1790 (3.32%)
depth 61.7 (1.43) 53940
table 57.5 (2.23) 53940
price 3933 (3989) 53940
x 5.73 (1.12) 53940
y 5.73 (1.14) 53940
z 3.54 (0.71) 53940

Und wenn man möchte, kann man sich das ganze auch direkt in eine Word-Datei schreiben lassen

export2word(res_tab, file = "res_tab.docx")