Schlagwort: daten (Seite 1 von 1)

20. Januar 2018

Wie wir die Steuerpläne der Groko visualisiert haben

Für die aktuelle Ausgabe der SZ haben meine Kollegin Julia Kraus und ich eine Grafik produziert, die zeigt wer von geplanten Steuerentlastungen einer möglichen neuen Großen Koalition profitieren würde. Da ich danach gefragt wurde, hier ein paar Dinge zu unserer Vorgehensweise.

Grundlage der Simulation ist das Papier, in dem CDU, CSU und SPD die Ergebnisse ihrer Sondierungsgespräche festgehalten haben. Wir haben das Dokument auf SZ.de veröffentlicht (PDF). Ab Seite 15 gibt es ein Kapitel zu Steuern und Finanzen, das zwar relativ knapp gehalten ist, aus dem sich die wesentlichen Punkte aber dennoch ziemlich deutlich herauslesen lassen.

90 Prozent der Steuerzahler sollen vom Soli befreit werden. Das sind alle Haushalte, die weniger als etwa 70.000 Euro brutto im Jahr verdienen.
Die Beiträge der Krankenkasse werden künftig wieder von Arbeitgebern und Arbeitnehmern gleichmäßig bezahlt.
Die Beiträge zur Arbeitslosenversicherung sinken um 0,3 Prozentpunkte.
Kindergeld und Kinderfreibetrag werden erhöht.

Wissenschaftler der beiden Institute ZEW und IZA haben für uns die Auswirkungen dieser Maßnahmen berechnet. Dafür haben sie zwei Datengrundlagen verwendet: einmal einen Datensatz der Finanzverwaltung, der anonymisierte Steuererklärungen erhält. Darin sind ca 40 Parameter enthalten, die für die Steuer relevant sind – Kinderzahl, Freibeträge, Steuerklasse etc. Außerdem Daten aus dem Sozio-ökonomischen Panel, einer großen Bevölkerungsbefragung, bei der die Teilnehmer Angaben etwa zu ihren Einkommensverhältnissen machen. Beide Datensätze haben gewisse Schwächen, in der Kombination erlauben sie es den Forschern aber Cross-Checks zu machen und zu sehr validen Ergebnissen zu kommen.

Für jeden Einträg in diesen Datensätzen können die Forscher nun berechnen, was die von der Groko geplanten Änderungen an den Formeln für Steuern und Sozialbeiträge ändern würden, und daraus die gesamte Entlastung für jeden Haushalt berechnen. Daraus haben wir mehrere Auszüge veröffentlicht: die durchschnittliche Entlastung für zehn verschiedene Einkommensgruppen und für verschiedene typische Beispiel-Haushalte. Und das, was die Grafik oben zeigt: die jeweilige Entlastung für etwa 15.000 repräsentativ ausgewählte Einzelhaushalte.

Auf diese Visualisierung bin ich ein bisschen stolz. Denn das deutsche Steuersystem ist mit all seinen Ausnahmen und Sonderregelungen hochkomplex und hochindividuell. Kaum ein Steuerfall gleicht dem anderen. Daher zeigen wir nicht nur Mittel- und Beispielwerte – sondern in einer Grafik mit 15.000 Einzelpunkten das ganze Spektrum.

Hier noch eine Variante der Grafik, die die relative Entlastung in Prozent des Einkommens zeigt:

Das Projekt ist inspiriert von dieser Visualisierung der New York Times.

Fragen? Anmerkungen? Gerne hier in die Kommentare oder in der Diskussion auf Facebook und Twitter.

10. Mai 2017

Deutschland ist ein Wegwerfland – na und?

https://www.facebook.com/ihre.sz/videos/1383858585038850/

Wir haben etwas ausprobiert. Eigentlich wollten wir einfach nur Daten zum Müll in Deutschland auswerten und analysieren. Weil man diese Daten aber so oder so deuten kann, haben meine Kollegin Vivien Timmler und ich am Ende ein Streitgespräch geführt. Einmal siehe oben als Video, einmal als etwas ausführlicherer Text, den man hier nachlesen kann.

08. Mai 2017

Anders über Umfragen berichten

Spätestens, seit vergangenes Jahr zuerst die Volksabstimmung zum Brexit und dann die Wahl zum US-Präsidenten für die meisten sehr überraschend ausgingen, wird immer wieder über den Wert politischer Umfragen diskutiert. Was machen die Umfrage-Institute bloß falsch?

Die Antwort: gar nicht so viel. Die Umfragen der großen, renommierten Institute sind in der Regel ordentlich gemacht und kommen der tatsächlichen Stimmung in der Bevölkerung relativ nahe. Das Problem liegt eher bei den Medien und bei uns als Leser und Zuschauer. Weil wir Umfragen zu sehr vertrauen, enttäuschen sie uns oft. Natürlich können die Befragungen die Stimmung in der Bevölkerung nie ganz genau wiedergeben, sondern immer nur einen bestimmten Bereich eingrenzen. Mit meinen Kollegen Katharina, Martina und Sascha habe ich in den vergangenen Wochen eine Methode entwickelt, um diese Unsicherheit sichtbar zu machen. Das Ergebnis sind die beiden Grafiken, die hier zu sehen sind. Das Warum und Wie beschreiben wir ausführlich in diesem Artikel.

20. April 2017

Dumm und glücklich

Interessantes Ergebnis aus der aktuellen Pisa-Studie: Schulleistung und Lebenszufriedenheit korrelieren mit -0.41. Anders gesagt: Dumm macht glücklich. Oder glücklich macht dumm.

Mehr dazu in der SZ.

09. Februar 2017

Welche Bahncard ist die richtige für mich?

Ich habe hier schon viel zu lange keinen supernerdigen Kram mit Zahlen und Formeln und Diagrammen und Code gepostet. So wie damals, als ich beweisen wollte, dass der Versuch, den Ölpreis vorherzusagen, Quatsch ist; als ich den Balkan Safari Ice Cream Index erfand oder als ich ausrechnete, zu welcher Uhrzeit ich am besten meinen Newsletter verschicke. Solche Dinge also, die überhaupt keinen Sinn ergeben und wahrscheinlich auch niemanden interessieren, mir aber seltsamerweise Freude machen.

Nun, es wird mal wieder Zeit für Nerdkram. Dieses Mal ergibt es aber sogar Sinn. Ich habe etwas ausgerechnet und spare dadurch wahrscheinlich echtes Geld.

Jedes Jahr zum 28. Februar läuft meine Bahncard ab. Die Bahn schickt mir dann immer rechtzeitig eine neue (und gelegentlich kurz darauf eine Mahnung, weil ich zwar die neue Bahncard in meinen Geldbeutel räume, beiliegende Rechnung aber verlege). Es ist also bald wieder soweit und ich fragte mich neulich, ob ich vielleicht wechseln sollte.

Ich habe seit vielen Jahren eine Bahncard 25 (die kostet 62 Euro im Jahr und man bekommt dafür jede Fahrkarte um 25 Prozent billiger). Das hat für mich lange großen Sinn gemacht, weil ich jahrelang sehr häufig nach Österreich gefahren bin und die BC25, anders als die Bahncard 50 (255 Euro, 50 Prozent Rabatt) auch auf Auslandsfahrten gilt [1]. Inzwischen fahre ich nicht mehr so häufig nach Österreich, dafür insgesamt deutlich mehr mit dem Zug. Also kam mir der Verdacht, dass vielleicht ein Wechsel auf die Bahncard 50 klug wäre. Da ich für die aber zunächst fast 200 Euro mehr zahlen muss, wollte ich nachrechnen.

Wenn man innerhalb eines Jahres Fahrkarten im Wert von x Euro kauft, dann zahlt man dafür:

ohne Bahncard: x Euro
mit BC25: x Euro * 75% + einmalig 62 Euro
mit BC50: x Euro * 50% + einmalig 255 Euro

Eine Bahncard 25 lohnt sich dann, wenn das jeweils gesparte Viertel des Fahrpreises mehr ergibt als die einmalig gezahlte Gebühr für die Bahncard. Sie lohnt sich also dann – ich habe ja Formeln versprochen -, wenn x > 0.75 * x + 62.

Das kann man ausrechnen: Wer im Jahr mindestens 4 * 62 Euro = 248 Euro für Fahrscheine der Deutschen Bahn ausgibt, sollte sich eine Bahncard 25 zulegen [2].

Und wann lohnt sich nun der Wechsel auf die BC50? Um ein weiteres Viertel des Fahrpreises einzusparen, werden nun zusätzliche 193 Euro fällig.
In Formel: x * 0.25 + 62 > x * 0.5 + 255.

Diese Grenze liegt bei 4 * 193 Euro = 772 Euro. Wer also jährlich Fahrkarten für mehr als 772 Euro kauft, für den lohnt sich die BC50. Der Betrag bezieht sich dabei auf den vollen Fahrpreis ohne Abzug irgendeines Bahncard-Rabatts.

Das ist übrigens das, was euer Mathelehrer immer meinte, als er von Geradenschnittpunkten sprach.

Wann lohnt sich welche Bahncard? Grafik erstellt mit Geogebra.

Das ist zwar eine schöne Erkenntnis, aber keine Antwort auf meine Frage. Ich wollte ja wissen, wann sich für mich der Wechsel lohnt. Und woher soll ich wissen, wie viel ich im Jahr für’s Bahn fahren ausgebe?

Nun ja, von der Bahn zum Beispiel, oder? Ich kaufe fast alle Fahrscheine über die DB-App, die mit meinem Kundenkonto verknüpft ist [3]. Daher hat die Bahn auf ihren Servern einen fast vollständigen Datensatz meiner Bahnfahrten. Und ein bisschen ist die Bahn sogar bereit, diese Daten zu teilen:

Ich müsste jetzt nur 47 Buchungen aufrufen und mir jeweils den Preis notieren, schon wüsste ich, wie viel Geld ich 2016 in DB-Zügen verfahren habe. Bloß ist mir das halt zu umständlich. Leider bietet die Bahn keine Möglichkeit, die Daten irgendwie zusammenzufassen oder gar zu exportieren. Sie bietet mir als Erzeuger also nur so eine Art Besuchsrecht für meine Daten an, das Sorgerecht möchte sie für sich allein behalten.

Zum Glück ist mein Bank digital etwas besser aufgestellt als der olle Staatskonzern. Dort kann ich alle Kontobewegungen der vergangenen 12 Monate in einem Datensatz herunterladen. Der kommt als handliche CSV-Datei. An der musste ich nur ein kleines bisschen herumbasteln, dann konnte ich sie in eine Statistik-Software laden und auswerten.

Ich habe aus allen 349 Kontobewegungen des vergangenen Jahres zunächst alle rausgefiltert, bei denen im Namen des Empfängers/Absenders die Buchstabenfolge „DB“ vorkam. Übrig blieben 47 Einträge. Diese habe ich mir genauer angesehen. Sie verteilen sich auf folgende Namen:

[1] DB Rent GmbH [2] DB Vertrieb GmbH [3] VISA DB BAHN AUTOMATEN [4] VISA DB RENT GMBH

Das sind tatsächlich alles Tochterfirmen der Deutschen Bahn. Allerdings kümmert sich die DB Rent GmbH um das Fahrrad-Verleihsystem Call A Bike. Da es darauf keinen Bahncard-Rabatt gibt, muss ich diese Positionen aus meiner Rechnung ausnehmen. Dann filtere ich noch alle Positionen mit positivem Betrag – wo ich von der Bahn also Geld bekommen habe, etwa als Erstattung für Verspätungen -, und alle Positionen mit Betrag 23 oder 28 Euro. Das waren 2016 die Preise für ein Bayern-Ticket für eine bzw. zwei Personen und auf die Länder-Tickets gibt es ebenfalls keinen Bahncard-Rabatt.

Über alle übrig gebliebenen Posten bilde ich die Summe der Beträge und erhalte als Ergebnis 982,85 Euro [4]. Das liegt deutlich über der berechneten Schwelle von 772 Euro – also werde ich auf eine Bahncard 50 umsteigen.

Einem Spinner wie mir macht es zwar großen Spaß, so etwas auszurechnen. Trotzdem stellt sich aber die Frage, warum die Bahn das nicht selbst macht: Die haben ja alle Daten, müssten für alle Kunden nur ein einziges Mal ein Skript schreiben und könnten dann die Leute kontaktieren: Hey, uns ist aufgefallen dass für dich ein anderes Bahncard-Modell besser wäre, magst du vielleicht wechseln? [5]

Warum nutzt die Bahn die Daten nicht, die sie so rumliegen hat und versucht, daraus für sich und für ihre Kunden einen Nutzen daraus zu ziehen? Ich glaube, das wäre das, was Manager meinen, wenn sie von Digitalisierung und Big Data sprechen. Nun gut, manche wissen selbst nicht so genau, was sie meinen. Aber ich glaube das wäre das, was sie meinen wollen, oder so.

However, wenn man das dann ausgerechnet hat, bleibt ja immer noch der tatsächliche Bahncard-Wechsel. Auch den macht die Bahn einem nicht so richtig einfach. Einen Monat vor Ablauf der alten anrufen und fragen, ob sie einem zum Tauschdatum ne 50er schicken können, funktioniert schon mal nicht: Die 25er sei schon „in Produktion“, hieß es (bei einem kostenpflichtigen Telefonat nach mehreren Minuten in der Warteschleife). Die Lösung sieht so aus: Man fische die neue Bahncard aus dem Briefkasten, fahre zum Bahnhof, gehe ins Reisecenter, ziehe eine Nummer, warte bis man dran ist, tausche dann die BC25 gegen eine vorläufige BC50. Die richtige BC50 bekommt man dann später per Post. Yo.

Lustigerweise war ich kürzlich bei einer Pressekonferenz zum neuen kostenlosen Wlan, das es jetzt in den ICEs ein bisschen gibt. Es war glaube ich der letzte gemeinsame Auftritt von Verkehrsminister Dobrindt und Rüdiger Grube, bevor letzterer seinen Job als Bahnchef hinwarf. Dobrindt sagte dort, dass „die Bahn das Verkehrsmittel des digitalen Zeitalters ist“. Nun ja.

Die Debatte auf Facebook

https://www.facebook.com/cendt/posts/10210623383953665?pnref=story

Anmerkungen

[1] Die Logik dahinter habe ich noch nie verstanden. Bei der Bahn sagten sie damals, die beiden Karten würden eben unterschiedliche Kundengruppen ansprechen.

[2] Ausgenommen davon sind Spezialtickets wie das Bayern-Ticket und das Quer-durchs-Land-Ticket, auf die gibt es keinen Bahncard-Rabatt.

[3] Wenn ich doch mal ein Ticket am Automaten kaufe, identifiziere ich mich dort in der Regel mit meiner Bahncard, so dass auch diese Daten erfasst werden.

[4] Hier noch der Quellcode meiner Analyse in R:

ing <- read.csv("ing.csv",sep=";") > ing <- tbl_df(ing) > db <- filter(ing,grepl("DB",Name)) > unique(db$Name) [1] DB Rent GmbH [2] DB Vertrieb GmbH [3] VISA DB BAHN AUTOMATEN [4] VISA DB RENT GMBH > dbx <- filter(db,!grepl("Rent",Name)) > dbx <- filter(dbx,!grepl("RENT",Name)) > dbxx <- filter(dbx,!Betrag==23) > dbxx <- filter(dbxx,!Betrag==28) > dbxx <- filter(dbxx,Betrag<0) > sum(dbxx$Betrag) [1] -982.85

[5] Durch Googeln bin ich noch auf ein gut verstecktes Tool gestoßen, mit dem sich Pendler ausrechnen können, ob sich eine Bahncard lohnt. Für mich hat das aber keinerlei Wert.

17. Februar 2015

Codeprojekt: Newsletter-Optimierung

Yeah! Seit einiger Zeit versuche ich mittels Codeacademy, das Programmieren mit Python zu lernen. Gerade habe ich zum ersten Mal eine eigene Datenanalyse in Python gemacht.

Es geht um meinen Newsletter für den Blog hier. Der funktioniert so, dass er jeden Tag zu einer bestimmten Uhrzeit prüft, ob ein neuer Beitrag auf cendt.de vorhanden ist. Wenn ja, schickt er eine Mail an alle Abonnenten. Diese Uhrzeit ist jeden Tag gleich, lässt sich aber frei wählen.

Meine Frage war nun: Wann ist die ideale Zeit für den Newsletter-Versand? Ziel ist dabei, die Leser möglichst schnell zu informieren. Die Wartezeit zwischen Erscheinen des neuen Beitrags und Versenden des Newsletters soll also minimal sein.

Zuerst habe ich mir angesehen, zu welchen Zeiten ich hier so poste. Dazu habe ich aus WordPress die Daten zu allen 128 bisher veröffentlichten Beiträgen exportiert. Das war wesentlich schwieriger als gedacht: WordPress stellt nur einen XML-Export zur Verfügung (es gibt eine Menge Plug-Ins, die angeblich CSV-Export ermöglichen, bei mir hat aber kein einziges funktioniert). Dabei erhält man eine Datei, die Metadaten UND Inhalt zu allen Beiträgen enthält. Die Zeile, die mich dabei jeweils interessiert, sieht so aus:
2015-02-13 07:39:58
Es war erstmal ein ziemliches Gefrickel, nur diese Zeilen au den 8000 Zeilen XLM-Code rauszufiltern – Notepad++ hat dazu aber ein paar gute Funktionen. Mit Calc, dem Excel-Klon von OpenOffice (ich weiß, alle echten Statistiker hören jetzt auf zu lesen), habe ich daraus jeweils die Stunde ausgelesen und durchgezählt. Es entsteht folgende Verteilung:

Blogposts nach Uhrzeit. Jeweils abgerundet auf volle Stunden. 22 bedeutet also 22:00 bis 22:59 Uhr.

Ich blogge also vor allem abends, mit einem Peak zwischen 22 und 23 Uhr. Morgens zwischen acht und elf gibt es eine zweite Hochphase. Noch nie gebloggt habe ich demnach zwischen ein und 4 Uhr nachts und zwischen elf und zwölf Uhr vormittags.

Intuitiv würde man jetzt sagen, dass ein Newsletter so um null oder ein Uhr wahrscheinlich am meisten Sinn macht. Ich wollte es aber genau wissen und habe ein Skript geschrieben, um die ideale Zeit zu bestimmen. Das bekommt als Input die Stundendaten aller bisherigen Posts:

[4,21,21,22,22,22,23,23,23,23,23,23,23,23,23,23,22,23,19,21,10,17,22,20,20,23,21,0,9,12,12,8,15,12,5,21,20,22,12,20,20,19,0,15,18,21,4,17,12,9,9,21,18,17,9,22,14,0,21,9,15,18,17,7,8,21,16,22,21,10,14,20,22,14,21,23,8,20,5,8,21,22,22,18,22,17,20,0,8,23,22,10,19,8,10,18,22,17,22,17,18,22,9,18,7,8,9,9,4,6,6,6,20,12,21,12,10,10,20,0,16,17,22,20,9,16,13,7]

Dann fängt es an, 24 Möglichkeiten für den Versand-Zeitpunkt durchzuspielen (jede volle Stunde). Für jede Möglichkeit rechnet mein Programm die Verzögerung gegenüber den Posts aus und merkt sich, welcher Zeitpunkt der beste war. So sieht der Code aus:

postdata = [4,21,21,22,22,22,23,23,23,23,23,23,23,23,23,23,22,23,19,21,10,17,22,20,20,23,21,0,9,12,12,8,15,12,5,21,20,22,12,20,20,19,0,15,18,21,4,17,12,9,9,21,18,17,9,22,14,0,21,9,15,18,17,7,8,21,16,22,21,10,14,20,22,14,21,23,8,20,5,8,21,22,22,18,22,17,20,0,8,23,22,10,19,8,10,18,22,17,22,17,18,22,9,18,7,8,9,9,4,6,6,6,20,12,21,12,10,10,20,0,16,17,22,20,9,16,13,7]
postcount = len(postdata)
def delaycalc(testtime):
    delay = 0
    for i in range(postcount):
        dist = testtime - postdata[i]
        if dist>=0:
            delay = delay + dist
        else:
            delay = delay + 24 + dist
    return delay
totaldelay = delaycalc(0)
newstime = 0
for testtime in range (1,23):
    testdelay = delaycalc(testtime)
    if testdelay < totaldelay:
        totaldelay = testdelay
        newstime = testtime
    else:
    totaldelay = totaldelay
avrgdelay = totaldelay/postcount
print ("Ideale Zeit: ",newstime,". Gesamtverzoegerung: ",totaldelay,". Im Durschnitt: ",avrgdelay)

Und so das Ergebnis im Compiler:

>>> Ideale Zeit: 0 . Gesamtverzoegerung: 954 . Im Durschnitt: 7.453125 >>>

Tatsächlich sollte und werde ich meinen Newsletter zukünftig um Mitternacht verschicken. Im Durchschnitt geht der dann 7,5 Stunden nach Erscheinen des Beitrags raus.

Da ich mit dem Professor für Optimierung an meiner Uni nicht klar gekommen bin, habe ich das leider nie gelernt und weiß nicht, ob mein einfaches Vergleichen der Verzögerungs-Summen mathematisch die beste Lösung ist. Wenn da jemand eine bessere Idee hat, gerne melden. Mir ging es in erster Linie ums Programmieren.

13. Februar 2015

Nachtrag zu Ölpreis-Prognosen

In der Facebook-Diskussion zu meinem Beitrag von gestern argumentieren mehrere Leute, warum die ~~Prognosen~~ Annahmen der IEA zur Ölpreis-Entwicklung vielleicht schon ganz gut hinhauen könnten. Hauptargumente sind das Fracking in den USA und der saudische Staatshaushalt. Beides macht Sinn. Trotzdem kann es auch ganz anders kommen. Ein Aufstand in Saudi-Arabien, ein Fracking-Verbot in den USA – das sind unwahrscheinliche, aber denkbare Szenarien.

Für meine Abschlussarbeit an der Uni habe ich mir die Klimaprognosen des Intergovernmental Panel on Climate Change (IPCC) angesehen. Die sind ziemlich gewagt und ziemlich umstritten. Gegen den Ölpreis-Prognosen-Annahmen der IEA haben sie aber zwei entscheidende Vorteile:

1) Die (u.a. politischen) Unwägbarkeiten werden vom IPCC dadurch berücksichtigt, dass es verschiedene Szenarien gibt. Szenario A1FI beispielsweise geht davon aus, dass weiterhin hauptsächlich fossile Energien zum Einsatz kommen, während B1 den verstärkten Einsatz regenerativer Quellen annimmt. Je nach Szenario ergibt sich eine ganz andere Entwicklung der CO2-Emissionen und somit des Weltklimas. Und für jedes Szenario wird nicht nur der wahrscheinlichste Pfad angegeben, sondern auch ein Toleranzbereich außenrum, der die Unsicherheit der Vorhersage ausdrückt.

Quelle: Solomon et al, Climate Change 2007: The Physical
Science Basis

2) In der Klimaforschung ist die absolute Mindestanforderung an ein Modell, dass es die Vergangenheit richtig reproduzieren kann. Da kann man also nicht nach einem unerwarteten Sprung (siehe Post von gestern) einfach von vorn anfangen. Sondern muss die Gleichungen so anpassen, dass der Sprung im Ergebnis enthalten ist.

Das wären mal zwei Kriterien, in denen sich eine „Annahme“ von einer wirklichen Prognose unterscheidet. Ein interessantes Buch dazu ist „The Signal and the Noise“ von Nate Silver, der in Amerika immer sehr erfolgreich Wahlergebnisse vorhersagt. Habe bisher aber nur reingelesen.

12. Februar 2015

Kann man den Ölpreis vorhersagen?

Öl bleibt jetzt für immer billig, schreibt die FAZ. Woher wollen die das wissen?

„Die Ölpreise werden weiter niedrig bleiben“ lautet eine Überschrift im Wirtschaftsteil der Frankfurter Allgemeinen Zeitung von gestern (nicht online). Das lässt viel Raum für Interpretation: Was bedeutet niedrig, und wie lange ist „weiter“? Deutlicher ist der erste Satz des Artikels: „Ölpreise von mehr als 100 Dollar gehören der Vergangenheit an.“

„Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen“ soll Niels Bohr gesagt haben. Bohr war Physiker, in seiner Welt lassen sich manche Dinge relativ gut vorhersagen, Sonnenfinsternisse zum Beispiel. Das Wetter ist schon komplizierter, obwohl es prinzipiell auch den Gesetzen der Physik folgt. Aber der Ölpreis? Um den vernünftig vorherzusagen, müsste man den Lauf der Weltkonjunktur, verschiedenste regionale Konflikte, den Dollarkurs, technische Entwicklungen der Fördertechnik, den Fortschritt bei regenerativen Energiequellen, die Launen der saudischen Prinzen und hundert andere Dinge kennen. Woher weiß die FAZ das alles?

Tatsächlich beruft sich der Artikel auf einen aktuellen Bericht der Internationalen Energieagentur. Blöd nur, dass die IEA darin gar keine Preisprognosen abgibt. Der Bericht enthält umfangreiche Analysen zur Entwicklung von Angebot und Nachfrage von Öl für verschiedene Weltregionen. Die Organisation traut sich aber nicht zu, daraus Vorhersagen für den Preis abzuleiten. In der Zusammenfassung (PDF; den ganzen Bericht verkaufen sie für 80 Euro) steht:

As with previous editions of this Report, the price assumptions (not forecasts) used as modelling input
are derived from the futures curve.

„Not forecasts“. Ausdrücklich keine Vorhersagen. Die Annahmen der IEA werden aus den Kursen für Termingeschäfte abgeleitet. Also aus Geschäften, bei denen die Lieferung von Öl zu einem bestimmten Zeitpunkt in der Zukunft vereinbart wird. Diese Kurse spiegeln in etwa die kollektiven Preiserwartungen der Analysen und Händler wieder. Sie geben also bestimmt eine gewisse Orientierung, wohin die Reise gehen könnte. Aber Vorhersagen sind das nicht.

Die sind auch kaum möglich. So hat sich der Ölpreis seit 1946 entwickelt (inflationsbereinigt):

Die größten Ausreißer sind die Ökrise der 1970er-Jahre und die Finanzkrise seit 2008. Aber auch dazwischen macht der Kurs was er will. Und das sind jetzt schon die jährlichen Durchschnittswerte – im Tagesverlauf geht es noch viel wilder zu.

Diese ~~Prognosen~~ Annahmen über den Ölpreis gibt die IEA seit 2009 heraus. Zumindest für ein paar Jahre kann man also schon sehen, wie gut das mit der realen Preisentwicklung zusammenpasst.

Die fette schwarze Linie ist der Ölpreis, jeweils als jährlicher Durchschnitt. Die anderen Linien sind die Schätzungen aus den jeweiligen IEA-Berichten. Den Sprung von 80 Dollar 2010 zu 110 Dollar ein Jahr später haben sie also nicht kommen sehen. Danach war der Kurs relativ brav, da hauen auch die ~~Prognosen~~ Annahmen ganz gut hin.

Letztes Jahr ist ja nochmal einiges passiert. Das zeigt sich im Jahres-Durchschnitt für 2014 nicht so krass, aber der Ölpreis ging von 112 Dollar im Juni auf nur noch 62 Dollar im Dezember runter. Das ist der aktuelle Preisverfall, der geopolitisch für einigen Wirbel sorgt – die USA finden’s super, ihre Feinde (Iran, Venezuela, Russland) haben große Probleme dadurch. Das ist der aktuelle Preisvefall, auf dem die Jubel-Überschrift der FAZ basiert.

Aber: Auch den hat die IEA vorher nicht abgesehen. Die ~~Prognosen~~ Annahmen, die bis einschließlich 2014 erstellt wurden, zeigen zwar eine Tendenz nach unten – aber längst nicht so krass, wie es letztes Jahr tatsächlich passiert ist. Der aktuelle Bericht von dieser Woche beinhaltet den Kurseinbruch – da war er ja schon passiert.

Bis 2020 ~~prognostiziert~~ nimmt die IEA jetzt einen moderaten Wieder-Anstieg des Ölpreises an. Kein Mensch weiß, ob es nicht nochmal zu unerwarteten, drastischen Ausschlägen nach oben oder unten kommt. Verursacht durch was auch immer. Und für die Zeit nach 2020 gibt es überhaupt gar keine Aussage. Der Satz in der FAZ – ein Ölpreis über 100 Dollar gehöre der Vergangenheit an – ist also unseriös.

Quellen: IEA, BP, Statista. Spreadsheet mit meinen Rohdaten. Die IEA-Berichte enthalten keine Tabellen mit den Zahlen. Die Diagramme sind manchmal beschriftet, manchmal nicht. In diesem Fall habe ich die Werte mit dem Tool Plot Digitizer ermittelt.

Nachtrag: Ein kurzer methodischer Vergleich der IEA-Annahmen mit den Klimaprognosen des IPCC

11. Februar 2015

How much is the rich?

Ständig heißt es, die Reichen hätten zuviel Geld. Dabei weiß gar niemand, wie viel sie eigentlich haben. Jetzt haben zwei Forscher eine neue Statistik-Methode entwickelt.

„Die X reichsten Deutschen haben Y Prozent des Vermögens.“ Solche Sätze lesen wir ständig, wenn es um soziale Ungleichheit und die Schere zwischen Arm und Reich geht. Der Witz ist: Eigentlich weiß keiner, wieviel Geld die Reichen hier im Land haben.

Geht es um Ungleichheit, muss man erstmal zwischen zwei verschiedenen Dingen unterscheiden: Einkommen und Vermögen. Die Verteilung des Einkommens lässt sich relativ gut abschätzen. Es gibt in Deutschland eine Einkommenssteuer, die (prinzipiell) auch reiche Leute bezahlen müssen. Also weiß der Staat aus den Steuererklärungen seiner Bürger in etwa, wer wie viel verdient.

Beim Vermögen ist das schwieriger. Da die Vermögenssteuer in Deutschland 1997 abgeschafft wurde, muss niemand offenlegen, wieviel er hat [1].

Studien, in denen die Vermögensverteilung ermittelt werden (in Deutschland vor allem das Sozio-ökonomische Panel, SOEP), stützen sich daher auf Befragungen. Die rufen bei Leuten an und fragen, wie viel Geld sie haben. Die Wahrscheinlichkeit, da einen Milliardär zu erwischen ist ziemlich klein – bei den elftausend Befragten des SOEP etwa 1,6 Prozent [2]. Noch unwahrscheinlicher ist, dass der Auskunft gibt.

Nun tut es Diskussionen aller Art in der Regel gut, wenn sie auf der Grundlage von Fakten stattfinden. Noch besser ist es, wenn diese Fakten auch stimmen. Ganz besonders gilt das für Themen wie soziale Gerechtigkeit. Zum Glück erscheint heute eine Studie von Markus Grabka und Christian Westermeier, in der die beiden DIW-Forscher mit neuen Methoden die Vermögensstatistik verbessern möchten.

Grabka und Westermeier verwenden dazu die Forbes-Liste aller Milliardäre der Welt. Das ist natürlich keine besonders verlässliche Quelle (u.a. weil sie total intransparent ist, Quellen und Methodik werden nicht veröffentlicht) – aber eine bessere konnten die Forscher nicht finden. Die Liste enthält 1645 Menschen mit einem Vermögen über einer Milliarde US-Dollar, darunter 85 Deutsche. Im Jahr 2012, auf das sich die Studie bezieht, waren es 55 [3].

Diese Zahl verwenden Grabka und Westermeier, um mittels eines statistischen Verfahrens die bisherigen Zahlen zur Vermögensverteilung zu korrigieren. Sie nehmen dazu eine Pareto-Verteilung an und ersetzen für das obere Ende der Skala die empirischen Befragungsdaten mit den Ergebnissen ihrer Simulation. Die Parameter der Verteilung schätzen sie aus den Forbes-Daten. Wenn man sich für Stastistik interessiert, sind die Ausführungen zur Methodik interessant.

Diese Vorgehensweise ist ziemlich wild. Grabka und Westermeier nehmen daher hohe Fehlertoleranzen an. In jedem Fall ergeben ihre Ergebnisse jedoch eine deutlich stärkere Konzentration des Reichtums als bisher angenommen. Die Süddeutsche schreibt:

So gehören den 0,1 Prozent der reichsten deutschen Haushalte 14 bis 16 Prozent des Gesamtvermögens. Das ist dreimal so viel wie jene fünf Prozent, von denen die Statistiker bisher ausgingen. Der Anteil des reichsten Prozents der Deutschen steigt von bisher angenommenen 18 Prozent auf 31 bis 34 Prozent; ihnen gehört also ein Drittel des Gesamtvermögens. Und die reichsten zehn Prozent der deutschen Haushalte vereinigen sogar 63 bis 74 Prozent des Gesamtvermögens auf sich, ermittelten die DIW-Forscher; bisher war man von lediglich 60 Prozent ausgegangen.

Kein Wunder, dass das inzwischen den Milliardären selbst unheimlich wird.

Was mich und meinen Gesprächspartner in der Cafeteria übrigens gewundert hat: Vermögen sind nicht steuerpflichtig, durchaus aber Kapitalerträge, also Zinsen, Mieteinnahmen etc. Sind dazu Daten verfügbar? Lassen sich daraus keine Rückschlüsse ziehen? Wer was weiß oder eine Theorie hat, gerne in die Kommentare schreiben.

Update (17. Februar 2015): Auf Nachfrage schreibt mir Christian Westermeier per E-Mail:

Man könnte von den Kapitalerträgen sicherlich Rückschlüsse auf das zugrunde liegende Vermögen schließen (wenn auch nur unter sehr großem Aufwand). Seit der Einführung der Abgeltungssteuer als Quellensteuer sind die Kapitalerträge größtenteils aber nicht mehr einzelnen Personen oder Haushalten zuzuordnen, da sie seitdem direkt von der Bank bspw. an das zuständige Finanzamt abgeführt werden. Es ist nur noch bekannt, wie groß das gesamte Steueraufkommen ist. Auch hier ergibt sich so leider keine nützliche Datenquelle.

Fußnoten:

[1] Es ist auch nicht ganz klar, was man unter Vermögen versteht. Ansprüche an die gesetzliche Rentenversicherung werden in der Regel nicht berücksichtigt; dabei machen die in Deutschland einen großen Teil aus (in Griechenland weniger, was der Bild-Zeitung schon für einige Hetz-Schlagzeilen diente). Auch Hausrat (einschließlich Autos) bleibt häufig außen vor. Bei der Wertermittlung von Immobilien gibt es große Unterschiede.

[2] Mathematisch handelt es sich um ein Bernoulli-Problem. Laut Forbes gibt es in Deutschland 55 Milliardäre. Das Statistische Bundesamt zählte 2013 insgesamt 39,933 Millionen Haushalte. Die Wahrscheinlichkeit, dass in einem zufällig ausgewählten Haushalt ein Milliardär wohnt, beträgt damit 55/39933000=0,00014 Prozent (Trefferwahrscheinlichkeit). Bei der SOEP-Studie werden 11.447 Haushalte befragt (Anzahl der Versuche). Nehmen wir an, diese werden komplett zufällig unter allen Haushalten in Deutschland ausgewählt (was nicht ganz stimmt). Dann beträgt die Wahrscheinlichkeit, dass in mindestens einem dieser Haushalte ein Milliardär wohnt, 1,6 Prozent. Mit 98,4 Prozent Wahrscheinlichkeit erreicht die SOEP-Umfrage also keinen einzigen Milliardär (Berechnung im Spreadsheet). Den SEOP-Leuten ist das Problem bewusst. Sie führen daher eine gesonderte Befragung durch mit dem Ziel, mehr über reiche Leute zu erfahren. Diese fand zuletzt 2002 statt; es wurden 1.224 Haushalte mit einem monatlichen Einkommen über 4.500 Euro befragt.

[3] Eine andere Liste des Manager-Magazins kommt auf 135 deutsche Euro-Milliardäre. Grabka und Westermeier halten jedoch Forbes für die besssere Quelle.

05. Oktober 2014

Balkan Safari Ice Cream Index (BSICI)

In Dubrovnik zahlt man 30 Prozent Touri-Aufschlag.

Im September reisten Max und ich mit dem Rucksack durch Südosteuropa. Da es einerseits Sommer war, wir andererseits jedoch mit sehr geringem Budget unterwegs waren, haben wir relativ oft geschaut, ob wir uns eine Kugel Eis leisten ~~können~~wollen. Irgendwann fing ich an, die Preise in mein Notizbuch zu schreiben. Und irgendwann erhielt das Projekt einen Namen: Balkan Safari Ice Cream Index. Kurz: BSICI. Als Nebenprojekt entstand der BSCBI, Balkan Safari Canned Beer Index.

Zurück von der Reise, habe ich die Daten mal in eine Tabelle geschrieben. Hatten wir aus einem Land mehrere Preise, ist der jeweils billigste in den Index eingeflossen, um Aufschläge für Touri-Hotspots (wie Dubrovnik) zu eliminieren.

Land	Kugel Eis (EUR)	0,5l Bier (EUR)	BIP pro Kopf (EUR)
HR	0,92	1,44	10.806,41
ME	0,50	1,00	5.691,54
AL	0,29	0,72	3.715,55
GR	1,50	1,09	17.499,52

Dann habe ich zu jedem Land das Bruttoinlandsprodukt pro Kopf rausgesucht, und Google den Korrelationskoeffizient berechnen lassen. Das Ergebnis ist einigermaßen erstaunlich:

Zwischen unseren Eis-Preisen und dem BIP pro Kopf gibt es eine Korrelation von 0,999.

Wir haben ja keine auch nur annähernd wissenschaftliche Erhebung gemacht, wir sind einfach durch die Straßen geschlendert und haben ab und an geschaut, was das Eis so kostet. Aus Kroatien, Montenegro und Albanien hatten wir je zwei Werte. Am Ende wurden wir nachlässig, aus Griechenland gibt es nur eine Zahl (Athen).

Mit dem Dosenbier funktioniert es nicht so gut: Das korreliert nur mit 0,535 mit dem BIP pro Kopf. Eis und Bier korrelieren untereinander mit 0,541. Ein befreundeter Volkswirt hatte dafür auch sofort eine plausible Erklärung: „Dosenbier ist ja ein Suchtmittel, da kann man einkommensunabhängigere Preise setzen.“

Natürlich ist das totaler Quatsch. Natürlich lässt sich aus vier Datenpaaren keine brauchbare Statistik basteln. Lustig ist es trotzdem. Naja, nerd-lustig zumindest.

Quellen: eigene Recherchen, Weltbank (BIP), Wolfram Alpha (Wechselkurse)
Die Daten im Google Spreadsheet

https://www.facebook.com/cendt/posts/10203962238829200