Carl Hanser Verlag · 2026 · ISBN 978-3-446-47640-0

Data Science
mit Big Data

783 Seiten. 18 Kapitel. Echter Code. Alles was du brauchst, um Daten in großem Maßstab zu verstehen, zu verarbeiten – und daraus echten Wert zu schaffen.

Zum Hanser Verlag Code auf GitHub

783Seiten

18Kapitel

4Autoren

100%Vollfarbe

In God we trust.
All others must bring data.

William Edwards Deming Statistiker & Qualitätsmanagement-Pionier (1900–1993)

Was dieses Buch besonders macht

Theorie trifft Praxis.

Kein abgehobenes Lehrbuch, kein oberflächlicher Überblick – sondern das Beste aus beiden Welten: fundiertes Konzeptwissen und Code, den du heute noch ausführen kannst.

Echter, lauffähiger Code

Python, Java, R – alles sofort ausführbar. GitHub-Repository und Google Colab Notebooks inklusive. Kein Pseudocode.

Der vollständige Stack

Spark, Kafka, Flink, Delta Lake, sieben NoSQL-Systeme, Kubernetes – nicht cherry-picked, sondern vollständig.

KI ist kein Anhang

LLMs, RAG, autonome Agenten, MCP. Das letzte Kapitel gehört der Zukunft – und zeigt, wohin die Reise geht.

Docker-First, nicht Docker-Afterthought

Alle Infrastruktur-Beispiele laufen sauber in Docker und Docker Compose. Reproduzierbar. Produktionsnah.

Lehrbuch und Nachschlagewerk

Egal ob du Einstieg suchst oder eine Architektur-Entscheidung absichern willst – dieses Buch hat beides.

783 Seiten in Vollfarbe

Komplett in Farbe – jede Grafik, jedes Diagramm, jeder Code-Block. E-Book beim Kauf inklusive.

18 Kapitel · Vom Fundament bis zur KI

Von null auf Big Data.

Kapitel 1–2 · Einführung

Gestatten, Data – Big Data

Was Big Data wirklich bedeutet – und warum verteilte Systeme alles verändern.

Kapitel 1–2 · Einführung

Gestatten, Data – Big Data

Was Big Data wirklich bedeutet – Google Trends, echte Use Cases und die fundamentalen Konzepte verteilter Systeme: CAP-Theorem, Konsistenzmodelle, Fehlertoleranz. Der Startschuss.

Google TrendsCAP-TheoremDistributed SystemsPython

Kapitel 3–6 · Daten

Daten, Formate & Management

Von Rohdaten zu strukturiertem Wissen: CSV, JSON, Parquet und Avro im direkten Vergleich. Big-Data-Management-Konzepte und Vorgehensmodelle für echte Projekte.

ParquetAvroPyArrowPandas

Kapitel 7–10 · Architektur

Warehouse, Lake, Lakehouse & Mesh

DuckDB, Delta Lake, Data Mesh Manager – alle vier Architektur-Paradigmen praxisnah erklärt. Mit klaren Entscheidungshilfen für Architekten.

DuckDBDelta LakeData MeshSternschema

Kapitel 11 · NoSQL

NoSQL – Sieben Welten

Redis, MongoDB, Neo4j, Cassandra, InfluxDB, Milvus, ArangoDB, OpenSearch – jede für ihren Zweck. Mit Entscheidungshilfen, die den Unterschied machen.

RedisMongoDBNeo4jCassandraMilvus

Kapitel 12–13 · Stream & Batch

Kafka, Spark & Flink

Apache Kafka für Streams, Spark und Flink für verteilte Berechnungen, Hadoop und Ignite für Batch. Vollständig mit Java- und Python-Code – kein Schönwetter-Tutorial.

Apache KafkaApache SparkApache FlinkHadoop

Kapitel 14 · Algorithmen

Skalierbare Algorithmen

Morris-Counter, HyperLogLog, Bloom-Filter, t-digest – Algorithmen in konstantem Speicher für Milliarden Datenpunkte. Das sind die Tricks, die große Systeme erst möglich machen.

HyperLogLogBloom Filtert-digestJava

Kapitel 15–16 · Analyse

Visualisierung & Architekturwissen

Matplotlib, Seaborn, ggplot2 für aussagekräftige Visualisierungen. Echtzeit-Monitoring. Und das konzeptuelle Fundament für skalierbare Big-Data-Systemarchitekturen.

Matplotlibggplot2SeabornR

Kapitel 17 · DevOps

Test & Betrieb mit Kubernetes

Testing-Strategien, Monitoring und Kubernetes mit minikube. Weil ein System, das man nicht betreiben kann, kein gutes System ist.

KubernetesDockerminikubeMonitoring

Kapitel 18 · Künstliche Intelligenz

LLMs, RAG, Agenten & MCP

Training, RAG, autonome Agenten, Model Context Protocol. Das letzte Kapitel ist das mutigste – und zeigt, was passiert, wenn Big Data auf moderne KI trifft.

LLMsRAGAI AgentsMCPFine-Tuning

Die Autoren

Vier Perspektiven.
Ein Buch.

Wissenschaft trifft Praxis. Vier Autorinnen und Autoren aus Forschung und Industrie – zusammen für ein Werk, das beides kann.

Oliver Hummel

Professor für Software Engineering

Hochschule Mannheim

Marcus Kessel

Akademischer Rat · Software Engineering & Data Science

Universität Mannheim

Beate Navarro

Professorin für Data Science & Datenbanksysteme

Technische Hochschule Ingolstadt

Robert Butscher

Professor für Business Intelligence

THWS Würzburg-Schweinfurt

Open Source

github.com/bigdatabuch

Der Code zum Buch –
offen für alle.

Alle Beispiele aus allen 18 Kapiteln. Lauffähig, kommentiert, kapitelweise sortiert. Python, Java, R. Mit Docker und Google Colab direkt ausführbar – kein Setup-Marathon.

main Python · Java · R Docker ready

Zum Repository

Das Buch für alle,
die es wirklich verstehen wollen.

18 Kapitel. 783 Seiten. Code, der läuft. Komplett in Farbe – weil gute Grafiken einen Unterschied machen.

Beim Hanser Verlag bestellen

ISBN 978-3-446-47640-0

Technologien im Buch

Apache Spark Apache Kafka Apache Flink Delta Lake DuckDB MongoDB Redis Neo4j Cassandra Milvus OpenSearch InfluxDB ArangoDB Kubernetes Docker Python 3.10+ Apache Hadoop LLMs & RAG AI Agents · MCP Java 11+ R / ggplot2 HyperLogLog Bloom Filter Apache Spark Apache Kafka Apache Flink Delta Lake DuckDB MongoDB Redis Neo4j Cassandra Milvus OpenSearch InfluxDB ArangoDB Kubernetes Docker Python 3.10+ Apache Hadoop LLMs & RAG AI Agents · MCP Java 11+ R / ggplot2 HyperLogLog Bloom Filter

Data Sciencemit Big Data

Theorie trifft Praxis.

Von null auf Big Data.

Vier Perspektiven.Ein Buch.

Das Buch für alle,die es wirklich verstehen wollen.

Data Science
mit Big Data

Vier Perspektiven.
Ein Buch.

Das Buch für alle,
die es wirklich verstehen wollen.