Carl Hanser Verlag · 2026 · ISBN 978-3-446-47640-0

Data Science
mit Big Data

783 Seiten. 18 Kapitel. Echter Code. Alles was du brauchst, um Daten in großem Maßstab zu verstehen, zu verarbeiten – und daraus echten Wert zu schaffen.

783Seiten
18Kapitel
4Autoren
100%Vollfarbe
Buchcover Data Science mit Big Data
In God we trust.
All others must bring data.
William Edwards Deming Statistiker & Qualitätsmanagement-Pionier (1900–1993)

Was dieses Buch besonders macht

Theorie trifft Praxis.

Kein abgehobenes Lehrbuch, kein oberflächlicher Überblick – sondern das Beste aus beiden Welten: fundiertes Konzeptwissen und Code, den du heute noch ausführen kannst.

Echter, lauffähiger Code
Python, Java, R – alles sofort ausführbar. GitHub-Repository und Google Colab Notebooks inklusive. Kein Pseudocode.
Der vollständige Stack
Spark, Kafka, Flink, Delta Lake, sieben NoSQL-Systeme, Kubernetes – nicht cherry-picked, sondern vollständig.
KI ist kein Anhang
LLMs, RAG, autonome Agenten, MCP. Das letzte Kapitel gehört der Zukunft – und zeigt, wohin die Reise geht.
Docker-First, nicht Docker-Afterthought
Alle Infrastruktur-Beispiele laufen sauber in Docker und Docker Compose. Reproduzierbar. Produktionsnah.
Lehrbuch und Nachschlagewerk
Egal ob du Einstieg suchst oder eine Architektur-Entscheidung absichern willst – dieses Buch hat beides.
783 Seiten in Vollfarbe
Komplett in Farbe – jede Grafik, jedes Diagramm, jeder Code-Block. E-Book beim Kauf inklusive.

18 Kapitel · Vom Fundament bis zur KI

Von null auf Big Data.

Kapitel 1–2 · Einführung
Gestatten, Data – Big Data
Was Big Data wirklich bedeutet – und warum verteilte Systeme alles verändern.
Kapitel 1–2 · Einführung
Gestatten, Data – Big Data
Was Big Data wirklich bedeutet – Google Trends, echte Use Cases und die fundamentalen Konzepte verteilter Systeme: CAP-Theorem, Konsistenzmodelle, Fehlertoleranz. Der Startschuss.
Google TrendsCAP-TheoremDistributed SystemsPython
Kapitel 3–6 · Daten
Daten, Formate & Management
Von Rohdaten zu strukturiertem Wissen: CSV, JSON, Parquet und Avro im direkten Vergleich. Big-Data-Management-Konzepte und Vorgehensmodelle für echte Projekte.
ParquetAvroPyArrowPandas
Kapitel 7–10 · Architektur
Warehouse, Lake, Lakehouse & Mesh
DuckDB, Delta Lake, Data Mesh Manager – alle vier Architektur-Paradigmen praxisnah erklärt. Mit klaren Entscheidungshilfen für Architekten.
DuckDBDelta LakeData MeshSternschema
Kapitel 11 · NoSQL
NoSQL – Sieben Welten
Redis, MongoDB, Neo4j, Cassandra, InfluxDB, Milvus, ArangoDB, OpenSearch – jede für ihren Zweck. Mit Entscheidungshilfen, die den Unterschied machen.
RedisMongoDBNeo4jCassandraMilvus
Kapitel 12–13 · Stream & Batch
Kafka, Spark & Flink
Apache Kafka für Streams, Spark und Flink für verteilte Berechnungen, Hadoop und Ignite für Batch. Vollständig mit Java- und Python-Code – kein Schönwetter-Tutorial.
Apache KafkaApache SparkApache FlinkHadoop
Kapitel 14 · Algorithmen
Skalierbare Algorithmen
Morris-Counter, HyperLogLog, Bloom-Filter, t-digest – Algorithmen in konstantem Speicher für Milliarden Datenpunkte. Das sind die Tricks, die große Systeme erst möglich machen.
HyperLogLogBloom Filtert-digestJava
Kapitel 15–16 · Analyse
Visualisierung & Architekturwissen
Matplotlib, Seaborn, ggplot2 für aussagekräftige Visualisierungen. Echtzeit-Monitoring. Und das konzeptuelle Fundament für skalierbare Big-Data-Systemarchitekturen.
Matplotlibggplot2SeabornR
Kapitel 17 · DevOps
Test & Betrieb mit Kubernetes
Testing-Strategien, Monitoring und Kubernetes mit minikube. Weil ein System, das man nicht betreiben kann, kein gutes System ist.
KubernetesDockerminikubeMonitoring
Kapitel 18 · Künstliche Intelligenz
LLMs, RAG, Agenten & MCP
Training, RAG, autonome Agenten, Model Context Protocol. Das letzte Kapitel ist das mutigste – und zeigt, was passiert, wenn Big Data auf moderne KI trifft.
LLMsRAGAI AgentsMCPFine-Tuning

Die Autoren

Vier Perspektiven.
Ein Buch.

Wissenschaft trifft Praxis. Vier Autorinnen und Autoren aus Forschung und Industrie – zusammen für ein Werk, das beides kann.

Oliver Hummel
Oliver Hummel
Professor für Software Engineering
Hochschule Mannheim
LinkedIn
Marcus Kessel
Marcus Kessel
Akademischer Rat · Software Engineering & Data Science
Universität Mannheim
LinkedIn
Beate Navarro Bullock
Beate Navarro
Professorin für Data Science & Datenbanksysteme
Technische Hochschule Ingolstadt
LinkedIn
Robert Butscher
Robert Butscher
Professor für Business Intelligence
THWS Würzburg-Schweinfurt
LinkedIn

Open Source

github.com/bigdatabuch
Der Code zum Buch –
offen für alle.
Alle Beispiele aus allen 18 Kapiteln. Lauffähig, kommentiert, kapitelweise sortiert. Python, Java, R. Mit Docker und Google Colab direkt ausführbar – kein Setup-Marathon.
main Python · Java · R Docker ready
Zum Repository

Das Buch für alle,
die es wirklich verstehen wollen.

18 Kapitel. 783 Seiten. Code, der läuft. Komplett in Farbe – weil gute Grafiken einen Unterschied machen.

Beim Hanser Verlag bestellen
Technologien im Buch
Apache Spark Apache Kafka Apache Flink Delta Lake DuckDB MongoDB Redis Neo4j Cassandra Milvus OpenSearch InfluxDB ArangoDB Kubernetes Docker Python 3.10+ Apache Hadoop LLMs & RAG AI Agents · MCP Java 11+ R / ggplot2 HyperLogLog Bloom Filter Apache Spark Apache Kafka Apache Flink Delta Lake DuckDB MongoDB Redis Neo4j Cassandra Milvus OpenSearch InfluxDB ArangoDB Kubernetes Docker Python 3.10+ Apache Hadoop LLMs & RAG AI Agents · MCP Java 11+ R / ggplot2 HyperLogLog Bloom Filter