A specialized supergroup focused on Apache Spark ecosystem and modern data engineering practices. Members engage in deep technical discussions about Spark optimizations, cluster deployment strategies (Kubernetes, YARN, standalone), streaming architectures with Kafka, data lake formats (Iceberg, Delta Lake), and performance tuning. The community serves as a knowledge-sharing platform for troubleshooting complex distributed computing issues, comparing enterprise solutions like Databricks with open-source alternatives, and discussing related technologies including Livy, Airflow, and Jupyter notebooks.
data engineers, big data developers, DevOps specialists
technical discussion, troubleshooting, knowledge sharing
active daily technical discussions
neutral
Не реклама (и у меня в блоге нет вообще никакой коммерциализации), а просто на случай если кому-то когда-то зачем-то надо будет бенчмаркать спарк-апп или либу при помощи JMH и встраивать все это в sbt…
Вдруг кому-то пригодится. После очередного дебаженья подвисающего скрипта внутри которого был withColumn в цикле, я сделал свой плагин для flake8, который это детектит. Я его выложил в PyPi, ну либо м…
Коллеги, всех с праздничком.
Belum ada ulasan
Jadilah yang pertama berbagi pengalaman Anda dengan kanal ini.
из наблюдений что чуть чуть потыкал палочкой comet 1. кое чего умеет, многое в разработке, комитеры сразу кидают в arrow/datafusion/spark что нужно для лучшей интеграции 2. подход как и у photon Come…
За один рабочий день пишется обстукивалка апи с сохранением стейтментов в клик.
Ну и имея ливи очень удобно капчурить код, который люди в своих ноутбуках пишут
Спасибо, так совсем понятно!
Ну я же пенсионер Где я и где новые компании
С другой стороны скала кернелов у нас меньше становится, переток в pyspark идёт, поэтому не в приоритете