Ведутся технические работы. Это может временно повлиять на скорость работы сайта. Приносим извинения за неудобства и благодарим за ваше понимание!

Batch обработка с Apache Spark

Лектор: Егор Пахомов

Егор — Spark сontributor. Занимался интеграцией Spark в Яндекс Островах и Yandex Data Factory. Работает в AlpineNow, компания занимающаяся разработкой BI инструмента для Apache Spark.

Аннотация: На лекции рассматривается технология для batch и streaming обработки больших данных Apache Spark. Существует ряд проблем, с которыми инженеры сталкиваются, работая с большими данными: нехватки объёма диска одной машины для хранения данных, сложность разработки параллельных алгоритмов, etc. На протяжении долгого времени стандартом в индустрии для решения этих проблем являлся Hadoop, но ряд архитектурных недостатков этого фреймворка не позволяет ему справляться с новыми вызовами больших данных: machine learning, streaming, интерактивная работа с данными. Spark предложил новую вычислительную модель — RDD, в которой это всё стало возможно. Рассматриваются основные принципы этой модели и примеры кода. Важной частью любого big data framework является инфраструктура вокруг него. Обзорно рассматриваются основные библиотеки, написанные в рамках RDD: GraphX для графовой обработки данных, MLLib для machine learning, Spark Streaming для стриминга, SparkSQL, а также виды деплоинга spark кластера и тулы, облегчающие работу дата аналитиков.

( ! ) Warning: Invalid argument supplied for foreach() in /home/domains/malitikov.ru/public_html/wp-content/themes/malitikov/single.php on line 44
Call Stack
#TimeMemoryFunctionLocation
10.0000350280{main}( ).../index.php:0
20.0001350560require( '/home/domains/malitikov.ru/public_html/wp-blog-header.php ).../index.php:17
30.16258468448require_once( '/home/domains/malitikov.ru/public_html/wp-includes/template-loader.php ).../wp-blog-header.php:19
40.16418493104include( '/home/domains/malitikov.ru/public_html/wp-content/themes/malitikov/single.php ).../template-loader.php:106