Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данных| Технострим



Самые значимые и интересные доклады от наших партнеров – известных отраслевых конференций, теперь доступны на канале “Технострим”. У нас вы найдете 5-10 лучших докладов с прошедших конференций для программистов и разработчиков.

Доклады Moscow Python 2018.

Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данных

Павел Тарасов (ЦИАН)
Руководитель отдела машинного обучения ЦИАН, кандидат физ.-мат. наук, ассистент на кафедре дискретной математики ФИВТ МФТИ.

Одно из самых важных в работе data scientist’а и аналитика – уметь быстро проверять гипотезы. Есть много информации, курсов, конкурсов, как построить хорошую модель. Но кому будет нужна ваша модель, если на ее построение уйдут месяцы? А если вы не сможете быстро из модели собрать прототип?

Бывают простые гипотезы:
* Есть ли нужные данные?
* Как их загрузить из другого источника?
* Достаточно ли их, и корректны ли они?
* Можно ли на них обучить модель, каково ее качество?

Бывают гипотезы сложнее:
* Что, если нужно применить сложную самописную функцию к большому количеству объектов?

А теперь еще добавим, что все задачи необходимо решать не просто на продакшн-кластере, но там, кроме вас, работают еще человек 10 (или 50…).

Я расскажу, как действительно быстро проверять такие гипотезы на Jupyter и PySpark, какими дополнительными инструментами пользоваться и как не подраться с продом и коллегами за ресурсы.

___

ТЕХНОСТРИМ – образовательный канал для IT специалистов.
___

ПОДПИСЫВАЙСЯ, ЕСЛИ ТЕБЕ ИНТЕРЕСНО УЗНАТЬ:

✔ как наши преподаватели – топовые специалисты Mail.Ru Group руководят разработкой в таких проектах, как Почта, ВКонтакте, Облако, Maps.me, Одноклассники, и решают сложные задачи каждый день
✔ реальные примеры из практики с анализом их достоинств и недостатков
✔ современные технологии, которые применяются в проектах-лидера Рунета
✔ о митапах, мастер-классах, вебинарах и других мероприятиях, которые проводятся на базе вузов и Mail.Ru Group.

Нажмите здесь для подписки ‣

Все наши лекции проходят в ведущих вузах страны: МГУ, МГТУ, МФТИ, МИФИ, СПбПУ.
___

ТЫ СТУДЕНТ?

Вступай в наши образовательные проекты и участвуй в чемпионатах. Лучшие студенты получают возможность стажировки в Mail.Ru Group. Отбор – каждые полгода!

Технопарк при МГТУ им. Баумана ‣
Техносфера при МГУ им. Ломоносова ‣
Технотрек при МФТИ ‣
Техноатом при МИФИ ‣
Технополис при СПбПУ ‣
Чемпионаты для программистов ‣
Mail.Ru Group для образования ‣

source

Avatar of VK Team

By VK Team

Leave a Reply

Your email address will not be published.

Captcha loading...