3 мар 2016

Сегодня мы применили методы анализа данных к поведению наших участников и спешим поделится с вами интересными выводами :)

Самое главное, 90% участников, сделавших хотя бы один сабмит, в итоге смогли преодолеть порог и оказались в лидерборде. При этом 80% не смогли на этом остановиться — они сабмитят еще и еще, непрерывно улучшая свои результаты. Но есть и обратная сторона медали — социологический опрос показал, что очень многие потенциальные участники так и не решились сделать первый шаг, хотя и считают нашу задачу интересной.
Действительно, решение поставленной задачи для многих требует выхода из зоны комфорта: освоения новых технологий, проведения ресурсоемких вычислений и проявления нестандартного мышления. Но те, кто все-таки решился начать, оказываются вознаграждены сполна: выброс дофамина от вида своего имени в лидерборде придает бодрости и вызывает непреодолимое желание сабмитить еще и еще :)
На самом деле наиболее сложным здесь является именно решение начать, после чего от лидерборда вас отделяет лишь несколько простых шагов:
1. Качаем спарк http://www.apache.org/dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz , распаковываем архив — и вот вы уже в мире больших данных :).
2. Качаем сами данные https://cloud.mail.ru/public/GtHV/JNYJbuTV1 .
3. Код базового решения тоже можно скачать в один клик: https://github.com/snahackathon/sh2016/archive/master.zip . Без регистрации и СМС.
4. Чтобы всех воедино собрать ставим sbt — инсталяторы доступны под все популярные платформы http://www.scala-sbt.org/0.13/docs/Setup.html .
5. sbt package, spark-submit — и ноутбук придется отложить часа на 4 а то и на всю ночь (не забудьте подключить зарядку!). И вот первый пакет с результатами готов.
Осталось совсем чуть-чуть — изменив несколько слов в базовом решении получить +3 бала к точности, необходимые для прохождения порога :).
Естественно, тяжелую часть вычислений с подсчетом общих друзей повторять не надо — результаты уже сохранены у вас на диске. Более того, в дальнейшем можно вернутся к привычным и уютным Python и R используя их интеграцию с паркетом и спарком ( https://github.com/jcrobak/parquet-python и https://github.com/amplab-extras/SparkR-pkg ).
Не отказывайте себе в удовольствии попробовать что-то новое, присоединяйтесь к нашему конкурсу!

Сегодня мы применили методы анализа данных к поведению наших участников и спешим поделится с вами интересными выводами :) - 816321015672

Комментарии

  • 4 мар 2016 21:55
    Дорогие друзья, вы , наверное не анализировали, сколько процентов участников сети ОДНОКЛАССНИКИ составляют пенсионеры, для которых родной и единственный язык -  РУССКИЙ времен до 90-х годов прошлого столетия. И потому ваши словоизлияния для них так же понятны и столь же интересны, как китайская грамота! В немалой степени поэтому им был ненавистен Горбачёв с его консенсусами, и, тем более, вечно трендящий и брендивший Медведев.
  • 6 мар 2016 20:43
    Да тут пенсионеры не причем, равно, как и Горбачев с Медведевым. Я еще не в пенсионом возрасте, занимаюсь профессионально информационными технологиями, но и я почти ничего из написанного не понимаю.
    Создатели страницы сделали гениальный шаг: создали распределенную технологию, которая может для них полезно работать. Заодно и кадры себе подыщут.