• Лови промокод з яким знижка 50 грн - promo50grn

Субъективный взгляд на Науку о данных в Украине

Статус: Offline
Реєстрація: 17.01.2017
Повідом.: 104
Субъективный взгляд на Науку о данных в Украине

Предлагаю к обсуждению перевод статьи, оригинал которой был опубликован на сайте:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі




Субъективный взгляд на Data Science в Украине

[Об авторе: Богдан Павлишенко — Data Scientist в компании SoftServe (Business Systems), доцент (канд.физ.-мат. наук) факультета электроники и компьютерных технологий в Львовском национальном университете имени Ивана Франко, а также занимается научной работой в области анализа данных (
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
,
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
)]


RngJ4fh.jpg

У памятника Т.Шевченко в Вашингтоне

Data Science, Big Data, Predictive Analytics, Machine Learning — популярные тренды в современных информационных технологиях. Должности специалистов по анализу данных стали одними из самых желанных в ИТ-секторе. Появилось большое количество специалистов по анализу данных (Data Scientists) и популяризаторов этого направления, которые рассказывают о фантастических возможностях современного анализа данных, машинного обучения, в частности, нейронных сетей.

В этом году я принимал участие в двух научно-практических конференциях в области анализа данных:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
(August 23-27, 2016 Lviv, Ukraine) и
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
(December 5-8, 2016 Washington, DC, USA).

Также я являюсь участником соревнований по анализу данных на платформе
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
, где в составе команды выиграл соревнование
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
по прогнозированию спроса товаров, получив первое место среди почти 2000 участников (наш решение
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
).

Как Data Scientist в SoftServe (Business Systems) я имею дело с прикладными задачами анализа данных, бизнес-аналитикой, в частности, прогнозированием продаж, анализом факторов, влияющих на спрос товаров, поведением потребителей товаров и услуг, fraud detection и тому подобное. Круг моих научных интересов связан с Machine Learning, анализом текстовых массивов и слабоструктурированных данных, анализом социальных сетей, в частности, прогнозированием событий на основе потоков данных в социальных сетях.

Все это дало мне возможность увидеть различные аспекты анализа данных, общаться с широким кругом специалистов со всего мира на упомянутой конференции, на платформе Kaggle, а также с реальными заказчиками анализа данных. Хочу поделиться своим видением этого направления информационных технологий.


О специалистах по анализу данных

Некоторые считают, что чтобы стать Data Scientist, достаточно изучить одно или несколько средств анализа данных, таких как R или Python с соответствующими пакетами. На самом деле, анализ данных — это в первую очередь понимание данных, их статистики и соответствующих алгоритмов анализа. Без такого понимания никакого анализа не получится. И для этого нужно иметь как минимум фундаментальную базу математических знаний на уровне высшего физико-математического или технического образования, на основе которого можно изучить соответствующие алгоритмы из машинного обучения, регрессии или статистической обработки.

С другой стороны, от вузовского сообщества можно услышать, что главное — это алгоритмы, методы и подходы, а языки программирования постоянно меняются, поэтому, зная методы и алгоритмы, всегда можно реализовать анализ данных на Си или Паскаль. С этим я тоже не согласен.

Конечно, теоретически можно написать сложную программу по анализу данных, однако, если ваша модель состоит из тысяч уравнений, а исторических данных для анализа — десятки гигабайт, тогда зная только алгоритмы, разработать программное обеспечение из первых принципов практически невозможно, учитывая временные рамки проекта по анализу данных и сложность составных частей анализа.

Реальный анализ данных состоит не из одного алгоритма, а из многоуровневой комбинации различных алгоритмов и подходов. Поэтому выходом является использование специализированных сред, в том числе программной среды R и соответствующих пакетов. Анализируя реальные данные больших размеров, возникают различные проблемные моменты, которые заранее не очевидны, в частности, эффекты переобучение (overfitting), которые в значительной мере обусловлены структурой и областью знаний анализируемых данных. Значительный объем работы в анализе данных заключается в решении конкретных рутинных проблем, как, например, объединение данных из различных источников, очистка данных, выявление случайных значений, не свойственных рассматриваемому процессу, заполнение неизвестных данных наиболее вероятными значениями, загрузка и работа с данным в облачных сервисах, разного рода агрегация данных и тому подобное.

Иногда встречаю среди специалистов такое мнение, что ученый по данным только генерирует идеи, на реализацию которых у него просто нет времени. Для реализации якобы существуют инженеры, которые все его идеи реализуют в коде. Это также ошибочная позиция. На практике никто вам не реализует ваши идеи. Ученый по данным должен сам реализовывать свои идеи в коде, как минимум на уровне работающего прототипа. Он сам должен получать значения, распределения, распознавать паттерны, кластеризовать и классифицировать предоставленные ему десятки гигабайт данных. Максимум, что он может просить — это предоставить ему данные в удобном виде, например в текстовом формате с соответствующими разделителями между полями. Дальнейшая работа с данными, объединение фреймов данных по соответствующим ключам, очистка данных, агрегирование данных, генерация новых признаков ложится на его плечи.

Специалист по анализу данных должен сочетать в себе как ученого со знанием математики, соответствующих алгоритмов и методов, так и программиста, который владеет языками программирования и специализированными пакетами по обработке и анализу данных.

Одной из основных задач научного анализа данных является проведение такой трансформации данных, которая дала бы возможность увидеть новые закономерности, например, в деятельности компании, поведении клиентов или динамике количественных показателей, и принять соответствующие решения в управлении соответствующими бизнес процессами компании. То, какие именно трансформации необходимо провести, определяется собственным опытом специалиста и часто не очевидно заранее. Нужно много экспериментировать с конкретными данными, чтобы увидеть интересные структурные закономерности и получить инсайты. Из большого количества проведенных аналитических исследований часто отбирают только несколько, которые могут быть полезными. Поэтому Data Science содержит значительную экспериментальную составляющую, для которой необходимо владеть как предметной областью анализа, так и программными средствами работы с данными.


О конференции Big Data 2016

Конференция 2016 IEEE International Conference on Big Data проходила с 5 по 8 декабря в Вашингтоне в отеле Hyatt рядом с Капитолием. Во многом все научные конференции, в том числе украинские, сходны между собой организационными моментами, дружеской атмосферой, стилем докладов и дискуссий. На этой конференции было много как ученых, так и представителей технологических компаний и правительственных структур. Не все участники представляли доклады, многие участники приехали послушать доклады и принять участие в дискуссиях. С программой и материалами можно ознакомиться на
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
. Я получил грант на поездку на эту конференцию от компании Bosch (подробнее
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
), а также поддержку от компании SoftServe (Business Systems). Докладывал на симпозиуме
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
, который проходил в рамках конференции. Тема моего доклада «Machine Learning, Linear and Bayesian Models for Logistic Regression in the Failure Detection Problems» (
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
).

tRsgsb1.jpg

Конференция BigData 2016. Докладывает M. Stonebraker (M. Stonebraker, D. Deng and M. L. Brodie, Database Decay and How to Avoid It)

1zVc68s.jpg

Конференция BigData 2016. Слайд из доклада Dr. Frank W.Gayle, Advanced Manufacturing National Program Office (AMNPO), NIST

osmeRCi.jpg

Один из стендовых докладов на конференции BigData 2016



О квалификационном уровне Data Scientist и соревнованиях Kaggle


Остро стоит вопрос о количественном измерении квалификационного уровня специалиста по анализу данных. Часто о своем уровне заявляют сами специалисты. Не показывая при этом результатов своих исследований, ссылаясь на договор о неразглашении. И часто окружающие судят об их квалификации, опираясь на уверенность поведения, частоту и количество употребляемых терминов из области анализа данных. Теория современного Data Science не является слишком сложной, в то же время успех анализа данных в значительной степени определяется собственным опытом и интуицией специалиста, его осведомленностью в предметной области анализа.

Этот субъективизм в основном и определяет значимость должности ученого по анализу данных. При одинаковых используемых методах и данных один специалист может дать существенно больше информации, необходимой для принятия решений, чем другой. Поэтому важно найти количественные характеристики экспертного уровня компетентности специалиста.

По моему мнению, наиболее объективными характеристиками такого типа могут быть рейтинг и достижения специалиста на общепризнанных платформах по анализу данных. Одной из таких платформ является
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
. На этой платформе различные компании дают свои задачи по анализу данных широким кругам специалистов со всего мира. И предложенные решения порой имеют составляющие элементы, которые более эффективны, чем решения собственных специалистов этих компаний.

yt58t6q.png

Сайт Kaggle.com

У некоторых возникает вопрос: «А какой резон серьезным специалистам мирового уровня участвовать в таких соревнованиях, ведь призовые получают только преимущественно первые три команды, а участие в соревновании могут принимать несколько тысяч?» Дело в том, что вы можете попробовать свои методы на реальных данных из бизнеса, а с другой стороны система Kaggle оценивает результаты вашего моделирования и выставляет вам рейтинг, основанный на ваших результатах. Этот рейтинг и является одним из самых больших стимулов участия в таких соревнованиях. Разговаривая в кулуарах упомянутой выше конференции в Вашингтоне, я увидел, что рейтинг в Kaggle является общепризнанным и высокие позиции характеризуют высокий квалификационный уровень специалиста.

Однако парадоксом является то, что в украинских ИТ-кругах бытует мнение, что такого типа соревнования недостойны внимания настоящего ученого по данным, для которого якобы не по рангу заниматься задачами олимпиадного типа, так как к нему и так стоит очередь из заказчиков на анализ данных. Подозреваю, носители таких позиций сами пытались участвовать, однако не достигли значительных результатов, а поэтому отрицают эффективность такого подхода, отводя ему уровень песочницы для начинающих.

Хочу сказать, что получить высокий общий рейтинг или попасть в топ-10 на соревновании чрезвычайно трудно. Это ежедневная кропотливая работа, тестирование различных моделей, параметров, комбинаций подходов.

NmQh4xP.png

Leaderboard на соревновании Grupo Bimbo Inventory Demand, в котором наша команда The Slippery Appraisals одержала победу

Лично для меня, участие в таких соревнованиях дало очень много в понимании анализа данных (
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
). Конечно, в таких соревнованиях есть особые подходы, которые определяются спецификой соревнований. Однако, главное, что получает участник соревнований — это практический опыт работы с данными из различных предметных областей. Некоторые утверждают, что борьба на таких соревнованиях идет за незначительные доли в результатах прогнозирования, а это вроде не так важно в реальных задачах, где важнее стабильность решения. Отчасти это так. Однако, анализ подходов, валидация моделей, построение ансамблей классификаторов, технологии «беггинга» и «стэкинга» можно применять в реальных задачах. Их невозможно освоить теоретически, нужна практика на реальных массивах данных. Когда вы, например, готовитесь поступать на математический или физический факультет, то также сдаете экзамен или тесты по сложным алгебраическим или тригонометрическим преобразованиям, которые потом не будете применять на практике. Но этим вы показываете свою способность мыслить и свой стартовый аналитический уровень. Подобную аналогию я вижу и в участии в соревнованиях на Kaggle, которые можно рассматривать как дополнительный фактор роста уровня компетентности в области анализа данных.


Об иллюзиях в Data Science

Существует мнение, что для анализа данных обязательно необходимы технологии Big Data, к которым относят Hadoop, MapReduce, Spark. На самом деле, названные технологии Big Data становятся эффективными при размерах данных, начиная с нескольких терабайт. В реальном бизнесе лишь очень небольшой процент данных имеет такие размеры. Я имею в виду не общий размер базы данных, а размер одной таблицы, строки которой необходимо анализировать одновременно, например, методами машинного обучения или осуществлять анализ на основе линейных параметрических моделей.

Большинство современных систем анализа, в частности R, размещают рассматриваемые данные в оперативной памяти. Например, мой рабочий настольный компьютер имеет размер оперативной памяти 128Гб, и я могу анализировать данные размером в десятки гигабайт. Даже если исходных данных более терабайта, то часто необходима предварительная агрегация данных, которую можно выполнить соответствующими пакетами без загрузки всех данных в оперативную память и дальше анализировать агрегированные данные существенно меньшего размера. Или, например, разбить данные на соответствующие части, а решения объединить в соответствующие ансамбли.

Когда наша команда участвовала в вышеупомянутом соревновании Kaggle, мы использовали арендованный на Amazon ресурс из 128 процессоров и 2Tb оперативной памяти (x1.32xlarge Amazon EC2), что было одним из важных факторов нашей победы на соревновании, поскольку позволило нам испытать большое количество моделей с большим набором созданных признаков. Все это говорит о том, что, даже анализируя данные достаточно больших размеров, во многих случаях можно обойтись без технологий Big Data.

По моему мнению, также преувеличенной является роль нейронных сетей. Термин «нейронные сети» ассоциируется с умственной деятельностью человеческого мозга и, поэтому, стал очень популярным. То, что в области распознавания оптических образов нейронные сети имеют успех — очевидный факт. Однако, когда речь идет о широком круге задач машинного обучения, таких как нелинейная регрессия, прогнозирование спроса и цен, классификация пользователей, выявление обманных действий, анализ финансовых рынков и т.д., то нейронные сети не всегда является наилучшим выбором, часто этот выбор связан с рекламным ходом, чтобы подчеркнуть современность и интеллектуальность рекламируемой системы.

В своем анализе на упомянутом соревновании Kaggle, мы также использовали нейронные сети. Но мы использовали их на втором уровне нашей модели для реализации «стэкинга» с целью незначительного улучшения результата. Расчет с использованием нейронных моделей был одним из самых трудоемких, хотя для этого использовались мощные графические процессоры. И в конечном варианте нашего решения мы отказались от нейронных сетей в нашей модели, отдав предпочтение более простому варианту модели.


Об организации работы специалистов по анализу данных

Существует два подхода к организации работы специалистов по анализу данных в ИТ-компаниях. Первый заключается в создании универсального отдела Data Science, а второй — в интеграции ученых по анализу данных в специализированные подразделения, которые занимаются узкой проблематикой. Я сторонник второго подхода. По моему мнению, особенности предметной области анализа данных важнее, чем наличие общих принципов анализа данных. Именно глубокое понимание предметной области и специфики анализируемых данных является одним из основных факторов успешного анализа данных. Важным шагом в анализе данных, в том числе в прогнозной аналитике (Predictive Analytics), является отбор и генерация новых признаков на основе исторических данных и правильный выбор валидации модели.

Одним из факторов победы нашей команды на Kaggle было то, что в круг моих профессиональных интересов входит анализ динамики продаж товаров, поэтому, при генерации большого количества новых признаков, я вкладывал известные мне структурные связи, которые существуют в бизнесе продаж и поставок. Одни из них давали улучшение результатов, другие нет, но нам удалось отобрать самые эффективные признаки. Поэтому я являюсь больше сторонником узкоспециализированных ученых по анализу данных в соответствующих ИТ-подразделениях.

Особенностью Data Science является то, что в этой области практически невозможно работать фрилансером, как, например, в области веб-программирования. Данные отражают много чувствительных моментов деятельности компаний. Особое внимание уделяется юридическим аспектам при передаче данных для анализа. Поэтому в этой сфере анализа данных заказчики отдают предпочтение ИТ-компаниям, с которыми можно подписать соответствующие юридические договора, в частности договор о неразглашении.


О сотрудничестве с вузами

В Украине в настоящее время сложилась успешная ИТ-индустрия, которая, по моему мнению, несколько находится в легкой эйфории. Одна из основных проблем — это слабая диверсификация направлений деятельности. Основной акцент сделан на аутсорс, в развитии которого есть свои объективные тренды как растущего, так и нисходящего характера. Для стабильного развития нужно было бы увеличить долю наукоемких проектов и продуктов. Анализ данных как в виде сервиса, так и в виде разработки специализированных продуктов является одним из таких перспективных направлений. По моим наблюдениям реальных коммерческих проектов по анализу данных существенно меньше, чем самих разговоров о Data Science.

Одним из факторов успешного развития Data Science в ИТ-бизнесе я вижу тесное сотрудничество между ИТ-компаниями и вузами. Есть много примеров такого сотрудничества, но их общий объем недостаточен. Одно из основных препятствий в таком сотрудничестве — это гонор и превосходство, которые присущи обеим сторонам. Среди преподавателей слышать, что они не будут заниматься набивкой на клавиатуре якобы примитивного кода, что они — академическая организация, а не бизнес структура. Другие говорят, что ИТ-сектор и так должен поддерживать вузы, потому что мы готовим для них специалистов. Со стороны ИТ слышно другое мнение — в вузах не учат современном программированию, курсы устаревшие, наука дает нулевой результат.

Зная эти две стороны, могу сказать, что своя правда есть у каждого. Успешные ИТ-шники часто недооценивают ту среду, в которой они формировались в течение 4-6 лет. Иногда трудно оценить, что дали эти все лекционные курсы, практические занятия, лабораторные, курсовые и дипломные работы, сессии, среда общения. На самом деле, они дали тот базис, на основе которого в дальнейшем сформировались эти успешные ИТ-специалисты. И никакие курсы по программированию не заменят той базы, часто невидимой, которую дают вузы.

С другой стороны сотрудничество с ИТ-компаниями — это один из немногих вариантов, которые дают возможность развиваться как научным школам, так и педагогическим коллективам вузов. Ведь в современных условиях мало кто из перспективных выпускников идет заниматься научной работой, нет возможности поехать на значимую научную конференцию, пригласить известного специалиста. Сформировав соответствующее сотрудничество, можно создать базу для прикладных научных направлений, в частности по анализу данных. В этом сотрудничестве можно было бы совместить фундаментальные знания и разработки преподавателей, а со стороны ИТ-компаний — практические навыки разработки программного обеспечения и менеджмента.

Нужно идти навстречу друг другу, искать различные формы сотрудничества. Это может быть и стажировки преподавателей в ИТ-компаниях, прохождение практики студентами, курсовые и дипломные работы на основе реальных проектов и современных технологий в ИТ-компаниях. Преподавателей и ученых можно привлекать к проблемным наукоемким задачам из области анализа данных. Но сотрудничество, которое я вижу сейчас, в основном направлено на отбор лучших студентов с последующим привлечением их к программированию в аутсорсе. На мировом рынке конкуренция в аутсорсе обостряется. В то же время считаю, что наш научный потенциал является достаточно значительным. Поэтому одним из перспективных направлений является привлечение этого потенциала в ИТ-отрасль для развития наукоемких технологий.

Теоретически, анализу данных можно научиться с помощью соответствующей литературы или на on-line курсах. Однако, исходя из своего опыта, я не вижу возможности развития Data Science без привлечения ученых физико-математического направления. Нужен особый научный подход к проблеме, который вырабатывается годами в процессе научной деятельности.

Многое из того, что я видел со стороны украинского ИТ-бизнеса в области анализа данных — это поверхностный взгляд на проблему, тестовые примеры, доклады с обобщенными блок-схемами. С другой стороны, академическое сообщество представляет свои идеи в виде сложнейших алгоритмов и формул. При этом нет сопоставления, насколько новые подходы лучше тех, что уже существуют и работают, какие результаты можно получить на известных тестовых данных.

Не все преподаватели могут сразу начать сотрудничество в новом для них ритме с особым форматом взаимодействия с ИТ-бизнесом, это также непросто. Со стороны вузов должны быть изменения. Например, для преподавателей, которые сотрудничают с ИТ-компаниями должен быть гибкий график педагогической нагрузки, в который должна была бы зачисляться работа над совместными ИТ-проектами. Энтузиасты из ИТ-компаний, могли бы читать соответствующие лекции в вузах с зачислением их в преподавательский состав этих вузов. На упомянутой выше конференции в Вашингтоне также обсуждалось сотрудничество вузов с бизнесом и правительственными учреждениями. Основные проблемы в чем-то похожи у нас и на Западе. Имея не хуже фундаментальный уровень, мы могли бы сотрудничать на более привлекательных для иностранных компаний финансовых условиях.

Я высказал свою точку зрения только на некоторые аспекты Data Science с точки зрения усредненного украинского специалиста на основе собственного опыта и видения данной проблемы. Хотелось бы услышать также мнения других специалистов по этому направлению информационных технологий.

Конец статьи.




Как известно, Харьков славится своей физико-математической и технической научной школой. Известно также, что наука в городе, как и во всей стране в целом, сейчас переживает не самые лучшие времена.

Как вы думаете, мог бы существующий научный потенциал быть полезен для развития каких-то прикладных наукоёмких отраслей?

Каковы вообще перспективы сотрудничества индустрии и науки в Харькове, в стране в целом?

На сколько может быть важно такое сотрудничество в IT-отрасли?
 
Осилил! :)
Хоть статья и по моему профилю, а сказать нечего как-то.

И да, серьезные специалисты едва ли будут в подобных соревнованиях участвовать. У них такие соревнования на работе каждый день.
 
Останнє редагування:
Соревнования полезны:

1. Для новичков они позволяют получить реальный практический опыт решения задач, которые возникают у компаний топового уровня.

2. Для специалиста среднего уровня - актуализировать, расширить набор навыков, используемых технологий.

3. Хорошие результаты могут быть дополнительным независимым критерием квалификации специалиста.
 
Соревнования полезны:

1. Для новичков они позволяют получить реальный практический опыт решения задач, которые возникают у компаний топового уровня.

2. Для специалиста среднего уровня - актуализировать, расширить набор навыков, используемых технологий.

3. Хорошие результаты могут быть дополнительным независимым критерием квалификации специалиста.

Так и есть.
 
Предлагаю к обсуждению перевод статьи, оригинал которой был опубликован на сайте
Думаю, интересно было бы прикрутить технологии Data Science к управлению государством Украина.
Создать АСУ государством.

cccgg5.jpg
 
Думаю, интересно было бы прикрутить технологии Data Science к управлению государством Украина.
Создать АСУ государством.

В рамках плановой экономики такие попытки уже были. Кибернетика того времени это и есть современный Data Science.

https://ru.wikipedia.org/wiki/Общег...рованная_система_учёта_и_обработки_информации
 
В рамках плановой экономики такие попытки уже были. Кибернетика того времени это и есть современный Data Science.
Попытки это просто отлично. Но хотелось бы и результаты иметь.
Управление без коррупции.
 
Компания Google приобрела сервис Kaggle для проведения соревнований в области машинного обучения.

Детали сделки не разглашаются, пишет republic со ссылкой на TechCrunch.

Как отмечает издание, благодаря сотням тысяч зарегистрированных на платформе специалистов в области анализа данных Google сможет сразу же «расширить охват» в развитии искусственного интеллекта, что особенно актуально, так как компания конкурирует с Amazon в сфере облачных вычислений. Более того, покупка поможет «укрепить» бренд Google в сообществе исследователей баз данных.

Также сообщается, что Kaggle – основная платформа для проведения соревнований в области машинного обучения и анализа данных.

Сервис был основан в 2010 году, с его помощью исследователи могут опробовать свои модели анализа данных на каких-либо задачах. По данным Crunchbase, за семь лет платформа привлекла $12,5 млн инвестиций от фондов и частных инвесторов.

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Зачем Google купила сервис для исследователей данных Kaggle

Представители Google, выступая на конференции Google Cloud Next в Сан-Франциско, подтвердили покупку стартапа Kaggle, создавшего одноимённую платформу для исследователей данных, где они могут опробовать модели анализа на актуальных задачах, сообщает TechCrunch.

Kaggle — крупнейшая платформа для проведения соревнований среди специалистов по данным и машинному обучению. На площадке зарегистрированы сотни тысяч пользователей. Доступ к ним усилит влияние Google на сообщество специалистов по искусственному интеллекту. Конкуренция компании с другими крупными игроками рынка искусственного интеллекта (в частности, Amazon) требует постоянной активности, и покупка Kaggle — важный шаг в этом направлении.

Стоит отметить и ставшее возможным усиление позиций Google в сообществе исследователей по обработке данных, а также в в борьбе за лучших специалистов на рынке.

Активное распространение технологий искусственного интеллекта открывает доступ на рынок небольшим и средним компаниям, совокупное влияние которых способно пошатнуть признанное лидерство Google в области машинного обучения. Новое поглощение — дополнительный козырь для сохранения статуса корпорации.

Основанный в 2010 году Kaggle объединяет более 500 тысяч специалистов по данным. Несмотря на наличие сильных конкурентов в лице DrivenData, TopCoder и HackerRank, проект сумел быстро набрать популярность благодаря чётко обозначенной нише. Инвесторы сервиса — Юрий Мильнер, Макс Левчин, а также Khosla Ventures, Index Ventures и другие фонды. За время существаоания Kaggle привлёк $12,5 млн, из которых $11 млн в ходе крупного инвестиционного раунда в ноябре 2011 года.

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Google confirms its acquisition of data science community Kaggle
Тільки зареєстровані користувачі бачать весь контент у цьому розділі


Kaggle Joins Google Cloud
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
 
Как вам новый FPGA чип от Xilinx? Тестили? Нейросеточки свои на нем запускали?

Или только переводами статей надрачиваете?
 
Рад за Kaggle.
Повезло, что их купил не Microsoft.
 
Google запустила бесплатный курс по машинному обучению

В обучающей программе Learn with Google AI
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
бесплатные уроки Machine Learning Crash Course (MLCC). Курс помогает освоить машинное обучение и раньше был доступен только сотрудникам компании. На основе полученных знаний команда Google улучшила сервисы YouTube и Google Earth, а также устройства Daydream.

В колледже, изучая геофизику на борту нефтяной вышки, я понял, что будущее стоит за программным обеспечением — поэтому я начал изучать информатику. Спустя более 10 лет работы в Google я осознал, что будущее компьютерной науки — это искусственный интеллект. Сегодня я возглавляю образовательный отдел по машинному обучению и надеюсь сделать ИИ и его преимущества доступными всем желающим.

Зури Кемп (Zuri Kemp), Руководитель Learn with Google AI


Машинное обучение для всех

Новый раздел обучающей программы
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
состоит из 25 уроков с более чем 40 заданиями. Лекции ведут исследователи из Google, объясняя принципы машинного обучения на реальных примерах. Прохождение всего курса занимает 15 часов.

Ранее курс находился в закрытом корпоративном доступе и предназначался для сотрудников Google. Его цель — провести практическое введение в сферу ИИ. Курс состоит из обучающих видео, интерактивных визуализаций и более 40 заданий для выполнения. В описании говорится, что для прохождения потребуется лишь базовый уровень знаний по алгебре и знакомство с языком программирования Python.

Курс доступен на английском, французском, корейском, китайском и испанском языках.

Уроки обещают дать ответы на 6 вопросов:

Чем машинное обучение отличается от традиционного программирования?
Как определить эффективность модели обучения?
Что такое функция потерь, как ее измерить?
Как предоставлять программе обучающие данные?
Как работает градиентный спуск?
Как создать глубокую нейронную сеть?


Курс основан на системе машинного обучения TensorFlow,
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
из беты в феврале 2017 года.

Ссылка на курс:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі


Источники:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі
 
СТУДЕНТЫ ХНУРЭ ВЫШЛИ В ФИНАЛ ВСЕМИРНОЙ ОЛИМПИАДЫ «DATA SCIENCE GAME»

Команда студентов в составе Дмитрия Чернышева, Богдана Пуйды, Альберта Шумака и Алексея Божченко, учащихся на III курсе факультета компьютерных наук Харьковского национального университета радиоэлектроники, одержали победу в полуфинале всемирной олимпиады «Data Science Game», который собрал 145 команд-участниц с университетов всего мира.

Эта победа обеспечила студентам участие в финальной части соревнований, которое уже в сентябре состоится в Париже.



Data Science Game — ежегодная олимпиада для студенческих команд со всего мира, где в рамках научных соревнований участники выполняют разнообразные задачи, которые тесно связаны с компьютерными науками, прикладной математикой, машинным обучением и Data Science.

Подробности:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
 
Vodafone проведет онлайновый хакатон по Data Science

Vodafone запускает новую инициативу в рамках платформы для экспериментов с большими данными Big Data Lab. С 8 декабря стартует DS Competition – первый в Украине двухнедельный онлайн-хакатон по Data Science. Он ставит перед участниками две конкретные, актуальные для Vodafone задачи по анализу данных: определение наиболее вероятных пользователей одной из услуг компании и определение возраста клиента.

Vodafone вместе с AI Booster проведет хакатон для того, чтобы выбрать наиболее качественное решение поставленных задач. Открытие хакатона состоится 8 декабря, а победители будут определены 23 декабря во время финального митапа. Соревнование будет проводиться онлайн, принять участие в нем могут команды дата-аналитиков из всех регионов Украины и любой точки мира. Команды будут соревноваться за призовой фонд $3000.

К участию в хакатоне приглашаются представители технических сообществ и команды независимых разработчиков.

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі
 
Список бесплатных курсов по Data Science и Машинному Обучению

Русскоязычные ресурсы по Data Science:

Python
Pandas. Открытый курс OpenDataScience по машинному обучению
Как анализировать данные с Python библиотеками Pandas и Numpy
Азы работы с pandas.DataFrame на примере задачи о Титанике
Курс «Программирование на языке Python для сбора и анализа данных», НИУ ВШЭ, 2015-16 учебный год, лектор Илья Щуров. Лекция №12: библиотека pandas

Курсы по R
Анализ данных на R в примерах и задачах
Основы анализа данных в R
Анализ данных в R

Наука о данных
Data Science, черные ящики – и почему вам сильно повезло
Введение в Data Science
Почему важно заниматься Computer Science прямо сейчас
Введение в Data Science и Machine Learning
Дискуссия «Тренды data science
Алексей Натёкин: «О развитии анализа данных, машинного обучения и искусственного интеллекта»
Наталия Ефремова — Нейронные сети: практическое применение

Курсы по машинному обучению

Вводная лекция — К.В. Воронцов
Машинное обучение и искусственный интеллект
Введение в машинное обучение | Григорий Сапунов
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
,
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
, Ukrainian Data Science Club


Англоязычные видеолекции:

Python cources
Python Data Science with pandas
Python For Data Science: Introduction
Python For Data Science — 2018 | Become Data Scientist

R cources
Introduction to Data Science with R — Data Analysis
R Programming Tutorial
Basic Analytical Techniques | Data Science With R Tutorial

Data Science cources
Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі


Machine Learning cources
Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

What is Machine Learning? (AI Adventures)
Тільки зареєстровані користувачі бачать весь контент у цьому розділі



Источник, и ещё больше информации о различных курсах:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
 
На кагле цифры упали раз в десять.
А гитхап, где подобных списков масса, купил микрософт.

Интересная штука, этот МЛ.
Но только для очень богатых товарищей.
 
На кагле цифры упали раз в десять.
А гитхап, где подобных списков масса, купил микрософт.

Какие цифры упали на Каггле?
Что за списки на гит-хабе?
Причём тут майкрософт?

Интересная штука, этот МЛ.
Но только для очень богатых товарищей.

Причём здесь "богатство"?
Все курсы, которые приведены выше - бесплатные.
 
Русскоязычные ресурсы по Data Science:

Python
Pandas. Открытый курс OpenDataScience по машинному обучению
Как анализировать данные с Python библиотеками Pandas и Numpy
Азы работы с pandas.DataFrame на примере задачи о Титанике
Курс «Программирование на языке Python для сбора и анализа данных», НИУ ВШЭ, 2015-16 учебный год, лектор Илья Щуров. Лекция №12: библиотека pandas

Курсы по R
Анализ данных на R в примерах и задачах
Основы анализа данных в R
Анализ данных в R

Наука о данных
Data Science, черные ящики – и почему вам сильно повезло
Введение в Data Science
Почему важно заниматься Computer Science прямо сейчас
Введение в Data Science и Machine Learning
Дискуссия «Тренды data science
Алексей Натёкин: «О развитии анализа данных, машинного обучения и искусственного интеллекта»
Наталия Ефремова — Нейронные сети: практическое применение

Курсы по машинному обучению

Вводная лекция — К.В. Воронцов
Машинное обучение и искусственный интеллект
Введение в машинное обучение | Григорий Сапунов
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
,
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
, Ukrainian Data Science Club


Англоязычные видеолекции:

Python cources
Python Data Science with pandas
Python For Data Science: Introduction
Python For Data Science — 2018 | Become Data Scientist

R cources
Introduction to Data Science with R — Data Analysis
R Programming Tutorial
Basic Analytical Techniques | Data Science With R Tutorial

Data Science cources
Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі


Machine Learning cources
Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Тільки зареєстровані користувачі бачать весь контент у цьому розділі

What is Machine Learning? (AI Adventures)
Тільки зареєстровані користувачі бачать весь контент у цьому розділі



Источник, и ещё больше информации о различных курсах:
Тільки зареєстровані користувачі бачать весь контент у цьому розділі

Спасибо! Отправила ссылку сыну ;)
 
Машинное обучение для всех, кто изучал математику в восьмом классе
Тільки зареєстровані користувачі бачать весь контент у цьому розділі
 
Назад
Зверху Знизу