Перейти на 'Главную страницу' Доска объявлений
  Харьков Форум > Харьков > Студенческий форум

Старый 17.01.2017, 20:57   #1
aruba

 
Регистрация: 17.01.2017
Из: Ukraine
Сообщений: 10
 
По умолчанию Субъективный взгляд на Науку о данных в Украине
Предлагаю к обсуждению перевод статьи, оригинал которой был опубликован на сайте:
https://dou.ua/lenta/columns/data-science-in-ukraine/



Субъективный взгляд на Data Science в Украине

[Об авторе: Богдан Павлишенко — Data Scientist в компании SoftServe (Business Systems), доцент (канд.физ.-мат. наук) факультета электроники и компьютерных технологий в Львовском национальном университете имени Ивана Франко, а также занимается научной работой в области анализа данных (LinkedIn, блог)]


У памятника Т.Шевченко в Вашингтоне

Data Science, Big Data, Predictive Analytics, Machine Learning — популярные тренды в современных информационных технологиях. Должности специалистов по анализу данных стали одними из самых желанных в ИТ-секторе. Появилось большое количество специалистов по анализу данных (Data Scientists) и популяризаторов этого направления, которые рассказывают о фантастических возможностях современного анализа данных, машинного обучения, в частности, нейронных сетей.

В этом году я принимал участие в двух научно-практических конференциях в области анализа данных: Data Stream Mining & Processing (August 23-27, 2016 Lviv, Ukraine) и 2016 IEEE International Conference on Big Data (December 5-8, 2016 Washington, DC, USA).

Также я являюсь участником соревнований по анализу данных на платформе Kaggle, где в составе команды выиграл соревнование Grupo Bimbo Inventory Demand по прогнозированию спроса товаров, получив первое место среди почти 2000 участников (наш решение здесь).

Как Data Scientist в SoftServe (Business Systems) я имею дело с прикладными задачами анализа данных, бизнес-аналитикой, в частности, прогнозированием продаж, анализом факторов, влияющих на спрос товаров, поведением потребителей товаров и услуг, fraud detection и тому подобное. Круг моих научных интересов связан с Machine Learning, анализом текстовых массивов и слабоструктурированных данных, анализом социальных сетей, в частности, прогнозированием событий на основе потоков данных в социальных сетях.

Все это дало мне возможность увидеть различные аспекты анализа данных, общаться с широким кругом специалистов со всего мира на упомянутой конференции, на платформе Kaggle, а также с реальными заказчиками анализа данных. Хочу поделиться своим видением этого направления информационных технологий.


О специалистах по анализу данных

Некоторые считают, что чтобы стать Data Scientist, достаточно изучить одно или несколько средств анализа данных, таких как R или Python с соответствующими пакетами. На самом деле, анализ данных — это в первую очередь понимание данных, их статистики и соответствующих алгоритмов анализа. Без такого понимания никакого анализа не получится. И для этого нужно иметь как минимум фундаментальную базу математических знаний на уровне высшего физико-математического или технического образования, на основе которого можно изучить соответствующие алгоритмы из машинного обучения, регрессии или статистической обработки.

С другой стороны, от вузовского сообщества можно услышать, что главное — это алгоритмы, методы и подходы, а языки программирования постоянно меняются, поэтому, зная методы и алгоритмы, всегда можно реализовать анализ данных на Си или Паскаль. С этим я тоже не согласен.

Конечно, теоретически можно написать сложную программу по анализу данных, однако, если ваша модель состоит из тысяч уравнений, а исторических данных для анализа — десятки гигабайт, тогда зная только алгоритмы, разработать программное обеспечение из первых принципов практически невозможно, учитывая временные рамки проекта по анализу данных и сложность составных частей анализа.

Реальный анализ данных состоит не из одного алгоритма, а из многоуровневой комбинации различных алгоритмов и подходов. Поэтому выходом является использование специализированных сред, в том числе программной среды R и соответствующих пакетов. Анализируя реальные данные больших размеров, возникают различные проблемные моменты, которые заранее не очевидны, в частности, эффекты переобучение (overfitting), которые в значительной мере обусловлены структурой и областью знаний анализируемых данных. Значительный объем работы в анализе данных заключается в решении конкретных рутинных проблем, как, например, объединение данных из различных источников, очистка данных, выявление случайных значений, не свойственных рассматриваемому процессу, заполнение неизвестных данных наиболее вероятными значениями, загрузка и работа с данным в облачных сервисах, разного рода агрегация данных и тому подобное.

Иногда встречаю среди специалистов такое мнение, что ученый по данным только генерирует идеи, на реализацию которых у него просто нет времени. Для реализации якобы существуют инженеры, которые все его идеи реализуют в коде. Это также ошибочная позиция. На практике никто вам не реализует ваши идеи. Ученый по данным должен сам реализовывать свои идеи в коде, как минимум на уровне работающего прототипа. Он сам должен получать значения, распределения, распознавать паттерны, кластеризовать и классифицировать предоставленные ему десятки гигабайт данных. Максимум, что он может просить — это предоставить ему данные в удобном виде, например в текстовом формате с соответствующими разделителями между полями. Дальнейшая работа с данными, объединение фреймов данных по соответствующим ключам, очистка данных, агрегирование данных, генерация новых признаков ложится на его плечи.

Специалист по анализу данных должен сочетать в себе как ученого со знанием математики, соответствующих алгоритмов и методов, так и программиста, который владеет языками программирования и специализированными пакетами по обработке и анализу данных.

Одной из основных задач научного анализа данных является проведение такой трансформации данных, которая дала бы возможность увидеть новые закономерности, например, в деятельности компании, поведении клиентов или динамике количественных показателей, и принять соответствующие решения в управлении соответствующими бизнес процессами компании. То, какие именно трансформации необходимо провести, определяется собственным опытом специалиста и часто не очевидно заранее. Нужно много экспериментировать с конкретными данными, чтобы увидеть интересные структурные закономерности и получить инсайты. Из большого количества проведенных аналитических исследований часто отбирают только несколько, которые могут быть полезными. Поэтому Data Science содержит значительную экспериментальную составляющую, для которой необходимо владеть как предметной областью анализа, так и программными средствами работы с данными.


О конференции Big Data 2016

Конференция 2016 IEEE International Conference on Big Data проходила с 5 по 8 декабря в Вашингтоне в отеле Hyatt рядом с Капитолием. Во многом все научные конференции, в том числе украинские, сходны между собой организационными моментами, дружеской атмосферой, стилем докладов и дискуссий. На этой конференции было много как ученых, так и представителей технологических компаний и правительственных структур. Не все участники представляли доклады, многие участники приехали послушать доклады и принять участие в дискуссиях. С программой и материалами можно ознакомиться на сайте конференции. Я получил грант на поездку на эту конференцию от компании Bosch (подробнее здесь), а также поддержку от компании SoftServe (Business Systems). Докладывал на симпозиуме Symposium on Data Analytics for Advanced Manufacturing, который проходил в рамках конференции. Тема моего доклада «Machine Learning, Linear and Bayesian Models for Logistic Regression in the Failure Detection Problems» (pdf-файл).


Конференция BigData 2016. Докладывает M. Stonebraker (M. Stonebraker, D. Deng and M. L. Brodie, Database Decay and How to Avoid It)


Конференция BigData 2016. Слайд из доклада Dr. Frank W.Gayle, Advanced Manufacturing National Program Office (AMNPO), NIST


Один из стендовых докладов на конференции BigData 2016



О квалификационном уровне Data Scientist и соревнованиях Kaggle


Остро стоит вопрос о количественном измерении квалификационного уровня специалиста по анализу данных. Часто о своем уровне заявляют сами специалисты. Не показывая при этом результатов своих исследований, ссылаясь на договор о неразглашении. И часто окружающие судят об их квалификации, опираясь на уверенность поведения, частоту и количество употребляемых терминов из области анализа данных. Теория современного Data Science не является слишком сложной, в то же время успех анализа данных в значительной степени определяется собственным опытом и интуицией специалиста, его осведомленностью в предметной области анализа.

Этот субъективизм в основном и определяет значимость должности ученого по анализу данных. При одинаковых используемых методах и данных один специалист может дать существенно больше информации, необходимой для принятия решений, чем другой. Поэтому важно найти количественные характеристики экспертного уровня компетентности специалиста.

По моему мнению, наиболее объективными характеристиками такого типа могут быть рейтинг и достижения специалиста на общепризнанных платформах по анализу данных. Одной из таких платформ является Kaggle. На этой платформе различные компании дают свои задачи по анализу данных широким кругам специалистов со всего мира. И предложенные решения порой имеют составляющие элементы, которые более эффективны, чем решения собственных специалистов этих компаний.


Сайт Kaggle.com

У некоторых возникает вопрос: «А какой резон серьезным специалистам мирового уровня участвовать в таких соревнованиях, ведь призовые получают только преимущественно первые три команды, а участие в соревновании могут принимать несколько тысяч?» Дело в том, что вы можете попробовать свои методы на реальных данных из бизнеса, а с другой стороны система Kaggle оценивает результаты вашего моделирования и выставляет вам рейтинг, основанный на ваших результатах. Этот рейтинг и является одним из самых больших стимулов участия в таких соревнованиях. Разговаривая в кулуарах упомянутой выше конференции в Вашингтоне, я увидел, что рейтинг в Kaggle является общепризнанным и высокие позиции характеризуют высокий квалификационный уровень специалиста.

Однако парадоксом является то, что в украинских ИТ-кругах бытует мнение, что такого типа соревнования недостойны внимания настоящего ученого по данным, для которого якобы не по рангу заниматься задачами олимпиадного типа, так как к нему и так стоит очередь из заказчиков на анализ данных. Подозреваю, носители таких позиций сами пытались участвовать, однако не достигли значительных результатов, а поэтому отрицают эффективность такого подхода, отводя ему уровень песочницы для начинающих.

Хочу сказать, что получить высокий общий рейтинг или попасть в топ-10 на соревновании чрезвычайно трудно. Это ежедневная кропотливая работа, тестирование различных моделей, параметров, комбинаций подходов.


Leaderboard на соревновании Grupo Bimbo Inventory Demand, в котором наша команда The Slippery Appraisals одержала победу

Лично для меня, участие в таких соревнованиях дало очень много в понимании анализа данных (мой Kaggle-профиль). Конечно, в таких соревнованиях есть особые подходы, которые определяются спецификой соревнований. Однако, главное, что получает участник соревнований — это практический опыт работы с данными из различных предметных областей. Некоторые утверждают, что борьба на таких соревнованиях идет за незначительные доли в результатах прогнозирования, а это вроде не так важно в реальных задачах, где важнее стабильность решения. Отчасти это так. Однако, анализ подходов, валидация моделей, построение ансамблей классификаторов, технологии «беггинга» и «стэкинга» можно применять в реальных задачах. Их невозможно освоить теоретически, нужна практика на реальных массивах данных. Когда вы, например, готовитесь поступать на математический или физический факультет, то также сдаете экзамен или тесты по сложным алгебраическим или тригонометрическим преобразованиям, которые потом не будете применять на практике. Но этим вы показываете свою способность мыслить и свой стартовый аналитический уровень. Подобную аналогию я вижу и в участии в соревнованиях на Kaggle, которые можно рассматривать как дополнительный фактор роста уровня компетентности в области анализа данных.


Об иллюзиях в Data Science

Существует мнение, что для анализа данных обязательно необходимы технологии Big Data, к которым относят Hadoop, MapReduce, Spark. На самом деле, названные технологии Big Data становятся эффективными при размерах данных, начиная с нескольких терабайт. В реальном бизнесе лишь очень небольшой процент данных имеет такие размеры. Я имею в виду не общий размер базы данных, а размер одной таблицы, строки которой необходимо анализировать одновременно, например, методами машинного обучения или осуществлять анализ на основе линейных параметрических моделей.

Большинство современных систем анализа, в частности R, размещают рассматриваемые данные в оперативной памяти. Например, мой рабочий настольный компьютер имеет размер оперативной памяти 128Гб, и я могу анализировать данные размером в десятки гигабайт. Даже если исходных данных более терабайта, то часто необходима предварительная агрегация данных, которую можно выполнить соответствующими пакетами без загрузки всех данных в оперативную память и дальше анализировать агрегированные данные существенно меньшего размера. Или, например, разбить данные на соответствующие части, а решения объединить в соответствующие ансамбли.

Когда наша команда участвовала в вышеупомянутом соревновании Kaggle, мы использовали арендованный на Amazon ресурс из 128 процессоров и 2Tb оперативной памяти (x1.32xlarge Amazon EC2), что было одним из важных факторов нашей победы на соревновании, поскольку позволило нам испытать большое количество моделей с большим набором созданных признаков. Все это говорит о том, что, даже анализируя данные достаточно больших размеров, во многих случаях можно обойтись без технологий Big Data.

По моему мнению, также преувеличенной является роль нейронных сетей. Термин «нейронные сети» ассоциируется с умственной деятельностью человеческого мозга и, поэтому, стал очень популярным. То, что в области распознавания оптических образов нейронные сети имеют успех — очевидный факт. Однако, когда речь идет о широком круге задач машинного обучения, таких как нелинейная регрессия, прогнозирование спроса и цен, классификация пользователей, выявление обманных действий, анализ финансовых рынков и т.д., то нейронные сети не всегда является наилучшим выбором, часто этот выбор связан с рекламным ходом, чтобы подчеркнуть современность и интеллектуальность рекламируемой системы.

В своем анализе на упомянутом соревновании Kaggle, мы также использовали нейронные сети. Но мы использовали их на втором уровне нашей модели для реализации «стэкинга» с целью незначительного улучшения результата. Расчет с использованием нейронных моделей был одним из самых трудоемких, хотя для этого использовались мощные графические процессоры. И в конечном варианте нашего решения мы отказались от нейронных сетей в нашей модели, отдав предпочтение более простому варианту модели.


Об организации работы специалистов по анализу данных

Существует два подхода к организации работы специалистов по анализу данных в ИТ-компаниях. Первый заключается в создании универсального отдела Data Science, а второй — в интеграции ученых по анализу данных в специализированные подразделения, которые занимаются узкой проблематикой. Я сторонник второго подхода. По моему мнению, особенности предметной области анализа данных важнее, чем наличие общих принципов анализа данных. Именно глубокое понимание предметной области и специфики анализируемых данных является одним из основных факторов успешного анализа данных. Важным шагом в анализе данных, в том числе в прогнозной аналитике (Predictive Analytics), является отбор и генерация новых признаков на основе исторических данных и правильный выбор валидации модели.

Одним из факторов победы нашей команды на Kaggle было то, что в круг моих профессиональных интересов входит анализ динамики продаж товаров, поэтому, при генерации большого количества новых признаков, я вкладывал известные мне структурные связи, которые существуют в бизнесе продаж и поставок. Одни из них давали улучшение результатов, другие нет, но нам удалось отобрать самые эффективные признаки. Поэтому я являюсь больше сторонником узкоспециализированных ученых по анализу данных в соответствующих ИТ-подразделениях.

Особенностью Data Science является то, что в этой области практически невозможно работать фрилансером, как, например, в области веб-программирования. Данные отражают много чувствительных моментов деятельности компаний. Особое внимание уделяется юридическим аспектам при передаче данных для анализа. Поэтому в этой сфере анализа данных заказчики отдают предпочтение ИТ-компаниям, с которыми можно подписать соответствующие юридические договора, в частности договор о неразглашении.


О сотрудничестве с вузами

В Украине в настоящее время сложилась успешная ИТ-индустрия, которая, по моему мнению, несколько находится в легкой эйфории. Одна из основных проблем — это слабая диверсификация направлений деятельности. Основной акцент сделан на аутсорс, в развитии которого есть свои объективные тренды как растущего, так и нисходящего характера. Для стабильного развития нужно было бы увеличить долю наукоемких проектов и продуктов. Анализ данных как в виде сервиса, так и в виде разработки специализированных продуктов является одним из таких перспективных направлений. По моим наблюдениям реальных коммерческих проектов по анализу данных существенно меньше, чем самих разговоров о Data Science.

Одним из факторов успешного развития Data Science в ИТ-бизнесе я вижу тесное сотрудничество между ИТ-компаниями и вузами. Есть много примеров такого сотрудничества, но их общий объем недостаточен. Одно из основных препятствий в таком сотрудничестве — это гонор и превосходство, которые присущи обеим сторонам. Среди преподавателей слышать, что они не будут заниматься набивкой на клавиатуре якобы примитивного кода, что они — академическая организация, а не бизнес структура. Другие говорят, что ИТ-сектор и так должен поддерживать вузы, потому что мы готовим для них специалистов. Со стороны ИТ слышно другое мнение — в вузах не учат современном программированию, курсы устаревшие, наука дает нулевой результат.

Зная эти две стороны, могу сказать, что своя правда есть у каждого. Успешные ИТ-шники часто недооценивают ту среду, в которой они формировались в течение 4-6 лет. Иногда трудно оценить, что дали эти все лекционные курсы, практические занятия, лабораторные, курсовые и дипломные работы, сессии, среда общения. На самом деле, они дали тот базис, на основе которого в дальнейшем сформировались эти успешные ИТ-специалисты. И никакие курсы по программированию не заменят той базы, часто невидимой, которую дают вузы.

С другой стороны сотрудничество с ИТ-компаниями — это один из немногих вариантов, которые дают возможность развиваться как научным школам, так и педагогическим коллективам вузов. Ведь в современных условиях мало кто из перспективных выпускников идет заниматься научной работой, нет возможности поехать на значимую научную конференцию, пригласить известного специалиста. Сформировав соответствующее сотрудничество, можно создать базу для прикладных научных направлений, в частности по анализу данных. В этом сотрудничестве можно было бы совместить фундаментальные знания и разработки преподавателей, а со стороны ИТ-компаний — практические навыки разработки программного обеспечения и менеджмента.

Нужно идти навстречу друг другу, искать различные формы сотрудничества. Это может быть и стажировки преподавателей в ИТ-компаниях, прохождение практики студентами, курсовые и дипломные работы на основе реальных проектов и современных технологий в ИТ-компаниях. Преподавателей и ученых можно привлекать к проблемным наукоемким задачам из области анализа данных. Но сотрудничество, которое я вижу сейчас, в основном направлено на отбор лучших студентов с последующим привлечением их к программированию в аутсорсе. На мировом рынке конкуренция в аутсорсе обостряется. В то же время считаю, что наш научный потенциал является достаточно значительным. Поэтому одним из перспективных направлений является привлечение этого потенциала в ИТ-отрасль для развития наукоемких технологий.

Теоретически, анализу данных можно научиться с помощью соответствующей литературы или на on-line курсах. Однако, исходя из своего опыта, я не вижу возможности развития Data Science без привлечения ученых физико-математического направления. Нужен особый научный подход к проблеме, который вырабатывается годами в процессе научной деятельности.

Многое из того, что я видел со стороны украинского ИТ-бизнеса в области анализа данных — это поверхностный взгляд на проблему, тестовые примеры, доклады с обобщенными блок-схемами. С другой стороны, академическое сообщество представляет свои идеи в виде сложнейших алгоритмов и формул. При этом нет сопоставления, насколько новые подходы лучше тех, что уже существуют и работают, какие результаты можно получить на известных тестовых данных.

Не все преподаватели могут сразу начать сотрудничество в новом для них ритме с особым форматом взаимодействия с ИТ-бизнесом, это также непросто. Со стороны вузов должны быть изменения. Например, для преподавателей, которые сотрудничают с ИТ-компаниями должен быть гибкий график педагогической нагрузки, в который должна была бы зачисляться работа над совместными ИТ-проектами. Энтузиасты из ИТ-компаний, могли бы читать соответствующие лекции в вузах с зачислением их в преподавательский состав этих вузов. На упомянутой выше конференции в Вашингтоне также обсуждалось сотрудничество вузов с бизнесом и правительственными учреждениями. Основные проблемы в чем-то похожи у нас и на Западе. Имея не хуже фундаментальный уровень, мы могли бы сотрудничать на более привлекательных для иностранных компаний финансовых условиях.

Я высказал свою точку зрения только на некоторые аспекты Data Science с точки зрения усредненного украинского специалиста на основе собственного опыта и видения данной проблемы. Хотелось бы услышать также мнения других специалистов по этому направлению информационных технологий.

Конец статьи.




Как известно, Харьков славится своей физико-математической и технической научной школой. Известно также, что наука в городе, как и во всей стране в целом, сейчас переживает не самые лучшие времена.

Как вы думаете, мог бы существующий научный потенциал быть полезен для развития каких-то прикладных наукоёмких отраслей?

Каковы вообще перспективы сотрудничества индустрии и науки в Харькове, в стране в целом?

На сколько может быть важно такое сотрудничество в IT-отрасли?


    Вверх
Старый 6.02.2017, 05:07   #2
ВекВак

 
Регистрация: 15.04.2012
Адрес: USA
Из: United States
Сообщений: 767
 
По умолчанию
Осилил!
Хоть статья и по моему профилю, а сказать нечего как-то.

И да, серьезные специалисты едва ли будут в подобных соревнованиях участвовать. У них такие соревнования на работе каждый день.


    Вверх
Старый 20.02.2017, 21:51   #3
aruba

Автор темы
 
Регистрация: 17.01.2017
Из: Ukraine
Сообщений: 10
 
По умолчанию
Соревнования полезны:

1. Для новичков они позволяют получить реальный практический опыт решения задач, которые возникают у компаний топового уровня.

2. Для специалиста среднего уровня - актуализировать, расширить набор навыков, используемых технологий.

3. Хорошие результаты могут быть дополнительным независимым критерием квалификации специалиста.


    Вверх
Старый 7.03.2017, 17:13   #4
ВекВак

 
Регистрация: 15.04.2012
Адрес: USA
Из: United States
Сообщений: 767
 
По умолчанию
Цитата:
Сообщение от aruba
Соревнования полезны:

1. Для новичков они позволяют получить реальный практический опыт решения задач, которые возникают у компаний топового уровня.

2. Для специалиста среднего уровня - актуализировать, расширить набор навыков, используемых технологий.

3. Хорошие результаты могут быть дополнительным независимым критерием квалификации специалиста.
Так и есть.


    Вверх
Старый 8.03.2017, 16:49   #5
Dr.KoT


 
 
Регистрация: 25.08.2010
Адрес: Харьков
Из: Ukraine
Сообщений: 14,000
 
По умолчанию
Цитата:
Сообщение от aruba
Предлагаю к обсуждению перевод статьи, оригинал которой был опубликован на сайте
Думаю, интересно было бы прикрутить технологии Data Science к управлению государством Украина.
Создать АСУ государством.



    Вверх
Старый 12.03.2017, 10:21   #6
aruba

Автор темы
 
Регистрация: 17.01.2017
Из: Ukraine
Сообщений: 10
 
По умолчанию
Цитата:
Сообщение от Dr.KoT
Думаю, интересно было бы прикрутить технологии Data Science к управлению государством Украина.
Создать АСУ государством.
В рамках плановой экономики такие попытки уже были. Кибернетика того времени это и есть современный Data Science.

https://ru.wikipedia.org/wiki/Общего...тки_информации


    Вверх
Старый 12.03.2017, 10:32   #7
Dr.KoT


 
 
Регистрация: 25.08.2010
Адрес: Харьков
Из: Ukraine
Сообщений: 14,000
 
По умолчанию
Цитата:
Сообщение от aruba
В рамках плановой экономики такие попытки уже были. Кибернетика того времени это и есть современный Data Science.
Попытки это просто отлично. Но хотелось бы и результаты иметь.
Управление без коррупции.


    Вверх
Старый 12.03.2017, 15:14   #8
aruba

Автор темы
 
Регистрация: 17.01.2017
Из: Ukraine
Сообщений: 10
 
По умолчанию
Цитата:
Компания Google приобрела сервис Kaggle для проведения соревнований в области машинного обучения.

Детали сделки не разглашаются, пишет republic со ссылкой на TechCrunch.

Как отмечает издание, благодаря сотням тысяч зарегистрированных на платформе специалистов в области анализа данных Google сможет сразу же «расширить охват» в развитии искусственного интеллекта, что особенно актуально, так как компания конкурирует с Amazon в сфере облачных вычислений. Более того, покупка поможет «укрепить» бренд Google в сообществе исследователей баз данных.

Также сообщается, что Kaggle – основная платформа для проведения соревнований в области машинного обучения и анализа данных.

Сервис был основан в 2010 году, с его помощью исследователи могут опробовать свои модели анализа данных на каких-либо задачах. По данным Crunchbase, за семь лет платформа привлекла $12,5 млн инвестиций от фондов и частных инвесторов.

https://www.unian.net/science/181417...bucheniya.html
Цитата:
Зачем Google купила сервис для исследователей данных Kaggle

Представители Google, выступая на конференции Google Cloud Next в Сан-Франциско, подтвердили покупку стартапа Kaggle, создавшего одноимённую платформу для исследователей данных, где они могут опробовать модели анализа на актуальных задачах, сообщает TechCrunch.

Kaggle — крупнейшая платформа для проведения соревнований среди специалистов по данным и машинному обучению. На площадке зарегистрированы сотни тысяч пользователей. Доступ к ним усилит влияние Google на сообщество специалистов по искусственному интеллекту. Конкуренция компании с другими крупными игроками рынка искусственного интеллекта (в частности, Amazon) требует постоянной активности, и покупка Kaggle — важный шаг в этом направлении.

Стоит отметить и ставшее возможным усиление позиций Google в сообществе исследователей по обработке данных, а также в в борьбе за лучших специалистов на рынке.

Активное распространение технологий искусственного интеллекта открывает доступ на рынок небольшим и средним компаниям, совокупное влияние которых способно пошатнуть признанное лидерство Google в области машинного обучения. Новое поглощение — дополнительный козырь для сохранения статуса корпорации.

Основанный в 2010 году Kaggle объединяет более 500 тысяч специалистов по данным. Несмотря на наличие сильных конкурентов в лице DrivenData, TopCoder и HackerRank, проект сумел быстро набрать популярность благодаря чётко обозначенной нише. Инвесторы сервиса — Юрий Мильнер, Макс Левчин, а также Khosla Ventures, Index Ventures и другие фонды. За время существаоания Kaggle привлёк $12,5 млн, из которых $11 млн в ходе крупного инвестиционного раунда в ноябре 2011 года.

https://dev.by/lenta/main/google-buys-kaggle
Google confirms its acquisition of data science community Kaggle
https://techcrunch.com/2017/03/08/go...ty-kaggle/amp/

Kaggle Joins Google Cloud
http://blog.kaggle.com/2017/03/08/kaggle-joins-google-cloud/


    Вверх
Старый 13.03.2017, 23:29   #9
Ferox


 
 
Регистрация: 25.09.2006
Адрес: Винница
Сообщений: 34,759
 
По умолчанию
Как вам новый FPGA чип от Xilinx? Тестили? Нейросеточки свои на нем запускали?

Или только переводами статей надрачиваете?


__________________
Пока одни люди причитают "Куда же катится этот мир?!", другие люди тихо и спокойно его куда-то катят.
    Вверх
Старый 20.03.2017, 09:18   #10
JAZZ-Clone


 
 
Регистрация: 9.06.2014
Из: Ukraine
Сообщений: 4,798
 
По умолчанию
Рад за Kaggle.
Повезло, что их купил не Microsoft.


__________________
Карл у Клары укр.
Укр, Карл!
    Вверх

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск

Харьков Форум > Харьков > Студенческий форум

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Выделить деньги на науку. Харьковские ученые вышли на акцию протеста Объектив Новости 15 30.03.2016 10:00
Сбор данных и передача данных в ХТС- сколько это стоит? benzonasos Главный 29 14.12.2015 14:28
Спасите науку в Украине!? Jonhson Наука и техника 9 9.12.2015 17:22
Армия: США vs Россия. Субъективный взгляд морского пехотинца...(обсуждать без истерик :) Z0M613 Политика 192 28.07.2010 13:17
Кризису вопреки. Премию от Президента харьковчане потратят «на науку» Объектив Новости 0 13.02.2009 18:20


Часовой пояс GMT +2, время: 00:04.


RSS 0.91
RSS 2.0
Харьков Форум Powered by vBulletin® Version 3.8.7
Copyright ©2000 - 2017, Jelsoft Enterprises Ltd.
Google Analytics