16+
Пятница, 23 октября 2020
  • BRENT $ 42.62 / ₽ 3264
  • RTS1155.24
22 апреля 2013, 11:54

Big Data: выгода реальна

Лента новостей

Президент Microsoft в России Николай Прянишников отвечает на вопросы посетителей портала

Аналитики называют Big Data одной из важнейших тенденций в IT и прогнозируют, что в текущем году на Big Data будет потрачено 34 млрд долларов США. В программе Еврокомиссии «Горизонт 2020» Big Data окрестили «топливом для новой цифровой экономики». Тем не менее, рынок пока не договорился даже о том, что следует понимать под термином Big Data.Николай Прянишников ответил на вопросы посетителей портала BFM.ru.

Николай Прянишников – один из самых молодых и успешных топ-менеджеров России. В должность президента Microsoft в России, главы российского офиса компании, Николай Прянишников вступил 1 января 2009 года.

ВОПРОС:

В чем технология отличается от конкурирующих?

ОТВЕТ:

Big Data – это, скорее, концепция, объединяющая в себе набор различных технологий. Отличие реализации Big Data у Microsoft – это целостность всей продуктовой линейки, в которой используются интегрированные между собой продукты Microsoft со стандартными, привычными всем, языками программирования и т.п.

Microsoft видит свою роль в демократизации «больших данных». Сегодня мы стараемся создать такие инструменты, которые сделают большие данные доступными для специалистов-аналитиков компаний любого размера.

ВОПРОС:

С каких объемов информации можно говорить о применении этой технологии?

ОТВЕТ:

Однозначного ответа на этот вопрос нет. Существенно более важным является наличие данных различной природы, которые имеют вероятность взаимной связи, и при этом неизвестно, какие группы данных связаны и как. Именно для поиска скрытых взаимосвязей данных, обеспечивающих создание нового знания и нужны технологии Big Data. И такое новое знание в одном бизнесе может появиться из анализа ста гигабайт данных, а при другой задаче - десятков или сотен террабайт.

ВОПРОС:

Николай, судя по описанию, Big Data — это все-таки о том, как данными будут управлять в будущем. Сейчас это, как мне кажется, не слишком актуально для средних российских компаний. Или просто не для всех актуально. Можете как-то выделить сферы, кроме айти, где эта тема действительно интересна и применима? Или мы тут читаем об узкоотраслевом вопросе, который большей части бизнеса не касается сейчас и вряд ли коснется в будущем?

ОТВЕТ:

Чисто теоретически - любой бизнес может получить реальную выгоду, но в первую очередь, конечно, те сферы, где существует эффект масштаба по объемам данных, которые имеют различный характер, или области, где можно расширить горизонт анализа за счет новых «связанных» данных.

Например, совсем недавно в Швейцарии был разработан микро-имплант, который, будучи вживлен под кожу человека, способен собирать данные о молекулярном составе крови, точнее о наличии совершенно конкретных молекул. Почему это важно? Потому что ученые обнаружили корреляцию между динамикой в составе крови и инфарктом. Оказалось, что за 3-4 часа до инфаркта в крови появляется высокая концентрация особой молекулы. Так возникла не только возможность предсказания (путем измерения этого параметра через имплант), но и построения системы предупреждения инфаркта путем постоянного мониторинга этого параметра мобильным телефоном с предупреждением о немедленном приеме лекарств и госпитализации. Это только один пример ценности таких комплексных технологий.

Я уже писал об этом в ответах на другие вопросы, но повторюсь. Инвестиционные структуры могут пользоваться не только стандартными статистическими методами фондового рынка, но и проводить этот анализ совместно с данными из социальных сетей, On-line публикаций, телевидения для того, чтобы реагировать на такой фактор, как восприятие рынком перспектив компании, наличием скандалов, с ней связанных или других причин, способных повлиять на оценку компании. Подозрительные транзакции по кредитной карте можно будет рассматривать в совокупности с информацией о пересечении границы, вашей активностью в социальных сетях (где есть например информация о вашем местоположении) или историей ваших путешествий. Digital Marketing выйдет на принципиально новый уровень. Розничные сети смогут лучше знать своего потребителя и правильно коммуницировать с ним. И все это благодаря Big Data.

Обобщая, скажу, что Big Data прежде всего может быть использована для выявления взаимосвязей, влияющих на бизнес, которые раньше находились за пределами внимания. Это позволит более точно скорректировать стратегию и процессы, а в некоторых случаях создать абсолютно новую бизнес-идею, которая сможет существенно изменить перспективы компании на рынке.

ВОПРОС:

«Аналитики называют Big Data одной из важнейших тенденций в IT и прогнозируют, что в текущем году на Big Data будет потрачено 34 млрд долларов США.» Простите, на что именно будут потрачены эти деньги? Где именно — во всем мире или только в США? И какая часть придется на Россию?

ОТВЕТ:

Аналитики расходятся в своих оценках мирового рынка Big Data. Это потому, что о точных цифрах инвестиций в большие данные сейчас говорить сложно. Однозначно можно только сказать, что нас ожидает значительный рост. Что касается основных инвестиционных направлений - это не расходы на накопление данных, это расходы на извлечение информации из накопленных и формирование специальных средств анализа. Также определенных затрат потребует сама перестройка некоторых бизнес-процессов, толчком к которой послужит информация, полученная с помощью Big Data.

ВОПРОС:

Николай, вы только начали говорить про Big Data в России и я, хоть и слежу за темой, не слышал особых откровений для себя на многих конференциях. Есть страны, где проблемой управления большими объемами данных занимаются серьезно? Понятно что в США, наверное, все уже на высоком уровне. А где еще?

ОТВЕТ:

Серьезность работы с Big Data зависит не от страны, а от востребованности решения в той или иной области бизнеса. Наиболее востребованы такие решения в таких бизнесах, как финансы, банкинг, интернет-торговля, ритейл, добыча полезных ископаемых, маркетинговые исследования. Очевидно, что такие технологии будут применяться в тех странах, где эти бизнесы наиболее развиты – США, Западная Европа, Сингапур, Япония.

ВОПРОС:

Например, я не работаю в области IT, но мне интересна эта тема в плане развития бизнеса. К кому можно обратиться для подробного обсуждения сотрудничества?

ОТВЕТ:

К ИТ-компании консультанту, которая может помочь с построением такого решения. Например, Accenture.

ВОПРОС:

Интересует стоимость?

ОТВЕТ:

Стоимость варьируется в зависимости от компонентов, которые вам нужны – и от стоимости индустриального консалтинга, который туда будет вложен. Основной продукт для Big Data – HADOOP – вообще бесплатен. Если вы знаете, что и как хотите анализировать – можете сделать Big Data бесплатно (без учета стоимости железа). Верхний уровень цены не ограничен в зависимости от задач.

ВОПРОС:

Вы хоть раз определите особенности, так называемой технологии Big Data и чем она отличается от существующих систем поиска и обработки информации. Всё, что рекламируется по Big Data кроме воды в хвалебных словах ничего не слышно. Всё что пытаются сказать о ней всё есть уже, а про отличительные особенности молчат. Либо их нет и это очередной пиар для выманивания денег, либо говорят о том, что сами не понимают!

ОТВЕТ:

Безусловно, часто маркетинговые названия даются не одной, строго определенной технологии или продукту, а некоторому классу. Например, по назначению. Тогда определение может оказаться достаточно общим. Так, в категорию Big Data сейчас часто включают системы map-reduce, специализированные СУБД для работы с неструктурированными данными на базе других моделей и in-memory DB. Получившееся определение неизбежно будет грешить общностью. Определение Big Data как системы на основе модели map-reduce, безусловно, имеет право на существование. Однако лично я предпочитаю определение, идущее скорее от потребностей, чем от технологии. Надеюсь, что читатели простят мне банальный совет – посмотрите простое, но вполне конкретное описание модели map-reduce в Википедии. О том, что доступно на платформе Microsoft можно посмотреть здесь. Если заинтересует что-то конкретное, придется, конечно, читать документацию.

ВОПРОС:

Интересно сравнить с конкурентами, наверняка что-то есть?

ОТВЕТ:

Конечно, есть конкуренты и, конечно, есть партнеры. Вообще всегда хорошо, когда есть выбор и конкуренция. Кто вообще занимается программным обеспечением для больших данных? Можно выделить три категории поставщиков таких решений.

Во-первых, это – крупнейшие интернет-компании. Они в числе первых столкнулись с проблемой накопления ранее невиданных объемов данных и попытались их проанализировать и использовать. В их числеYahoo!, Google, LinkedIn и мы. Некоторые из таких компаний просто предлагают свои сервисы для решения задач Big Data. Некоторые разрабатывают продуктовые стратегии, например LinkedIn со своей системой Storm.

Вторая категория разработчиков – большие софтверные компании, поставщики промышленных СУБД и платформ приложений. К этой категории можно отнести Microsoft, IBM, Oracle, а в последнее время и SAP, особенно в части in-memory СУБД. У них есть как экспериментальные разработки, так и промышленные продукты.

И наконец, конечно, это – стартапы и начинающие компании, созданные специально под идею больших данных.

Тут я бы упомянул в первую очередь нашего доброго партнера Hartonworks. В этой компании работают лучшие в мире специалисты по популярному ПО для обработки больших данных Hadoop. Как Вы, наверное, знаете, Microsoft – спонсор и участник ряда проектов разработки свободного программного обеспечения в рамках некоммерческого партнерства Apace, в том числе и Hadoop. Вместе с Apacheи Hartoworks мы создали стандартное, готовое к немедленному использованию, решение Hadoop на нашей облачной платформе Windows Azure. Думаю, это на сегодня самое масштабируемое общедоступное решение в области больших данных. Называется оно HDInsight. Из новых компаний я еще упомянул бы Cloudera.

Это, конечно, далеко не полный список.

Что отличает в такой ситуации Microsoft? Мы присутствуем прямо или с партнерами во всех перечисленных выше категориях, понимаем потребности самых различных заказчиков, имеем продукты и инфраструктуру для их развертывания. Мы видим свою роль в демократизации больших данных. Компания занимается демократизацией исторически, и пример хорошо известного всем приложения Excel здесь показателен: это удобный и доступный инструмент для работы с числовыми данными. Сегодня мы делаем нечто подобное для Big Data и встраиваем все это в существующую платформу — серверную на базе Windows Server и облачную на базе Windows Azure. На этой основе Microsoft рассчитывает сделать большие данные доступными для специалистов-аналитиков компаний любого размера.

ВОПРОС:

Вы пишите про "доступными для компаний любого размера". В первую очередь размер компании будет определяться бюджетом. Как будет определяться стоимость даты?

ОТВЕТ:

Решения действительно доступны. Особенно если вы хотите решить разовую задачу в облаке – не нужно покупать оборудование и лицензировать ПО. Нужно просто развернуть несколько образов предконфигурированных машин и оплатить только использованные вычислительные мощности и время. Все зависит от задачи, конечно, но у начинающих компаний не всегда сразу возникает потребность анализировать столько же данных, сколько есть, скажем, у Pepsi-Cola, Аэрофлота или Microsoft.

Вообще фокус разработки программной архитектуры и решений Big Data как раз и был сосредоточен на том, чтобы найти способ по возможности дешево обрабатывать массивы данных на существующем, часто подручном, оборудовании. Получилось.

Другой вопрос – сами данные. Они могут стоить денег, и немалых. Но в последнее время многие компании и государственные организации стремятся сделать общедоступными большое количество информации. В этом, в частности, смысл концепции «открытых данных» (OpenData, OData).

ВОПРОС:

А на каком этапе разработки Big Data?

ОТВЕТ:

Уровень разработки соответствующих технологий и продуктов весьма высок и они готовы к применению в реальных ситуациях. Математическая теория декомпозиции задач Big Data развита весьма хорошо. Есть несколько референтных программных архитектур, из которых самая известная “map-reduce”. Некоторые компании, включая Yahoo!, Google, Microsoft имеют за плечами годы практического опыта в этой области. На рынке есть очень интересные и вполне надежные пакеты программ. Нельзя, конечно, сказать, что все уже сделано – есть некоторые сложности в обработке транзакционных данных, можно значительно повысить быстродействие существующих решений.

Кроме собственно ПО для обработки больших данных нужно ПО для их анализа и представления в понятном человеку виде. В частности, так называемая предиктивная аналитика – то, что помогает не просто выявить множество скрытых зависимостей, но и сделать выводы на их основе. Такое вот новое поколение хранилищ данных, бизнес-аналитики и визуализации. Пока, без сомнения, самым популярным приложением в этой области остается Microsoft Excel. Даже книги об этом пишут. Что будет дальше? Я думаю, приложениям предсказательной аналитики, по мере роста масштаба и сложности моделей, понадобится новый интерфейс, в частности такой, который мы называем NUI– Natural user Interface – когда эксперт сможет управлять обработкой и визуализацией данных буквально мановением руки, а может быть и непосредственно силой мысли.

ВОПРОС:

Big Data предполагает, в частности, сбор огромного числа первичной информации. Если с инструментами анализа такой информации у российских компаний дела обстоят неплохо (есть аналитические решения, опыт их внедрения), то насколько хорошо у российских компаний со сбором первичной информации?

ОТВЕТ:

В России есть несколько (немало по любым меркам) Интернет-компаний мирового уровня. Соответственно и с накоплением и обработкой Big Data дела у них обстоят, полагаю, на мировом уровне.

Еще множество компаний в силу специфики бизнеса не могут плохо накапливать и обрабатывать данные. К их числу относятся банки, авиаперевозчики и ряд других. Соответственно, у них уровень сбора, верификации и хранения первичной информации, во многих случаях, тоже достаточно высок. Быстро повышается техническая оснащенность крупных ритэйловых сетей.

ВОПРОС:

Big Data позволяет на основе собранной и обработанной информации создавать, в числе прочего, дополнительные сервисы. В том числе сторонними компаниями. Как развивается это направление на Западе?

ОТВЕТ:

Вы совершенно правы, Леонид. Значительная часть интереса к Big Data как раз и основывается на желании создать дополнительные сервисы. Пока дела хорошо обстоят с повышением качества существующих сервисов. А вот создание новых – горячая область. Тут и на Западе и у нас у каждого сегодня есть шанс придумать и реализовать принципиально новый сервис на основе Big Data.

ВОПРОС:

О рынке какого объема может идти речь?

ОТВЕТ:

По оценке Gartner, ИТ-расходы на Big Data уже в 2013 году составит 120 млрд. долларов. Я бы порекомендовал посмотреть материал, подготовленный c News Analitics.

ВОПРОС:

Есть ли у этого направления перспективы в России, где компании крайне неохотно делятся информацией?

ОТВЕТ:

Такая проблема существует. Но по мере того, как компании будут видеть для себя выгоду в раскрытии информации (только той, в отношении которой это допустимо по закону), они будут больше кооперироваться, больше вовлекать в обсуждение и накопление данных своих клиентов и больше предлагать новых услуг.

ВОПРОС:

Комментарии в социальных сетях - это тоже структурированная информация хранящаяся в базе данных.

ОТВЕТ:

Базы данных бывают разные. Вы, наверное, имеете в виду, что комментарии в социальных сетях хранятся под управлением наиболее привычных нам всем реляционных СУБД ?

Ответ на Ваш вопрос скорее всего должен быть таким -- и да, и нет.
Да, потому, что приложения социальных сетей начали создаваться достаточно давно, когда еще никто не знал, какого масштаба они достигнут, и какие неожиданные вопросы о накапливаемой ими информации нам захочется ставить. Да, если говорить об узкой задаче выдачи блоков текста системе управления контентом и системе публикации страниц. Да, если говорить о некоторых специфических проектах на их начальной стадии (например,Twitter – там текстовые поля короткие и фиксированной длины. Если не ошибаюсь, Twitter сначала был написан как очень компактное приложение на Python). Ответ скорее нет, если сеть очень большая. Нет, если нужно анализировать не только поступившие недавно сообщения, но весь исторический массив. Нет, если нужно анализировать не только комментарии, но и полный лог активностей пользователей (хотя он и представителен, обычно, полями фиксированной длины). Нет, если нужно не простое отображение, а сложный анализ информации. Нет, если нужно делать разбор графов взаимозависимостей субъектов и объектов сети. Нет, если обработка включает построение полнотекстовых индексов, машинное обучение, интеллектуальный поиск по автоматически определенным синонимам и пр.
Возможны и комбинированные ситуации – ответ сразу и да, и нет. Во-первых, современные СУБД научились работать с самыми разнообразными данными, в том числе – плохо поддающимися структурированию в виде реляционных таблиц. Они также стали намного более масштабируемыми и производительными. Отчасти это произошло, потому, что в них встроены многие механизмы, первоначально разработанные для задач больших неструктурированных данных.

Во-вторых, иногда в таких задачах можно использовать и обычные реляционные СУБД. Как Вы, наверное, знаете, для обработки больших данных они должны храниться в специальной распределенной файловой системе и разбиваться на так называемые «чанки» - своего рода «кванты» обработки. Я могу допустить, что в некоторых реализациях отдельные чанки могут находиться под управлением легких версий реляционных СУБД, если это способствует ускорению работы отдельных узлов распределенной информационной системы. Но давайте дальнейшую дискуссию оставим профессиональным разработчикам.

ВОПРОС:

А собственно, как Big Data скажется на развитии бизнеса Microsoft?

ОТВЕТ:

Уже сказывается. У нашей продукции более миллиарда пользователей. Мы многие годы работали над тем, чтобы научиться понимать их потребности и предоставить им возможность удобной обратной связи. Сейчас мы делаем это намного качественнее, чем когда-либо ранее.

ВОПРОС:

Для каких отраслей актуально применение Big Data?Для каких именно компаний этот продукт будет актуален?

ОТВЕТ:

Чисто теоретически – любой бизнес может получить реальную выгоду, но в первую очередь, конечно, те сферы, где существует эффект масштаба по объемам данных, которые имеют различный характер, или области, где можно расширить горизонт анализа за счет новых – «связанных» данных.

Например, в финансовой индустрии можно снизить риск мошенничества с кредитными картами. Для этого подозрительные транзакции могут рассматриваться в совокупности с информацией о пересечении границы держателем карты и его активностью в социальных сетях, где используется сервис Check-in. Или инвестиционные структуры для оценки инвестиционной привлекательности той или иной компании могут пользоваться не только стандартными статистическими методами фондового рынка, но и проводить этот анализ совместно с данными из социальных сетей, онлайн публикаций, телевидения. Это позволит реагировать на такой фактор, как восприятие рынком перспектив компании, наличие скандалов, с ней связанных, или других причин, способных повлиять на оценку компании. Не говоря уже о Digital Marketing, который на основе инструментов Big Data выйдет на качественно новый уровень.

Обобщая, скажу, что Big Data прежде всего может быть использована для выявления взаимосвязей, влияющих на бизнес, которые раньше находились за пределами внимания. Это позволит более точно скорректировать стратегию и процессы, а в некоторых случаях даже создать абсолютно новую бизнес-идею, которая может существенно изменить перспективы компании на рынке.

ВОПРОС:

Как можно ближе ознакомиться с Big Data? Есть ли примеры работы в какой-нибудь банковской отрасли? А то информации про яндекс-пробки мало. Хочется иметь большее представление.

ОТВЕТ:

Финансовая индустрия – одна из наиболее заинтересованных в Big Data отраслей. Анализ массивов данных даст возможность во многом повысить эффективность в банковской, страховой и других финансовых сферах. Например, позволит снизить риск мошенничества с кредитными картами. Для этого подозрительные транзакции могут рассматриваться в совокупности с информацией о пересечении границы держателем карты и его активностью в социальных сетях, где используется сервис Check-in. Или инвестиционные структуры для оценки инвестиционной привлекательности той или иной компании могут пользоваться не только стандартными статистическими методами фондового рынка, но и проводить этот анализ совместно с данными из социальных сетей, онлайн публикаций, телевидения. Это позволит реагировать на такой фактор, как восприятие рынком перспектив компании, наличие скандалов, с ней связанных, или других причин, способных повлиять на оценку компании.

Приведу примеры, реального использования Big Data.

Американская компания Klout специализируется на мониторинге социальных сетей по запросам клиентов. Внедрение SQL Server 2012 и средств для бизнес-анализа Microsoft позволило анализировать массивы данных практически в режиме реального времени. Кроме того, позволило вывести на рынок новый сервис: определение индекса авторитета конкретного потребителя, который используется в основном банками для оценки платежеспособности потенциального заемщика или составления таргетированных персонифицированных предложений финансовых услуг.

Другой пример из мира игр. После выхода Halo 4 стартовал крупнейший турнир по игре Infinity Challenge. Участники бесплатного турнира боролись за почти три тысячи призов, среди которых был автомобиль, а также возможность стать героем новой игры из серии Halo. Чтобы своевременно обновлять таблицу лидеров и выявлять случаи мошенничества, был необходим гибкий инструмент анализа массивов данных. Кроме того, разработчики хотели узнать, сколько времени в среднем пользователи играют, какие именно сценарии и функции пользуются популярностью, а какие нет, и т.п., чтобы скорректировать свою маркетинговую стратегию. Использование решений Microsoft для анализа массивов данных позволило компании с успехом провести турнир и повысить уровень удовлетворенности игроков.

Решения Big Data помогают в поиске преступников. Департамент специальных расследований Таиланда отвечает за раскрытие серьезных преступлений. Объем информации разнообразной структуры, которой оперирует департамент, колоссален. Обработка данных и поиск необходимой информации требовали много времени, особенно в случая, когда невозможно было задать четкие параметры запроса. По словам представителей Департамента, благодаря внедрению решения Microsoft для хранения и управления большими данными на основе SQL Server 2012, время обработки и анализа информации по ряду дел сократилось с двух лет до двух недель.

ВОПРОС:

Будут ли походить бесплатные конференции на тему Big Data непосредственно в Майкрософт?

ОТВЕТ:

Да, мы планируем такие конференции на сентябрь. Однако Big Data – это очень популярная тема, поэтому мы также активно участвуем во всевозможных внешних конференциях, которые проводятся на разных площадках, зачастую бесплатных и открытых для свободного посещения.

Благодарим посетителей портала BFM.ru за вопросы.

Добавить BFM.ru в ваши источники новостей?

Рекомендуем:

Фотоистории
BFM.ru на вашем мобильном
Посмотреть инструкцию