будущее есть!
  • После
  • Конспект
  • Документ недели
  • Бутовский полигон
  • Колонки
  • Pro Science
  • Все рубрики
    После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша
После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша

Конспекты Полит.ру

Смотреть все
Алексей Макаркин — о выборах 1996 года
Апрель 26, 2024
Николай Эппле — о речи Пашиняна по случаю годовщины геноцида армян
Апрель 26, 2024
«Демография упала» — о демографической политике в России
Апрель 26, 2024
Артем Соколов — о технологическом будущем в военных действиях
Апрель 26, 2024
Анатолий Несмиян — о технологическом будущем в военных действиях
Апрель 26, 2024

После

Смотреть все
«После» для майских
Май 7, 2024

Публичные лекции

Смотреть все
Всеволод Емелин в «Клубе»: мои первые книжки
Апрель 29, 2024
Вернуться к публикациям
РВК Big data
Июнь 17, 2025
Хозяйство

Большие перспективы индустрии больших данных

Большие перспективы индустрии больших данных
IMG_8435
Экспертный семинар РВК

Участники состоявшегося 8 февраля экспертного семинара РВК «Big data – новые горизонты» оценили текущее состояние отрасли «больших данных», а также обсудили примеры использования технологии и ее ближайшее будущее.

Вел семинар генеральный директор ОАО «РВК» Игорь Агамирзян. Открывая мероприятие, он определил сущность понятия «Big data»: это технология, которая позволяет сравнивать и сопоставлять ту информацию, которая ранее была принципиально не сопоставима.

В приветственном слове pаместитель министра связи и массовых коммуникаций России Марк Шмулевич рассказал, что его ведомство поддерживает эту отрасль и будет содействовать исследованиям в области Big data. Чиновник с сожалением отметил, что если взять условный top-50 самых сильных ученых в этой области, то окажется, что ни один из них не работает в России. Это связано, в том числе, и с тем, что специалисты в этой области крайне востребованы на Западе. Например, на одном из самых популярных в Соединенных Штатах сайте по поиску вакансий среднее предложение для астронома со степенью PhD – 50 тысяч долларов в год, всего 335 вакансий. Среднее же предложение для специалиста в области Data science – 100 тысяч долларов в год при нескольких тысячах открытых вакансий.

Основной доклад на семинаре представил профессор Высшей школы экономики Леонид Жуков. Он сразу отметил, что является не только исследователем в области Big data, но и использует эти технологии в компании-стартапе.

Жуков рассказал об истории появления термина Big data. Большая шумиха вокруг этой темы возникла после того, как в июне 2011 года консалтинговая компания McKinsey выпустила доклад «Большие данные: следующий рубеж в инновациях, конкуренции и производительности», в котором оценила потенциальный рынок Big data в миллиарды долларов. Вслед посыпались публикации во многих достаточно уважаемых изданиях: от Wall Street Journal до Harvard Business Review. Мнение о том, что сфера Big data как минимум второй по потенциалу сектор IT индустрии стало общепринятым.

В 2012 году Белый дом выделил 200 миллионов долларов для того, чтобы различные американские ведомства организовывали конкурсы по внедрению технологий Big data в жизнь. Если в 2009 году американские венчурные фонды вложили в отрасль всего 1,1 миллиард долларов, то в 2012 — уже 4,5.

Определений понятию Big data существует несколько. Одно из них гласит, что это данные, которые невозможно обработать традиционными способами из-за их большого объема. Другое — что это феноменальное ускорение накопления данных и их усложнение. Третье определение утверждает, что это набор инструментов, позволяющих работать с данными вне зависимости от их типа и объема.

Такая ситуация объясняет тот факт, что для характеристики Big data используют «три v»: объём (от английского volume, имеется в виду объем данных), скорость (от слова velocity, это и скорость накопления новых данных, и скорость и обработки) и многообразие (английское слово variety обозначает разнообразие типов данных, которые могут обрабатываться).

Индустрия Big data возникла из-за того, что все большему количеству структур и компаний необходимо было обрабатывать такое количество данных, что традиционные методы уже не годились. Так, по некоторым данным, Google в день обрабатывает 24 петабайта (24 миллиона гигабайт). Суперкомпьютеры, которые в теории могли справиться с таким потоком, были не по карману большинству IT-компаний, и им стали искать замену. Одна из идей состояла в том, что можно объединить в сеть огромное количество обычных компьютеров и распределять между ними вычисления. Проблема состояла в том, что такая система постоянно давала сбои.

Решением стала программа, дублирующая вычисления в разных участках огромной сети, благодаря чему отказ одного из ее элементов не скажется на конечном результате.

Исторически сложилось так, что инновационные разработки в области Big data начинались не в маленьких стартапах, как это часто бывает в IT-индустрии, а в больших компаниях. Так, например, технология распределенной обработки данных MapReduce была разработана в Google, a Hadoop - свободное ПО для выполнения распределенных вычислений на кластерах из сотен и тысяч узлов – сразу после создания активно поддержала компания Yahoo.

Большинство программных продуктов в области Big data являются свободными, а их адаптацией и продвижением занимаются те самые стартапы. Традиционные поставщики решений в области хранения и обработки данных, такие как IBM и EMC внимательно относятся к новым разработкам в области Больших Данных и стараются использовать их в своих продуктах совместно с собственными технологиями.

Одним из содокладчиков выступил Вячеслав Нестеров, генеральный директор центра разработок EMC (г. Санкт-Петербург) — компании, которая занимается хранением и управлением информацией.

Вячеслав Нестеров рассказал, что ежедневно генерируется около 7 тысяч петабайт новых данных, из них структурированы только 10% — причем эта доля постоянно уменьшается. Сегодня 15-20 процентов информации генерируется в “интернете вещей” – в том числе, во многочисленных телефонах, планшетах и других устройствах. К 2020 году доля информации, генерируемой «интернетом вещей», возрастет до 40 процентов.

Помимо стремительно растущего интернета, появляется огромное количество медицинской информации, например, полученной при секвенировании генома. Сейчас существуют десятки мощных баз данных, в которых аккумулирована гигантская информация о структуре не только генома человека, но и геномов многих других организмов. В одной ДНК содержится около трех миллиардов нуклеотидных пар, что относительно немного с точки зрения объема информации. Но надо еще принять во внимание необходимость хранения «сырой» информации, получаемой из секвенаторов, результатов исследования белковых молекул и прочих биоинформатических данных. Информацию, которую возможно получить из расшифрованного генома, еще только предстоит собрать, осмыслить, подвергнуть сравнительному анализу. Для работы именно с таким огромным количеством научной информации и появляются технологии, которые оказались в центре внимания семинара.

Big data приобретает популярность, потому что существовавшие до этого способы работы с информацией не удовлетворяют запросам бизнеса. Так, Нестеров сравнил работу Data scientist и бизнес-аналитиков. Бизнес-аналитики изучают полученную информацию о прошлом и отвечают на вопрос «а что произошло?». Аналитики данных (Data scientists) способны ответить на вопрос «а что произойдет, если...?». Для этого они должны обладать знаниями в области статистики, математики, разбираться в предметной области исследования и вдобавок уметь немного программировать. Именно поэтому выпускники университетов в сфере Data science в Калифорнии «стоят» от 100 тысяч долларов в год.

Сергей Лихарев, руководитель по развитию бизнеса IBM Big Data Solutions, в своем выступлении рассказал, что думают о технологии Big data в больших компаниях. По его словам, шесть процентов компаний уже применяют соответствующие технологии, 22 процента — планируют их внедрить. 47 процентов рассматривают бизнес-кейсы, то есть примеряют опыт на себя, 24 процента предпринимателей пока раздумывают о целесообразности внедрения технологий Big data.

Big data, по словам Лихарева, позволит компаниям по-новому взглянуть на клиента. Анализ не только структурированных данных о клиентах, но и информации, например, из социальных сетей поможет компаниям лучше понять, почему клиенты пользуются их продуктами и услугами, почему они рекомендуют компанию своим знакомым, что хотят улучшить. Ключевое отличие здесь в том, что в социальных сетях информация часто представлена в виде обычного текста и выделить оттуда ценные знания - не всегда простая задача.

Big data позволяет расширить традиционные системы информационной безопасности. Анализ данных, поступающих из различных источников в разных форматах, возможность сопоставления этих данных, выявления аномалий, реагирование на угрозы в реальном режиме времени – все это стало возможным с использованием технологий обработки и анализа Big data. Важно, что такой анализ можно проводить практически на неограниченном объеме данных.

Big data позволит упростить хранение данных. Зачастую в аналитических хранилищах скапливаются огромные массивы информации, ценность которой уже не очевидна, а затраты на хранение которой относительно высоки. Технологии Big data помогут разгрузить аналитическое хранилище, при необходимости предоставляя архивную информацию для анализа и исследования.

Выступающие сошлись на том, что сейчас отрасль Big data находится на пике общественного интереса и, соответственно, венчурных вложений. Пока нельзя сделать вывод, окажутся ли Big data в скором времени необходимыми в повседневной жизни человечества, как персональный компьютер и Интернет, но то, что они уже меняют нашу жизнь и бизнес на наших глазах, не вызывает сомнений.

читайте также
Хозяйство
Мировая экономика через призму макроэкономических индикаторов и сбытовой политики
Декабрь 6, 2012
Григорьев Леонид Гавриленков Евгений Берлин Антон
Хозяйство
Экономические итоги года
Декабрь 29, 2006
ЗАГРУЗИТЬ ЕЩЕ

Бутовский полигон

Смотреть все
Начальник жандармов
Май 6, 2024

Человек дня

Смотреть все
Человек дня: Александр Белявский
Май 6, 2024
Публичные лекции

Лев Рубинштейн в «Клубе»

Pro Science

Мальчики поют для девочек

Колонки

«Год рождения»: обыкновенное чудо

Публичные лекции

Игорь Шумов в «Клубе»: миграция и литература

Pro Science

Инфракрасные полярные сияния на Уране

Страна

«Россия – административно-территориальный монстр» — лекция географа Бориса Родомана

Страна

Сколько субъектов нужно Федерации? Статья Бориса Родомана

Pro Science

Эксперименты империи. Адат, шариат и производство знаний в Казахской степи

О проекте Авторы Биографии
Свидетельство о регистрации средства массовой информации Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством Российской Федерации по делам печати, телерадиовещания и средств массовой информации.

© Полит.ру, 1998–2024.

Политика конфиденциальности
Политика в отношении обработки персональных данных ООО «ПОЛИТ.РУ»

В соответствии с подпунктом 2 статьи 3 Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных» ООО «ПОЛИТ.РУ» является оператором, т.е. юридическим лицом, самостоятельно организующим и (или) осуществляющим обработку персональных данных, а также определяющим цели обработки персональных данных, состав персональных данных, подлежащих обработке, действия (операции), совершаемые с персональными данными.

ООО «ПОЛИТ.РУ» осуществляет обработку персональных данных и использование cookie-файлов посетителей сайта https://polit.ru/

Мы обеспечиваем конфиденциальность персональных данных и применяем все необходимые организационные и технические меры по их защите.

Мы осуществляем обработку персональных данных с использованием средств автоматизации и без их использования, выполняя требования к автоматизированной и неавтоматизированной обработке персональных данных, предусмотренные Федеральным законом от 27 июля 2006 г. № 152-ФЗ «О персональных данных» и принятыми в соответствии с ним нормативными правовыми актами.

ООО «ПОЛИТ.РУ» не раскрывает третьим лицам и не распространяет персональные данные без согласия субъекта персональных данных (если иное не предусмотрено федеральным законом РФ).