Издательство «Манн, Иванов и Фербер» представляет книгу Томаса Сибела «Цифровая трансформация. Как выжить и преуспеть в новую эпоху» (перевод Ю. Гиматовой).
Мир стремительно меняется. Эпоха технологических открытий представляет угрозу для отраслей, компаний и человечества, но, вместе с тем, становится и огромной возможностью. Томас Сибел, крупнейший специалист в области информационных технологий, на практических примерах погружает нас в атмосферу цифровой трансформации: слияния облачных вычислений, IoT, big data и искусственного интеллекта. Книга будет интересна всем руководителям, чьим компаниям предстоит пройти процесс трансформации, а также тем, кто хочет глубже понимать происходящее в области технологий и его значение как для бизнеса, так и для планеты в целом.
Предлагаем прочитать фрагмент одной из глав книги.
Эволюция big data
Задолго до того, как big data стали популярной темой в деловом мире (примерно в 2005 году), специалисты считали их исключительно технической проблемой. Как отмечалось в главе 3, понятие big data возникло 20 лет назад в астрономии и геномике, большие массивы данных в которых не поддавались обработке с помощью традиционных вычислительных ресурсов. Эти традиционные системы, которые часто называют вертикально масштабируемой архитектурой, состояли из пары контроллеров и многочисленных блоков устройств хранения. Для масштабирования приходилось добавлять новые устройства хранения. После исчерпания мощности контроллеров нужно добавлять новую систему хранения данных. Такой подход требует огромных затрат и не подходит для хранения и обработки больших объемов данных.
В отличие от вертикально масштабируемой архитектуры, горизонтально масштабируемая архитектура использует тысячи или десятки тысяч процессоров, которые позволяют обрабатывать данные параллельно. Для увеличения емкости нужно поставить больше центральных процессоров, памяти и контроллеров доступа в сеть. Это гарантия того, что при масштабировании производительность не упадет. Это более гибкий и менее затратный подход, чем вертикально масштабируемая архитектура. Он идеально подходит для управления большими данными. Сейчас уже существуют технологии программного обеспечения, разработанного для горизонтально масштабируемой архитектуры и обработки big data, например MapReduce и Hadoop.
Термин «большие данные» впервые появился в октябре 1997 года в статье исследователей NASA Майкла Кокса и Дэвида Эллсворта. Статья вышла в сборнике материалов VIII конференции по визуализации Института инженеров электротехники и электроники. Авторы писали: «Визуализация бросает компьютерным системам интересный вызов. Его суть состоит в том, что объемы данных слишком велики, на них тратятся все ресурсы оперативной памяти, локального диска и даже удаленного диска. Мы называем это проблемой больших данных». К 2013 году термин стал настолько популярным и так прочно укоренился в культуре, что Оксфордский словарь английского языка включил его в свое ежегодное издание.
В 2001 году аналитик компании META Group Даг Лейни назвал три главные характеристики big data: размер (объем данных, измеряемый в байтах, гигабайтах, эксабайтах и так далее), скорость (скорость получения или изменения данных, измеряемая в байтах в секунду, сообщениях в секунду или новых полях данных, создаваемых в день) и разнообразие (в том числе форма, способ хранения и механизмы интерпретации).
Размер, скорость и вид
Big data продолжают развиваться и расти по трем измерениям — размеру, скорости и виду. Не только технические специалисты, но и топ-менеджеры должны понимать, как именно каждое из этих измерений добавляет ценности бизнес-активам.
Размер. За последние 25 лет объем данных, создаваемых в мире, заметно вырос — с 2,5 терабайта (2,5 × 1012 байт) в день в 1997 году до 2,5 эксабайта (2,5 × 1018 байт) в день в 2018 году. Этот показатель продолжит расти в ближайшем будущем. Такой же быстрый рост отмечается и на уровне корпораций. По информации Международного центра данных, в 2016 году компании в среднем хранили по 350 терабайт данных. Ожидалось, что эта цифра увеличится на 52 % в 2017 году. Теперь организации могут использовать растущие объемы как внешних данных, так и тех, что создаются внутри компании. Они служат источником информации для работы приложения с ИИ, что позволяет компаниям выявлять новые тенденции и получать более точные прогнозы.
Скорость. По мере распространения IoT данные стали генерироваться с огромной скоростью. Чем больше объем данных, тем лучше работают алгоритмы ИИ; чем выше частота обновления и генерации данных, тем больше производительность ИИ. Например, телеметрические данные временны́х рядов, производимые двигателем с интервалом в одну секунду, содержат в 60 раз больше информационной ценности, чем данные, производимые с интервалом в одну минуту. Это позволяет прогнозирующему приложению с ИИ делать более точные выводы.
Вид. Современные данные состоят из множества различных типов: изображения, видео, телеметрия, человеческий голос, рукописный текст, сетевые графики, электронные письма, текстовые сообщения, твиты, комментарии в интернете, звонки в колл-центр и обратная связь на сайте. Данные делятся на две основные категории — структурированные и неструктурированные. Структурированными данными — наборами, списками или записями — можно эффективно управлять с помощью традиционных инструментов, например, реляционных баз данных и электронных таблиц. Неструктурированные данные, в которых отсутствует схема данных, включают в себя всё остальное: тексты, книги, записи, речь, электронные письма, аудиозаписи, изображения, записи в социальных сетях и видео.
В мире преобладают неструктурированные данные. Они составляют от 70 до 90 % общего объема данных. Сегодня организации могут объединить разобщенные форматы и источники данных — как структурированных, так и неструктурированных — и извлечь из них экономическую ценность при помощи приложений с ИИ.
Например, нефтегазовая компания создала единое интегрированное хранилище данных, получаемых из своих скважин. Оно состоит из разноформатных данных, получаемых из многочисленных источников: телеметрия из архива исторических данных (транзакции из производственных систем); файлы в формате Excel, в которых содержится история геологического анализа; записи, оставленные оборудованием из предыдущей производственной системы; сведения о широте и долготе из системы геолокации, и так далее. Этот общий массив информации дополняется производственными данными из каждой скважины, архивными и актуальными фотоизображениями скважин и другими сведениями. Основная цель — применить алгоритмы ИИ ко всем данным для различных видов использования, в том числе для предиктивного обслуживания оборудования и оптимизации добычи.
Потенциал big data для современного предприятия
Big data, то есть способность собирать, хранить, обрабатывать и анализировать данные любого типа и размера на любой скорости, закладывают основу для широкого внедрения ИИ. Теперь организации могут использовать неограниченный ряд источников данных. Ценными могут оказаться данные, созданные в любом отделе компании: каждый разговор с клиентом, каждая поставка, каждый звонок потенциальному покупателю, каждое резюме будущего сотрудника, каждая заявка на поддержку и т. д.
Компании собирают и хранят данные при помощи разнообразных техник, позволяющих усовершенствовать существующие системы управления. Например, страховые компании обеспечивают сотрудников горнодобывающих компаний и отелей специальными датчиками. Они отслеживают аномальную физическую активность, что позволяет предупредить травмы и избежать исков.
Новые источники данных создаются или добавляются к уже существующим внутри компаний. Например, для запуска нового приложения по обнаружению мошенничества в итальянской энергетической компании Enel машинное обучение учитывало обратную связь по каждому проведенному расследованию. В компании исходили из того, что машинные прогнозы, подкрепленные человеческим интеллектом, будут со временем улучшаться. В поиске информации о производительности оборудования и поломках ВВС США ориентировались на данные из журналов учета ремонтных работ за последние семь лет. Они хранились отдельно от остальных систем. Сегодня архивные данные в сочетании с данными из бортовых журналов помогают разрабатывать алгоритмы предиктивного обслуживания.
Внешние данные, то есть созданные за пределами компании, подкрепляют внутренние и выявляют интересные взаимосвязи. В качестве примеров можно назвать отзывы клиентов на сайтах вроде Yelp, глобальные метеорологические данные, судовые журналы, информацию о морских течениях и температуре и ежедневные отчеты о дорожных заторах. Для ретейлеров полезными могут оказаться данные о жилищном строительстве. Они помогают смоделировать потенциальный спрос на товары в новом районе.
Для энергетической компании ценными окажутся данные о частоте попадания молний в линии электропередачи. Специалисты по data science часто творчески подходят к использованию данных. Например, на основе отзывов о ресторанах и информации о времени их работы на сайтах OpenTable и Yelp и в других открытых источниках одна энергетическая компания сумела оптимизировать свои модели машинного обучения, научив их выявлять заведения, потреблявшие много энергии после окончания рабочего дня. Это признак возможного хищения электроэнергии.