будущее есть!
  • После
  • Конспект
  • Документ недели
  • Бутовский полигон
  • Колонки
  • Pro Science
  • Все рубрики
    После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша
После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша

Конспекты Полит.ру

Смотреть все
Алексей Макаркин — о выборах 1996 года
Апрель 26, 2024
Николай Эппле — о речи Пашиняна по случаю годовщины геноцида армян
Апрель 26, 2024
«Демография упала» — о демографической политике в России
Апрель 26, 2024
Артем Соколов — о технологическом будущем в военных действиях
Апрель 26, 2024
Анатолий Несмиян — о технологическом будущем в военных действиях
Апрель 26, 2024

После

Смотреть все
«После» для майских
Май 7, 2024

Публичные лекции

Смотреть все
Всеволод Емелин в «Клубе»: мои первые книжки
Апрель 29, 2024
Вернуться к публикациям
экономика компьютерные технологии Big data
Июнь 16, 2025
Pro Science
Сибел Томас

Цифровая трансформация. Как выжить и преуспеть в новую эпоху

Цифровая трансформация. Как выжить и преуспеть в новую эпоху
ps_siebel
«Цифровая трансформация. Как выжить и преуспеть в новую эпоху»

Издательство «Манн, Иванов и Фербер» представляет книгу Томаса Сибела «Цифровая трансформация. Как выжить и преуспеть в новую эпоху» (перевод Ю. Гиматовой).

Мир стремительно меняется. Эпоха технологических открытий представляет угрозу для отраслей, компаний и человечества, но, вместе с тем, становится и огромной возможностью. Томас Сибел, крупнейший специалист в области информационных технологий, на практических примерах погружает нас в атмосферу цифровой трансформации: слияния облачных вычислений, IoT, big data и искусственного интеллекта. Книга будет интересна всем руководителям, чьим компаниям предстоит пройти процесс трансформации, а также тем, кто хочет глубже понимать происходящее в области технологий и его значение как для бизнеса, так и для планеты в целом.

Предлагаем прочитать фрагмент одной из глав книги.

 

Эволюция big data

Задолго до того, как big data стали популярной темой в деловом мире (примерно в 2005 году), специалисты считали их исключительно технической проблемой. Как отмечалось в главе 3, понятие big data возникло 20 лет назад в астрономии и геномике, большие массивы данных в которых не поддавались обработке с помощью традиционных вычислительных ресурсов. Эти традиционные системы, которые часто называют вертикально масштабируемой архитектурой, состояли из пары контроллеров и многочисленных блоков устройств хранения. Для масштабирования приходилось добавлять новые устройства хранения. После исчерпания мощности контроллеров нужно добавлять новую систему хранения данных. Такой подход требует огромных затрат и не подходит для хранения и обработки больших объемов данных.

В отличие от вертикально масштабируемой архитектуры, горизонтально масштабируемая архитектура использует тысячи или десятки тысяч процессоров, которые позволяют обрабатывать данные параллельно. Для увеличения емкости нужно поставить больше центральных процессоров, памяти и контроллеров доступа в сеть. Это гарантия того, что при масштабировании производительность не упадет. Это более гибкий и менее затратный подход, чем вертикально масштабируемая архитектура. Он идеально подходит для управления большими данными. Сейчас уже существуют технологии программного обеспечения, разработанного для горизонтально масштабируемой архитектуры и обработки big data, например MapReduce и Hadoop.

Термин «большие данные» впервые появился в октябре 1997 года в статье исследователей NASA Майкла Кокса и Дэвида Эллсворта. Статья вышла в сборнике материалов VIII конференции по визуализации Института инженеров электротехники и электроники. Авторы писали: «Визуализация бросает компьютерным системам интересный вызов. Его суть состоит в том, что объемы данных слишком велики, на них тратятся все ресурсы оперативной памяти, локального диска и даже удаленного диска. Мы называем это проблемой больших данных». К 2013 году термин стал настолько популярным и так прочно укоренился в культуре, что Оксфордский словарь английского языка включил его в свое ежегодное издание.

В 2001 году аналитик компании META Group Даг Лейни назвал три главные характеристики big data: размер (объем данных, измеряемый в байтах, гигабайтах, эксабайтах и так далее), скорость (скорость получения или изменения данных, измеряемая в байтах в секунду, сообщениях в секунду или новых полях данных, создаваемых в день) и разнообразие (в том числе форма, способ хранения и механизмы интерпретации).

Размер, скорость и вид

Big data продолжают развиваться и расти по трем измерениям — размеру, скорости и виду. Не только технические специалисты, но и топ-менеджеры должны понимать, как именно каждое из этих измерений добавляет ценности бизнес-активам.

Размер. За последние 25 лет объем данных, создаваемых в мире, заметно вырос — с 2,5 терабайта (2,5 × 1012 байт) в день в 1997 году до 2,5 эксабайта (2,5 × 1018 байт) в день в 2018 году. Этот показатель продолжит расти в ближайшем будущем. Такой же быстрый рост отмечается и на уровне корпораций. По информации Международного центра данных, в 2016 году компании в среднем хранили по 350 терабайт данных. Ожидалось, что эта цифра увеличится на 52 % в 2017 году. Теперь организации могут использовать растущие объемы как внешних данных, так и тех, что создаются внутри компании. Они служат источником информации для работы приложения с ИИ, что позволяет компаниям выявлять новые тенденции и получать более точные прогнозы.

Скорость. По мере распространения IoT данные стали генерироваться с огромной скоростью. Чем больше объем данных, тем лучше работают алгоритмы ИИ; чем выше частота обновления и генерации данных, тем больше производительность ИИ. Например, телеметрические данные временны́х рядов, производимые двигателем с интервалом в одну секунду, содержат в 60 раз больше информационной ценности, чем данные, производимые с интервалом в одну минуту. Это позволяет прогнозирующему приложению с ИИ делать более точные выводы.

Вид. Современные данные состоят из множества различных типов: изображения, видео, телеметрия, человеческий голос, рукописный текст, сетевые графики, электронные письма, текстовые сообщения, твиты, комментарии в интернете, звонки в колл-центр и обратная связь на сайте. Данные делятся на две основные категории — структурированные и неструктурированные. Структурированными данными — наборами, списками или записями — можно эффективно управлять с помощью традиционных инструментов, например, реляционных баз данных и электронных таблиц. Неструктурированные данные, в которых отсутствует схема данных, включают в себя всё остальное: тексты, книги, записи, речь, электронные письма, аудиозаписи, изображения, записи в социальных сетях и видео.

В мире преобладают неструктурированные данные. Они составляют от 70 до 90 % общего объема данных. Сегодня организации могут объединить разобщенные форматы и источники данных — как структурированных, так и неструктурированных — и извлечь из них экономическую ценность при помощи приложений с ИИ.

Например, нефтегазовая компания создала единое интегрированное хранилище данных, получаемых из своих скважин. Оно состоит из разноформатных данных, получаемых из многочисленных источников: телеметрия из архива исторических данных (транзакции из производственных систем); файлы в формате Excel, в которых содержится история геологического анализа; записи, оставленные оборудованием из предыдущей производственной системы; сведения о широте и долготе из системы геолокации, и так далее. Этот общий массив информации дополняется производственными данными из каждой скважины, архивными и актуальными фотоизображениями скважин и другими сведениями. Основная цель — применить алгоритмы ИИ ко всем данным для различных видов использования, в том числе для предиктивного обслуживания оборудования и оптимизации добычи.

Потенциал big data для современного предприятия

Big data, то есть способность собирать, хранить, обрабатывать и анализировать данные любого типа и размера на любой скорости, закладывают основу для широкого внедрения ИИ. Теперь организации могут использовать неограниченный ряд источников данных. Ценными могут оказаться данные, созданные в любом отделе компании: каждый разговор с клиентом, каждая поставка, каждый звонок потенциальному покупателю, каждое резюме будущего сотрудника, каждая заявка на поддержку и т. д.

Компании собирают и хранят данные при помощи разнообразных техник, позволяющих усовершенствовать существующие системы управления. Например, страховые компании обеспечивают сотрудников горнодобывающих компаний и отелей специальными датчиками. Они отслеживают аномальную физическую активность, что позволяет предупредить травмы и избежать исков.

Новые источники данных создаются или добавляются к уже существующим внутри компаний. Например, для запуска нового приложения по обнаружению мошенничества в итальянской энергетической компании Enel машинное обучение учитывало обратную связь по каждому проведенному расследованию. В компании исходили из того, что машинные прогнозы, подкрепленные человеческим интеллектом, будут со временем улучшаться. В поиске информации о производительности оборудования и поломках ВВС США ориентировались на данные из журналов учета ремонтных работ за последние семь лет. Они хранились отдельно от остальных систем. Сегодня архивные данные в сочетании с данными из бортовых журналов помогают разрабатывать алгоритмы предиктивного обслуживания.

Внешние данные, то есть созданные за пределами компании, подкрепляют внутренние и выявляют интересные взаимосвязи. В качестве примеров можно назвать отзывы клиентов на сайтах вроде Yelp, глобальные метеорологические данные, судовые журналы, информацию о морских течениях и температуре и ежедневные отчеты о дорожных заторах. Для ретейлеров полезными могут оказаться данные о жилищном строительстве. Они помогают смоделировать потенциальный спрос на товары в новом районе.

Для энергетической компании ценными окажутся данные о частоте попадания молний в линии электропередачи. Специалисты по data science часто творчески подходят к использованию данных. Например, на основе отзывов о ресторанах и информации о времени их работы на сайтах OpenTable и Yelp и в других открытых источниках одна энергетическая компания сумела оптимизировать свои модели машинного обучения, научив их выявлять заведения, потреблявшие много энергии после окончания рабочего дня. Это признак возможного хищения электроэнергии.

Сибел Томас
читайте также
Pro Science
Эксперименты империи. Адат, шариат и производство знаний в Казахской степи
Май 15, 2024
Pro Science
Раскопки в Телль Ваджеф
Май 15, 2024
ЗАГРУЗИТЬ ЕЩЕ

Бутовский полигон

Смотреть все
Начальник жандармов
Май 6, 2024

Человек дня

Смотреть все
Человек дня: Александр Белявский
Май 6, 2024
Публичные лекции

Лев Рубинштейн в «Клубе»

Pro Science

Мальчики поют для девочек

Колонки

«Год рождения»: обыкновенное чудо

Публичные лекции

Игорь Шумов в «Клубе»: миграция и литература

Pro Science

Инфракрасные полярные сияния на Уране

Страна

«Россия – административно-территориальный монстр» — лекция географа Бориса Родомана

Страна

Сколько субъектов нужно Федерации? Статья Бориса Родомана

Pro Science

Эксперименты империи. Адат, шариат и производство знаний в Казахской степи

О проекте Авторы Биографии
Свидетельство о регистрации средства массовой информации Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством Российской Федерации по делам печати, телерадиовещания и средств массовой информации.

© Полит.ру, 1998–2024.

Политика конфиденциальности
Политика в отношении обработки персональных данных ООО «ПОЛИТ.РУ»

В соответствии с подпунктом 2 статьи 3 Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных» ООО «ПОЛИТ.РУ» является оператором, т.е. юридическим лицом, самостоятельно организующим и (или) осуществляющим обработку персональных данных, а также определяющим цели обработки персональных данных, состав персональных данных, подлежащих обработке, действия (операции), совершаемые с персональными данными.

ООО «ПОЛИТ.РУ» осуществляет обработку персональных данных и использование cookie-файлов посетителей сайта https://polit.ru/

Мы обеспечиваем конфиденциальность персональных данных и применяем все необходимые организационные и технические меры по их защите.

Мы осуществляем обработку персональных данных с использованием средств автоматизации и без их использования, выполняя требования к автоматизированной и неавтоматизированной обработке персональных данных, предусмотренные Федеральным законом от 27 июля 2006 г. № 152-ФЗ «О персональных данных» и принятыми в соответствии с ним нормативными правовыми актами.

ООО «ПОЛИТ.РУ» не раскрывает третьим лицам и не распространяет персональные данные без согласия субъекта персональных данных (если иное не предусмотрено федеральным законом РФ).