будущее есть!
  • После
  • Конспект
  • Документ недели
  • Бутовский полигон
  • Колонки
  • Pro Science
  • Все рубрики
    После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша
После Конспект Документ недели Бутовский полигон Колонки Pro Science Публичные лекции Медленное чтение Кино Афиша

Конспекты Полит.ру

Смотреть все
Алексей Макаркин — о выборах 1996 года
Апрель 26, 2024
Николай Эппле — о речи Пашиняна по случаю годовщины геноцида армян
Апрель 26, 2024
«Демография упала» — о демографической политике в России
Апрель 26, 2024
Артем Соколов — о технологическом будущем в военных действиях
Апрель 26, 2024
Анатолий Несмиян — о технологическом будущем в военных действиях
Апрель 26, 2024

После

Смотреть все
«После» для майских
Май 7, 2024

Публичные лекции

Смотреть все
Всеволод Емелин в «Клубе»: мои первые книжки
Апрель 29, 2024
Вернуться к публикациям
инновации компьютерные технологии Big data
Июль 15, 2025
Pro Science
Сакоян Анна

Большие данные

Большие данные
ps_Hilbert_InfoGrowth
Рост глобального объема информации. Источник: Wikimedia Commons

В последние годы всё чаще всплывает термин «большие данные», Big Data. Он появляется в самых разных контекстах, но особенную популярность приобрел в связи с обсуждением темы инноваций, а также открытых данных и их коммерческого потенциала. Попробуем разобраться с тем, что он означает и к чему применим.

 
Интеллектуальный партнер проекта

Итак, большие данные – это относительное понятие, значение которого может со временем меняться. Наиболее прямолинейный способ определения – это данные, которые не помещаются на жёстом диске одного компьютера и которые невозможно обработать с помощью традиционных в этой области инструментов, просто потому что они с такими объемами не справляются или справляются, но крайне медленно. Естественно, объемы жестких дисков у разных компьютеров могут быть разными, кроме того вместительность и производительность компьютеров постоянно растет. Однако объемы доступных для обработки данных также постоянно наращиваются. Исходя из этого, всё чаще оказывается более рациональным не увеличивать объемы диска одного компьютера, а развивать методы и инструменты для так называемой облачной обработки данных, которые хранятся частями на нескольких компьютерах. В настоящий момент большими считаются данные объемом от терабайта (1 терабайт = 1024 гигабайт) и до бесконечности, которая на нынешнем этапе практически измеряется в эксабайтах (1 эксабайт = 1 млрд. гигабайт).

Широкой популярностью пользуется определение Майкла Франклина из Университета в Беркли (в частности, его цитирует Билл Хау, автор курса по дата-науке на платформе Coursera): «Большие данные – это любые данные, работа с которыми требует значительных затрат и из которых трудно извлечь информацию». Таким образом, строгого определения не существует. Однако существует объект, с которым нужно как-то работать.

Примеры

Переходя от абстракций к конкретике, приведем несколько примеров. Один из хрестоматийных случаев – это данные Википедии. За время её существования было создано огромное количество статей. Также сохранялась история редактирования этих статей. Будучи одним из классических примеров успешного краудсорсингового проекта, существующего преимущественно на добровольных началах, эти данные могли бы стать большим подспорьем в изучении того, как функционируют такие массовые волонтерские пиринговые инициативы. Явление это совсем новое – до появления интернета такого не могло существовать по техническим причинам, - и набирающее популярность: проектов, устроенных по сходной модели, становится всё больше. Если бы можно было проследить тенденции и закономерности в том, как ведут себя редакторы статей Википедии, это могло бы стать интересным материалом для исследования.

 
Хромограмма деятельности аккаунта в Википедии

Но все эти истории редактирования представляют собой гигантский массив неструктурированных данных (проще говоря, текста, который не очень понятен машине). Чтобы с ним работать, нужно, во-первых, определить метод, с помощью которого его можно проанализировать, а во-вторых, иметь инструменты, достаточно мощные для того, чтобы они в сжатые сроки могли справиться с такими объемами. В 2007 г. вышла работа нескольких исследователей из IBM и MIT, которые разработали алгоритм, чтобы преобразовывать эти данные в так называемые «хромограммы», которые позволяют увидеть закономерности действий как на макроуровне, так и в более частных случаях.

Но это всего лишь один из множества примеров. Среди них можно также назвать «большие данные», которые хранятся на серверах Google, Amazon и Facebook. Чем быстрее и качественнее будет обработка этих данных, тем эффективнее будут работать эти системы и тем больше у них будет возможностей. Богатый источник данных представляют собой различные приборы наблюдения. Телескоп, используемый Sloan Digital Sky Survey начиная с 2000 г., в первые несколько недель работы собрал больше данных, чем было собрано за всю историю астрономии и с тех пор собирает порядке 200 ГБ данных за ночь. В 2016 г. вместо него загрузят более продвинутую модель телескопа, который, по прогнозам, в первые пять дней работы соберет объем данных, сопоставимый с общим объемом массива, собранного его предшественником. Также с возрастающей скоростью увеличивается количество данных в таких областях, как биология, медицина и генетика.

Телескоп, используемый Sloan Digital Sky Survey, в первые несколько недель работы собрал больше данных, чем было собрано за всю историю астрономии.

Наконец, стремительное увеличение масштабов данных происходит за счет того, что стало очень много электронных устройств, которые постоянно и массово используются в самых разных сферах жизни. Прежде всего, речь идет о мобильных устройствах – телефонах, планшетах, ноутбуках и т.д., которые всё время собирают, пересылают и обрабатывают данные.

Проблемы

Проблемы, связанные с большими данными, часто разделяют на три основные группы: объем, скорость, неоднородность (так называемые «3 V»: Volume, Velocity, Variety). Объем – это, в первую очередь, вопрос пространственный: хранение большого количества данных требует особых условий. Скорость – это, в свою очередь, проблема времени. Причем задача не только устранить замедление, которое происходит при обработке больших массивов данных старыми методами, но и значительно ускорить эти процессы. Чем быстрее обработка, тем выше возможности в плане интерактивности. Наконец, проблема неоднородности состоит в том, что данные зачастую происходят из разных источников и бывают в разных форматах и разного качества. Их невозможно просто сложить вместе и обработать – требуются сложная работа, чтобы привести их в пригодный для анализа вид.

При этом надо понимать, что с одной стороны, пределы возможной «величины» данных пока не установлены, то есть эти проблемы сейчас трудно решить раз и навсегда. С другой стороны, для более скромных, но тем не менее больших, объемов (терабайт – это уже большие данные), существуют инструменты и методы обработки, которые применяются, осваиваются и развиваются. Конечно, в разных случаях разные исходные условия. Скажем, у какой-нибудь организации могут быть в распоряжении суперкомпьютеры, а какого-нибудь пользователя один ноутбук. Техники работы с данными, которые сейчас развиваются, учитывают и второй вариант. Одной из наиболее перспективных открытых систем в этой области сейчас считается система Hadoop. Также есть энтузиасты, которые пытаются приспособить к работе с большими данными более камерные аналитические инструменты вроде R.

Кому это нужно

По мере роста объемов данных умножаются возможности их применения и/или коммерциализации в самых разных областях. Данные – это такое описание объекта, ситуации или события, которые, грубо говоря, можно посчитать и тем самым установить в нем закономерности, то есть получить информацию. Установив закономерности, можно создать цифровую модель этого объекта, которую можно использовать в самых разных целях – от сугубо прикладных до весьма абстрактных. С помощью модели можно изучать свойства уже описанного реального объекта, а также делать вероятностные прогнозы. Эти техники широко использовались и прежде – например, в информационных технологиях, социологии или анализе рынка.

По сравнению с прежней картиной изменились два момента. Во-первых, данные стали доступны в большем количестве областей, чем раньше. В частности, по мере оцифровки текстов всё больше возможностей для работы с данными открывается в сфере гуманитарных наук. Во-вторых, изменился масштаб данных. На основании произвольной выборки можно делать некоторые заключения обо всей общности, из которой взята эта выборка, но точность этих заключений зависит от её размеров. Чем больше данных, тем точнее модели и тем выше их ценность. Опять же, чем больше областей знания получают доступ к работе с данными, тем больше возможностей для междисциплинарных исследований и разработок, что позволяет применять новые познавательные методы и создавать новые продукты. Отсюда и массовый интерес к освоению этой области.

Приведем несколько примеров областей, в которых большие данные либо применяются, либо применимы в перспективе. Прежде всего, это экономика и рыночная аналитика – область, в которой анализ данных применяется издавна. Здесь можно вспомнить лекцию американского экономиста и нобелевского лауреата Кеннета Эрроу, в которой он предлагал посмотреть на информацию как на специфический вид товара в условиях неопределенности. Далее, это, конечно, сфера информационных технологий. Это и разработка пользовательского программного обеспечения, и развитие глобальных систем вроде Google, Amazon или Facebook, и, наконец, создание собственно аналитических инструментов. Это также может быть сфера политики и государственного управления. С аналитической точки зрения, это возможность повышать точность оценки тех или иных ситуаций, а также создания вероятных сценариев развития событий. Массовый сбор и анализ данных также может сказываться на принятии государственных решений.

Наконец, работа с большими данными – это важная составляющая современной научно-технической сферы. «Необходимость находить способы работы с большими данными и потребность в том, чтобы извлечь скрытую в них информацию, теперь стало центральной темой во всех науках. Это поистине главная научная тема нашего времени», - писали авторы одной интернациональной (китайско-американской) научной статьи, в которой предлагается возможная модель для анализа продолжительности взаимной торговли на финансовых рынках.

Среди фундаментальных наук это, в частности, социология, биология, медицина, генетика, астрономия, физика, а также многие другие. Так, большие данные позволяют создавать модели, с которыми можно проводить эксперименты, которые были бы слишком дорогостоящими или вообще невозможными в применении к реальным объектам. В области медицины постоянное накопление и анализ больших массивов данных позволяет исследовать причины возникновения заболеваний.

В прикладных областях это один из двигателей инноваций. Здесь и 3D-моделирование в области инжиниринга, и достижения бионики, и автогенераторы текстов, в пределе неотличимых от текстов, написанных человеком, при помощи методов машинного обучения и больших массивов данных, на которых программы тренируются и которые они в дальнейшем преобразуют в связный текст, понятный широкой аудитории.

Снова проблемы

В ответ на массовый ажиотаж по поводу открывающихся возможностей появляется и критика. Прежде всего, аналитики призывают не полагаться чрезмерно на размеры данных: утверждение, что чем больше данных, тем лучше, справедливо только в случае, если данные качественные.

Далее, высказываются опасения, что в отсутствие углубленных представлений о том, какие факторы могут влиять на результаты анализа больших массивов данных, возрастает риск ошибочных суждений. Такие критики призывают уделить больше внимания исследованию именно этой проблематики: «Этот поток исследований [о работе с большими данными], - гласит редакционная статья в International Journal of Internet Science (июль 2012 г.), - выявил очень полезную информацию, но в то же время у него есть серьезные ограничения. Что характерно, к этим ограничениям можно (и даже нужно) подходить, с точки зрения теории – такого рода исследования обычно проводят социологи. Соответственно, возникают задачи для этих социологов и психологов-бихевиористов, которые стремятся к сотрудничеству с исследователями больших данных в области естественных наук, инжиниринга и информатики… У нас есть ощущение, что некоторые пробелы в знаниях еще не получили должного внимания».

Еще одна проблема отчасти связана с вышеупомянутой неоднородностью потоков данных. Тут могут быть и данные о транзакциях, совершенных с помощью банковских карт, и данные по кликам на ссылки в интернете, и данные сенсоров и датчиков на различных устройствах. Данных очень много, но что с ними делать, не всегда понятно. Опять же, если бы эти данные можно было каким-нибудь образом сопоставить, то есть вероятность, что это бы стало ценным источником информации. Но чтобы всё это действительно стало источником информации, необходимо разработать принципы работы с этими данными и понять, какого рода информацию в них следует искать. А это требует серьезного исследования. Недавно три американских университета (Нью-Йоркский, Вашингтонский и Калифорнийский в Беркли) объединились в работе над пятилетним проектом такого рода. «Тут цель не столько в том, чтобы провести научное исследование, - сказал один из участников проекта Йанн ЛеКан, - сколько в том, чтобы организоваться и создать новую дисциплину, среду, в которой бы развивалась наука о данных».

Наконец, обсуждаются также проблемы этического характера: где проходит граница между сбором данных и вторжением в частную жизнь? Google, например, располагает огромным собранием данных, что позволяет ему совершенствовать свои продукты и делать их более надежными для пользователей, а также создавать массово востребованные сервисы вроде Google-переводчика. Он также бдительно следит за действиями пользователей в Сети, что позволяет ему подбирать для каждого пользователя рекламу в соответствии со спецификой этих действий (реклама – это основной источник дохода компании). При этом он не предоставляет пользователям возможность выбирать, какие именно данные они готовы предоставить, а какие хотят оставить при себе. Иными словами, он по умолчанию собирает всё, что сможет, и эти данные будут храниться на его серверах. То, как он ими распорядится, зависит от него, но никоим образом не от пользователей.

Сакоян Анна
читайте также
Pro Science
Эксперименты империи. Адат, шариат и производство знаний в Казахской степи
Май 15, 2024
Pro Science
Раскопки в Телль Ваджеф
Май 15, 2024
ЗАГРУЗИТЬ ЕЩЕ

Бутовский полигон

Смотреть все
Начальник жандармов
Май 6, 2024

Человек дня

Смотреть все
Человек дня: Александр Белявский
Май 6, 2024
Публичные лекции

Лев Рубинштейн в «Клубе»

Pro Science

Мальчики поют для девочек

Колонки

«Год рождения»: обыкновенное чудо

Публичные лекции

Игорь Шумов в «Клубе»: миграция и литература

Pro Science

Инфракрасные полярные сияния на Уране

Страна

«Россия – административно-территориальный монстр» — лекция географа Бориса Родомана

Страна

Сколько субъектов нужно Федерации? Статья Бориса Родомана

Pro Science

Эксперименты империи. Адат, шариат и производство знаний в Казахской степи

О проекте Авторы Биографии
Свидетельство о регистрации средства массовой информации Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством Российской Федерации по делам печати, телерадиовещания и средств массовой информации.

© Полит.ру, 1998–2024.

Политика конфиденциальности
Политика в отношении обработки персональных данных ООО «ПОЛИТ.РУ»

В соответствии с подпунктом 2 статьи 3 Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных» ООО «ПОЛИТ.РУ» является оператором, т.е. юридическим лицом, самостоятельно организующим и (или) осуществляющим обработку персональных данных, а также определяющим цели обработки персональных данных, состав персональных данных, подлежащих обработке, действия (операции), совершаемые с персональными данными.

ООО «ПОЛИТ.РУ» осуществляет обработку персональных данных и использование cookie-файлов посетителей сайта https://polit.ru/

Мы обеспечиваем конфиденциальность персональных данных и применяем все необходимые организационные и технические меры по их защите.

Мы осуществляем обработку персональных данных с использованием средств автоматизации и без их использования, выполняя требования к автоматизированной и неавтоматизированной обработке персональных данных, предусмотренные Федеральным законом от 27 июля 2006 г. № 152-ФЗ «О персональных данных» и принятыми в соответствии с ним нормативными правовыми актами.

ООО «ПОЛИТ.РУ» не раскрывает третьим лицам и не распространяет персональные данные без согласия субъекта персональных данных (если иное не предусмотрено федеральным законом РФ).