Статьи автора Иван Бегтинhttp://polit.ru/author/289686/Статьи автора Иван Бегтинru-RUPOLIT.RUThu, 09 Nov 2017 09:57:41 +0300http://polit.ru/static/polit/img/feed_logo.pngСтатьи автора Иван Бегтинhttp://polit.ru/author/289686/ЦБ в тренде: оценки экономики на основе big data http://polit.ru/article/2017/11/09/bigdatashows/<p><em>Оценивать экономическую активность на основе публикаций СМИ предложили аналитики Банка России. По их мнению, такой показатель позволит увидеть картину быстрее, чем этого можно достичь с официальной статистикой, которая всегда запаздывает.</em></p> <p>Метод анализа экономической активности по публикациям в интернет-изданиях основан на обработке больших массивов данных (big data), говорится в докладе департамента исследований и прогнозирования Центробанка. Доклад этот, носящий название &laquo;Оценка экономической активности на основе текстового анализа&raquo;, был опубликован на сайте ЦБ; его можно посмотреть <a href="https://www.cbr.ru/Content/Document/File/27714/wp_25.pdf" target="_blank">здесь</a> (документ в pdf-формате).</p> <p>Анализ новостных статей производится методами текстового анализа и машинного обучения. В докладе при этом отмечается, что &laquo;использование такой неструктурированной информации, как новости, является не менее важной составляющей при прогнозировании экономической активности, чем использование обычных статистических показателей&raquo;. Кроме того, эти данные можно получить быстрее, чем статистику.</p> <div class="inner-illustration between-paragraph"> <div class="image ii288x216"><img src="/media/photolib/2017/11/02/202584_1000x676_347_7ea1177fdb9d3deb079bf772a882890d.jpg" alt="" width="600" /> <div class="decoration">&nbsp;</div> </div> <div class="text-container">Киоск с прессой</div> <div class="text-container"><a href="http://www.mskagency.ru/photobank/202584?block_mode=iframe" target="_blank">Андрей Любимов / АГН "Москва"</a></div> </div> <p>Действительно, как отмечается в исследовании, сведения о росте ВВП, например, публикуются раз в квартал через в 1-1,5 месяца после окончания очередного квартала. В результате становится невозможно оперативно отследить экономическую динамику и быстро принять эффективное решение.</p> <p>В то же время в докладе говорится, что разработанная методика успешно справилась с прогнозированием экономической динамики. &laquo;Это позволяет сделать вывод о том, что новостные данные обладают достаточно хорошей прогнозной силой. С помощью разработанного новостного индекса можно отслеживать динамику не только экономической активности на ежедневной основе, но также разрабатывать иные индикаторы, что позволит более оперативно реагировать на текущую экономическую ситуацию и принимать соответствующие решения&raquo;, &ndash; отмечается в докладе ЦБ.</p> <p>Прокомментировать для &laquo;Полит.ру&raquo; идею использования публикаций в интернет-СМИ при оценке экономической активности согласились Иван Бегтин, директор АНО &laquo;Информационная культура&raquo;, член Комитета гражданских инициатив, и Александр Хандруев, вице-президент Ассоциации&nbsp;региональных банков, завкафедрой финансов,&nbsp;денежного обращения и кредита факультета финансов и банковского дела&nbsp;РАНХиГС.</p> <p>По мнению Ивана Бегтина, в том или ином виде эта методика уже используется российскими компаниями. Что касается того, насколько точной может получиться картина, составленная таким образом, то здесь многое зависит от того, что именно считать СМИ.</p> <div class="inner-illustration between-paragraph"> <div class="image ii288x216"><img src="/media/photolib/2017/11/02/245058_4256x2832_347_26949a9623f2ab7d9c7344e6add6c7b4_M0xw7ir.jpg" alt="" width="600" /> <div class="decoration">&nbsp;</div> </div> <div class="text-container"><a href="mskagency.ru" target="_blank">Александ Авилов / АГН "Москва"</a></div> </div> <p>&laquo;Конечно, какую-то картину при помощи анализа СМИ можно получить. Насколько достоверную &ndash; сказать сложно. Начнем с того, что считать СМИ. Если ЦБ считает средствами массовой информации новостные порталы, официально зарегистрированные в реестре Роскомнадзора, то ведь некоторые СМИ, наоборот, постарались оттуда выйти. Или за СМИ считают те издания, которые находятся в агрегаторах Яндекса и Рамблера? Или же СМИ в их представлении окажутся любые новостные порталы, которые имеют посещаемость выше определенного уровня? В зависимости от этого картина будет различаться.</p> <p>А кроме того, есть социальные сети; сейчас сильно набирают читателей каналы в Telegram. Я не очень понимаю, что именно Центробанк хочет мерить по СМИ. То есть многие анализируют СМИ (правда, это не называется big data) &ndash; не буду называть конкретных коммерческих компаний, но они есть. И, конечно, эту методику можно адаптировать под задачи Центробанка. Но фактически получится, что он может использовать те или иные уже существующие продукты, которые, например, мониторят упоминания о банках. И не очень ясно, в чем тут новизна.</p> <p>Те же самые банки, например (ну, или другие финансовые структуры), мониторят не только СМИ &ndash; они как раз мониторят соцсети. У них, правда, критерием является отслеживание какого-то негатива. А что именно хочет сделать Центробанк, я, конечно, не знаю. Со стороны это еще не понятно. Может ли обработка новостных данных давать хорошие прогностические возможности? Вполне возможно, что это так, такие возможности могут возникать.</p> <div class="inner-illustration between-paragraph"> <div class="image ii288x216"><img src="/media/photolib/2017/11/02/desk-2852986_960_720.jpg" alt="" width="600" /> <div class="decoration">&nbsp;</div> </div> <div class="text-container">Фото: pixabay</div> </div> <p>А что касается того, можно ли описывать этот процесс, используя понятие big data&hellip; Собственно, big data &ndash; вообще не термин, это, скорее, маркетинговое определение. Его можно по-разному сформулировать. Для Росреестра, например, big data &ndash; это когда речь идет о терабайтах информации и даже о петабайтах, то есть данных довольно большого объема. А для структур вроде ЦБ &ndash; являются ли новости примером big data? Я не уверен. Ну, если использовать слова big data в значении &laquo;объем информации, который невозможно обработать на личном компьютере&raquo;, то, наверное, да. Тогда это big data. Но к этому можно отнести почти все.</p> <p>С другой стороны, если относить к big data данные реально большого объема, десятки терабайт и более, которые и на рабочих компьютерах сложно обработать, и на многих серверах непросто, тем более &ndash; для кропотливого анализа, то можно ли сюда же отнести и новости? Если честно, я сомневаюсь. По сути, это давно решенные задачи &ndash; хотя, конечно, не зная подробностей техзадания аналитиков ЦБ я не могу судить об этом с уверенностью. Может быть, они придумали нечто интересное. Но в том ключе, в котором это описано в СМИ, это походит на использование уже существующего ПО и сервиса&raquo;, &ndash; сказал Иван Бетин.</p> <p>Для рыночной экономики имеют огромное значение ожидания участников, а обработка информации из СМИ позволит точнее оценить их преобладающие настроения, считает Александр Хандруев, вице-президент Ассоциации&nbsp;региональных банков, завкафедрой финансов,&nbsp;денежного обращения и кредита факультета финансов и банковского дела&nbsp;РАНХиГС.</p> <p>&laquo;Вообще-то рыночная экономика отличается тем, что в ней очень большое значение имеют ожидания участников хозяйственной деятельности. Соответственно, чем больше массив данных об этом, тем лучше для прогноза. Тогда включается закон больших чисел, используются элементы искусственного интеллекта и нейросети &ndash; и на огромном массиве информации выявляются устойчивые тенденции, характеристики, оценки. И это позволяет уже не просто опрашивать определенный круг людей, достаточно или недостаточно репрезентативный (как, например, бывает, когда приглашают экспертов для участия в панелях на форумах, подбирая их так, чтобы услышать некие конкретные ответы), а получать более полную картину.</p> <p>В этот массив информации попадает все, в том числе информация недостоверная, слухи. Но в целом это отражает настроения, которые преобладают в экономике и в обществе в целом. И именно эти ожидания, оценки предполагаемых изменений в будущем, оказывают если не решающее, то все же заметное воздействие на принятие инвестиционных решений, на выбор каких-то вариантов деятельности, и прочее, и прочее, и прочее.</p> <p>Этот так называемый индикатор не надо переоценивать, но он полезен. Естественно, базировать на нем практические экономические решения, наверно, не слишком целесообразно: необходимы и оценка проекта, и много чего еще. Но как вспомогательное средство для того, чтобы &laquo;пощупать пульс&raquo; экономики, тех или иных сегментов рынка (начиная с валютного и кончая рынком недвижимости), он полезен.</p> <p>В целом этом стало возможным благодаря тому, что уже сложилась современная методология, которая позволяет составлять подобные индексы и индикаторы. И, надо сказать, абсолютно правильно, что Банк России начал это делать. Насколько я знаю, в других странах такие индексы уже строятся. То есть мы здесь не являемся первооткрывателями, но, как говорится, идем в тренде. Это важно&raquo;, &ndash; объяснил Александр Хандруев.</p>Иван Бегтин, Александр ХандруевThu, 09 Nov 2017 09:57:41 +0300http://polit.ru/article/2017/11/09/bigdatashows/СтранаХозяйство«Любая сверхконцентрация чувствительных данных опасна» http://polit.ru/article/2017/05/19/data/<p><em>В 2019 году в России может появиться портал, с помощью которого россияне смогут контролировать распространение своих персональных данных. Такое предложение содержится в проекте программы &laquo;Цифровая экономика&raquo;, направленном Минкомсвязью в в правительство.</em></p> <p>Предполагается, что создание ресурса решит проблему неконтролируемого сбора и дальнейшего использования персональных данных. В частности, по словам президента Фонда информационной демократии Ильи Массуха, на таком портале нужно будет фиксировать использование паспортных данных.</p> <p>В результате пользователь, авторизовавшись, сможет увидеть, кто использует его персональные данные&sbquo; и при желании запретить организации работать с ними. Как пишет газета &laquo;<a href="http://izvestia.ru/news/707861" target="_blank">Известия</a>&raquo;, ссылаясь на копию проекта, которой она располагает, за ведение ресурса будет отвечать Роскомнадзор.</p> <p>По мнению Ильи Массуха, для создания и работы такого портала потребуется ряд законодательных актов, в том числе такие, которые будут устанавливать ответственность компаний за невнесение необходимой информации. По мнению же Карена Казаряна, главного аналитика Российской ассоциации электронных коммуникаций, действующее законодательство уже позволяет создать такой портал, однако его создание может даже ухудшить защиту данных.</p> <p>&laquo;В Европе этим занимаются независимые организации. У Роскомнадзора очень много обязанностей, у его представителей не всегда есть время заниматься персональными данными. Создание такого портала может ухудшить защиту персональных данных пользователей от утечек&raquo;, &ndash; приводит газета его слова.</p> <p>Опрошенные изданием эксперты считают, что с технической точки зрения создание портала не будет сложным, если использовать авторизацию сайта государственных услуг, и что такой проект вполне реально выполнить к 2019 году.</p> <div class="inner-illustration between-paragraph stop"> <div class="image ii288x216"><img src="/media/photolib/2017/05/18/800-600_yeobup4.jpg" alt="" width="600" height="450" /> <div class="decoration">&nbsp;</div> </div> <div class="text-container"> <div>Колл-центр. Обработка данных / pixabay.com</div> </div> </div> <p>Прокомментировать ситуацию согласился Иван Бегтин, специалист в области работы с данными, директор АНО &laquo;Информационная культура&raquo;, член Комитета гражданских инициатив. В беседе с &laquo;Полит.ру&raquo; он высказал мнение, что идея, стоящая за предложением создать подобный портал сама по себе неплоха.</p> <p>&laquo;Сама идея, которая стоит за предложением создать такой портал, не настолько порочна, как может показаться. Она состоит в том, что государство создает один портал, через который человек не сам передает паспортные данные, а, если я верно понимаю концепцию, то компания &ndash; организация или государственное учреждение &ndash; сама запрашивает доступ к его данным, а оператор одобряет его. Это сопровождается фиксацией факта, что данные предоставлены; ну, и если я это верно понимаю, организации обязаны будут уведомлять портал и, тем самым, этого гражданина об использовании его данных. По крайней мере, если все будет сделано правильно, оно будет выглядеть примерно так.</p> <p>Но у этого вопроса есть разные аспекты. Первый связан с тем, доверяем ли мы государству как хранителю подобных данных. В России имели место прецеденты с утечкой персональных данных: например, огромное количество баз данных до сих пор продаются на всяких Горбушках, на Савеловском рынке и так далее. И где гарантия, что аккаунты, которые там были зарегистрированы не окажутся в этой единой базе? Благо там будет собрано много персональных данных. А это нарушает принцип &laquo;не создавать баз данных на все&raquo;, хранить информацию так, чтобы данные были &laquo;размазаны&raquo; по системам. Кто-то при нарушении этого принципа начинает получать преимущество &ndash; и это, видимо, Роскомнадзор.</p> <p>С другой стороны, у нас есть пример правильного хранения данных &ndash; существует портал госуслуг, в котором уже зарегистрированы миллионы, и пока каких-то публичных утечек, больших или нет, мы не наблюдали. Ну, может, конечно, они происходили, но их быстро &laquo;гасили&raquo;, либо же они были очень малоизвестны. Публично действительно ничего такого не случалось, и это уже отчасти обнадеживает.</p> <p>Такой подход к объединению персональных данных &ndash; это примерно та же история, что и с единой авторизацией на портале госуслуг. Главный вопрос, который тут возникает, таков: а на хрена нужен подобный портал, если уже есть портал госуслуг и систему одобрения или неодобрения запроса на предоставление персональных данных было бы логично встроить туда? Потому что это сейчас &ndash; основной реестр персональных данных, не считая, пожалуй, реестров ФНС, Пенсионного фонда, ФОМС и ФСС.</p> <p>Если говорить о моих личных опасениях, то я считаю, что любая сверхконцентрация чувствительных данных опасна, и наше государство &ndash; далеко не банковская система в смысле защищенности данных. Когда человек идет в банк и там подписывает кучу бумаг и сдает кучу своих данных, он, по крайней мере, уверен, что эти данные никуда не утекут. Я за все время вообще почти не видел утечек из банков &ndash; разве только из региональных филиалов, и то это довольно быстро гасилось. Дело в том, что у банков есть жесткая коммерческая мотивация на то, чтобы это никогда не происходило. Способно ли наше государство обеспечить такой уровень защиты, у меня есть сомнения, поэтому я не выступаю таким уж фанатом этой идеи. Это с одной стороны.</p> <p>С другой стороны, появление такой базы данных даст новую возможность для давления на бизнес. Ведь персональные данные используют огромное количество компаний и организаций: туристические фирмы, все компании, которым отправляют данные для трудоустройства, и так далее. По сути, государство пытается сделать аналог того, что сделал когда-то Google для авторизации.</p> <p>То есть, если вы авторизуетесь внешним приложением через систему Google или Facebook, вы даете некоторое количество данных внешнему приложению, передаете какую-то свою личную информацию ему под управление. И если здесь будет использоваться та же модель, то получится, что, по сути, государство начинает конкурировать с транснациональными корпорациями. Это тоже, надо сказать, вызывает некоторые вопросы. Способно ли оно на это, может ли оно бежать так же быстро и вообще является ли это государственной функцией, или же тут должна действовать некая третья доверенная сторона?&nbsp;Словом, почти все вопросы тут связаны с доверием.</p> <div class="inner-illustration between-paragraph stop"> <div class="image ii288x216"><img src="/media/photolib/2017/05/18/800-600_E74Agxx.jpg" alt="" width="600" height="450" /> <div class="decoration">&nbsp;</div> </div> <div class="text-container"> <div>Гостиница со стоянкой / pixabay.com</div> </div> </div> <p>А что касается возможности запретить использование своих данных... Ну, смотрите: предположим, вы дальнейшее использование запретили. Вы отправлялись в туристическую поездку, турфирма запросила ваши паспортные данные, вы одобрили их предоставление, турфирма их получила &ndash; и данные к ним вошли. Они их получили для чего-то &ndash; для оформления каких-то билетов или платежей. И в их внутренних системах информация о вас фактически фиксируется, пусть она и не в формате скана вашего паспорта, но она есть. И после того, как вы запретили этой фирме использовать ваши данные, вы не можете убедиться, что во внутренних системах она их тоже больше не использует.</p> <p>В законодательстве есть некоторое противоречие по срокам хранения информации и по предоставлению ее. Например, когда люди селятся в гостиницу и при заезде в номер предъявляют паспорта, единым образом фиксируется. К этим данным имеют доступ миграционная служба, МВД &ndash; то есть, это один из инструментов отслеживания людей, контроля за их перемещением. И есть обязательства по долгосрочному хранению этой информации. И как все это будет регулироваться? В какой части эта новая единая система будет выполнять функции защиты прав граждан и в какой части она будет выполнять функции государственного мониторинга за каждым шагом, за деятельностью гражданина? Вот это интересно&raquo;, &ndash; сказал Иван Бегтин.</p>Иван БегтинFri, 19 May 2017 12:04:19 +0300http://polit.ru/article/2017/05/19/data/Страна