28 июля 2021, среда, 16:40
VK.comFacebookTwitterTelegramInstagramYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

13 декабря 2006, 09:00

Прощайте, ключевые слова!

Одна картинка может стоить тысячи слов, но в ответ на запрос «роза» система поиска изображений Google Image выдает более 60 тыс. ссылок на графические файлы, размещенные во Всемирной паутине

Использование ключевых слов имеет как сильные, так и слабые стороны: компьютер может найти множество релевантных веб-страниц, но неспособен отличить, скажем, название цветка от женского имени. Было бы здорово, если бы поисковая система могла находить изображения, похожие на предоставленную пользователем фотографию.

Идея использовать картинки в качестве поисковых запросов не нова. Лет десять назад появилась программа, способная находить похожие друг на друга фотографии и отыскивать в базе данных изображения по их словесному описанию. Несмотря на это, до последнего времени методы поиска изображений по визуальному содержанию разрабатывались лишь в рамках дипломных проектов и кандидатских диссертаций.

Популярным поисковым системам еще предстоит внедрить новую технологию обработки своих каталогов, содержащих гиперссылки на миллиарды фотографий и рисунков. Однако кое-какие успехи в этой области уже достигнуты, и в ближайшем будущем мы сможем отказаться от использования ключевых слов.

Камера вместо клавиатуры

Повсеместное распространение сотовых телефонов и КПК, способных подключаться к Интернету и оснащенных фотокамерами, а также неудобство использования миниатюрных клавиатур для ввода ключевых слов, открывают широкие возможности для отправки поисковых запросов в виде фотографий.

Сотрудники Microsoft Research рассматривают фотокамеру сотового телефона как перспективное устройство для ввода информации. Например, в магазине вы могли бы сфотографировать заинтересовавший вас товар, отправить файл с изображением на поисковый сервер и получить веб-страницу с отзывами других покупателей. Фотография картины «Мона Лиза» поможет найти страницу по истории искусства, а снимок городской достопримечательности – карту ее окрестностей. «Наконец-то Всемирная паутина увидит реальный мир глазами пользователей», – говорит Ларри Зитник (Larry Zitnick) из редмондской лаборатории Microsoft Research. Аналогичный проект разрабатывается и в пекинском подразделении компании.

Перед исследователями стоит нелегкая задача: нужно разработать мощный алгоритм, позволяющий просмотреть все изображения во Всемирной паутине. Группа Зитника продемонстрировала систему, принимающую фотографии-запросы, сделанные с помощью сотовых телефонов, и сопоставляющую их с предварительно обработанными обучающими изображениями, которым соответствуют ссылки на релевантные веб-сайты. Зитник планирует создать базу из миллиардов картинок, собранных поисковой системой MSN Search. Пока на формирование выборки из десятков тысяч обучающих изображений уходит от двух до четырех секунд – интервал, который предстоит уменьшить до долей секунды.

На подготовительном этапе компьютер извлекает из веб-страницы фотографию и выявляет ее характерные особенности – темные пятна, окруженные светлыми областями, и наоборот. Некоторые особенности группируются по три на основании вычисления расстояний между ними. Каждая особенность представляет собой центр квадрата 10×10 пикселей. Группа из трех таких квадратов называется триплетом. В каждом обучающем изображении выявляется примерно 5 тыс. триплетов. Информация об их расположении заносится в гигантскую таблицу, которая используется для того, чтобы сократить объем вычислений во время поиска. Фотография-запрос тоже разделяется на триплеты, которые затем сравниваются с триплетами из таблицы. В результате на сотовый телефон пользователя приходит список гиперссылок на веб-страницы, содержащие искомое изображение. Сравнение основано именно на триплетах, потому что каждый из них охватывает большую часть изображения, за счет чего снижается вероятность ошибочного сопоставления.

К сожалению, производительность системы оставляет желать лучшего: средняя вероятность правильного распознавания не превышает 80%. Однако изображения объектов со специфическими плоскими поверхностями, столь характерными для большинства товаров, распознаются с более высокой степенью точности. Кроме того, пользователи привыкли получать не одну, а несколько ссылок, поэтому вполне можно говорить о приемлемом уровне распознавания. Так или иначе, способность системы выявлять характерные черты объектов на обучающих изображениях и фотографиях-запросах позволяет получать гораздо меньшее количество релевантных ссылок, чем в случае обычного текстового поиска.

Чтобы увеличить диапазон объектов, поддающихся поиску, Зитник планирует усовершенствовать алгоритм, и тогда компьютер сможет находить зеркальные поверхности, а также предметы со сложной структурой, например, растения. Вместе с тем он отмечает, что новая система никогда не сможет охватить все разнообразие визуально различимых объектов

Мальчик, девочка – какая <CENSORED> разница?

Google тоже пристально следит за несметным множеством изображений на веб-страницах. Руководство этой поисковой системы не спешит афишировать планы на будущее, однако ее разработчики начали сообщать о своих достижениях на различных технических конференциях. С точки зрения компании, полноценное сравнение двух фотографий и распознавание отдельных объектов должно отойти на второй план, уступив место более прагматичной задаче простого обобщения миллиардов изображений. Например, на запрос, что это за розоватое пятно на фотографии — участок тела обнаженной красавицы или коттедж в стиле ар деко, — пользователь системы поиска изображений всегда рискует получить пару-тройку порнографических картинок.

«Мы хотим, чтобы порно-сайты отфильтровывались не только по адресам и ключевым словам, но и по содержимому изображений», – говорит один из разработчиков Google Шамит Балуйя (Shumeet Baluja). В одном из подразделений компании была разработана и внедрена система, которая со средней степенью точности определяет, является ли фото порнографическим. Отказавшись от распознавания форм, занимающего до нескольких минут, исследователи с помощью 2,5 тыс. компьютеров, анализирующих по 20 изображений в секунду, выявили половину непристойных картинок в наборе из 1,5 млрд. изображений за 8 часов. Теперь во время поиска по Всемирной паутине вы можете дать указание поисковой системе, чтобы она не выдавала вам ссылки на страницы, чье содержание помечено как сомнительное.

Система состоит из нескольких модулей, распознающих 27 характерных черт порнографии: цвета и текстуры, характерные для изображения кожи человека; области одинакового цвета, соответствующие обнаженному телу; присутствие лиц и т.п. Однако у кожи бывают разные оттенки, и к тому же многие безобидные предметы окрашены в телесные цвета. Поэтому один из компонентов системы отвечает за распознавание объектов, например, зданий, которые легко отличить по длинным прямым граням. Картинки, помеченные как непристойные, служат одним из признаков, по которым система Google Images отфильтровывает ссылки на порнографические сайты. Кроме того, она анализирует адреса и текстовое содержание подозрительных веб-страниц.

Каждый алгоритм, используемый для анализа изображений из Всемирной паутины, прежде всего должен быть быстрым и эффективным. Исследователям из компании Google удалось существенно сократить объем информации, необходимой для визуального определения пола человека и ракурса его лица. Достигнутое ускорение процесса обработки имеет принципиальное значение, поскольку пользователи чаще всего ищут именно фотографии людей. Было бы здорово, если бы поисковая система могла определять, кто изображен на картинке: Бритни Спирс или Тони Блэйр? В Google уже используются фильтры, определяющие ракурс, пол и возраст людей по их портретам.

Модуль для определения пола и ракурса лица разработан Балуйей и Генри Роули (Henry Rowley) на основе результатов измерения световых интенсивностей пар пикселей внутри квадратов 20×20 точек, взятых с фотографий мужских и женских лиц в разных положениях. Сначала специальный алгоритм находит на фото лицо, а затем модуль, определяющий его положение, анализирует 150 пар пикселей и с точностью 99% распознает один из пяти ракурсов (анфас, слева, справа и т.д.). Описанные фильтры можно использовать в самых разных целях, а не только чтобы отфильтровать картинки «для взрослых».

Разработчики Google не считают нужным придумывать изощренные алгоритмы только ради демонстрации своей виртуозности. К исследованиям они относятся прагматически, и по возможности стараются упрощать сложные задачи. Нельзя же, в конце концов, анализировать каждый пиксель на каждой картинке из Всемирной паутины!

ПОИСК ПО ФОТОГРАФИИ ИЗ ТЕЛЕФОНА

В одном из проектов Microsoft Research фотографии, сделанные камерой сотового телефона, используются для поиска похожих изображений и информации о них во Всемирной паутине.

1. Поиск начинается с отправки на поисковый сервер снимка объекта, сделанного с помощью сотового телефона. На сервере содержится каталог обучающих изображений, собранных из всех уголков Сети и подготовленных к сравнению с фотографией-запросом.

2. Для ускорения поиска похожего изображения сервер выявляет характерные особенности снимка: темные пятна, окруженные светлыми областями, и наоборот. Каждая особенность является центром квадрата 10×10 пикселей. Квадраты, расположенные на заданном расстоянии друг от друга, группируются в триплеты.

3. Триплеты фотографии-запроса сравниваются с триплетами обучающих изображений. На каждом снимке выделяют в среднем по 5 тыс. триплетов, которые сохраняются в базе данных. Сопоставление триплетов, а не отдельных кусочков картинки, позволяет находить изображения, наиболее точного соответствующие запросу.

4. Все элементы триплета запоминаются в одном том же масштабе и в одном и том же положении. Обучающее изображение, найденное в результате сравнения триплетов, дополнительно сверяется с запросом путем сопоставления нескольких центральных пикселей.

5. Как только найдено подходящее обучающее изображение, на сотовый телефон пользователя передается ссылка на содержащую его веб-страницу.

ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА

* Boosting Sex Identification Performance. Shumeet Baluja and Henry Rowley. Innovative Applications of Artificial Intelligence, 2005.

* Large Scale Image-Based Adult-Content Filtering. Henry A. Rowley, Yushi Jing and Shumeet Baluja. International Conference on Computer Vision Theory and Applications, 2006.

* Домашняя страница Ларри Зитника: http://research.microsoft.com/˜larryz/

Обсудите в соцсетях

Главные новости

16:32 Путин поручил начать выплачивать по 10 тыс. рублей семьям с детьми на две недели раньше плана
16:18 Суд признал законным приговор экс-полицейскому Алексею Смирнову. В 2019 году она расстрелял своих коллег в метро Москвы
16:04 «Как минимум не верны по своей сути». Кремль прокомментировал слова Байдена о проблемах Путина
15:47 Первый приговор за сбитого самокатом ребенка вынесли в Петербурге
15:36 Американская прокуратура продала единственную в мире копию альбома Wu-Tang Clan. Ей владел знаменитый бизнесмен и мошенник Мартин Шкрели
15:26 ЦИК утвердил новый порядок работы журналистов на выборах. Он позволит избиркомам оказывать дополнительное давление на СМИ
15:08 S7 объявила о запуске собственного лоукостера в июле 2022 года
14:23 Nord Stream 2 AG: «Северный поток-2» завершен на 99%
14:23 Украина ввела карантин для путешественников из России и Индии
14:00 Блокирование одного гена делает самок тараканов-прусаков непривлекательными для самцов
13:59 СК завел уголовное дело о клевете на ветерана, который уже был потерпевшим по делу Навального. Ответчиком стал политолог Крашенников
13:58 В Сочи временно запретили строить многоквартирные дома
13:50 В Литве на границе с Белоруссией за сутки задержали 171 нелегала. В 2021 году поток мигрантов увеличился в 37 раз
13:25 На фоне Олимпиады Япония обновила суточный рекорд по заражениям COVID-19 впервые с января
13:22 В Иркутске при получении взятки в 15 млн рублей задержали замглавы следственного управления МВД Бурятии
13:09 В Австралии олимпийского медалиста Натана Баггали отправили в тюрьму на 25 лет за контрабанду полтонны кокаина
13:03 Лидер КПРФ Зюганов на пресс-конференции публично обратился к Владимиру Путину и заявил о «фашитизации» России
12:51 Программу кешбэка на путевки по России продлили до 31 августа
12:30 Поставщики кофе предупредили о повышении цен на 10-12% из-за засухи в Бразилии
12:06 Россиянину дали 9,5 лет колонии за передачу Украине деталей от ракет С-300
12:00 Составлено сбалансированное меню для морских черепах
11:57 Роскомнадзор потребовал заблокировать Twitter-аккаунт Любови Соболь
11:46 Турция и Азербайджан ведут переговоры о создании совместной армии
11:24 Дым от якутских лесных пожаров достиг Иркутска
11:15 Против главреда The Insider Романа Доброхотова возбудили дело о клевете на нидерландского журналиста
10:23 Минюст разрешил россиянам заключать браки дома и в больницах
10:00 Нейросеть способна обнаруживать на томограммах мозга патологии, вызывающие эпилепсию
09:44 Президент Байден назвал «реальную проблему» Путина
09:28 Неизвестные от имени губернатора Белгородской области отправляли письма бизнесменам и просили деньги
08:40 К главреду The Insider в Москве пришла полиция
08:29 Бывший премьер Словакии, покинувший этот пост из-за «Спутника V», привился этой вакциной
08:07 Российские пловцы взяли серебро в эстафете на Олимпиаде в Токио
07:46 В Приморье среди вакцинированных от коронавируса разыграют квартиры и машины
07:00 Девять авиакомпаний запросили у Росавиации допуск к полетам на курорты Египта
06:12 Жертвами взрыва на химзаводе в Германии стали два человека
05:36 Умер экс-барабанщик и сооснователь группы Slipknot
27.07 21:52 Минздрав запланировал новые антитабачные меры после доклада ВОЗ
27.07 21:10 Полиция задержала кандидата в Госдуму от КПРФ Анастасию Удальцову. В ближайшие дни коммунисты планируют провести всероссийские пикеты
27.07 20:28 Грудинин заявил о готовности вступить в КПРФ. Эта партия планирует провести всероссийские акции протеста в его поддержку
27.07 20:13 84-летний немецкий пенсионер попал под суд за хранение танка «Пантера» в подвале
27.07 19:05 Кадыров потребовал вакцинировать 100% населения Чечни. Через день власти республики отчитались о 100% вакцинации взрослого населения
27.07 18:34 РИА ФАН потребовало признать Bellingcat нежелательной организацией
27.07 18:26 Суд в Казани дал 1,5 года условно одной из фигуранток «дворцового дела»
27.07 18:13 Коммунисты проведут трехдневные пикеты по всей России в поддержку снятого с выборов в Госдуму Павла Грудинина
27.07 18:07 Американцы потеряли полмиллиарда долларов на связанных с пандемией мошенничествах
27.07 17:46 Олимпийскому чемпиону Евгению Рылову не разрешили выйти на награждение в маске с котом
27.07 17:36 Власти Белоруссии признали сайт и соцсети телеканала «Белсат» экстремистскими
27.07 17:32 Генпрокуратура Швейцарии закрыла дело об отмывании денег, которое расследовал Сергей Магнитский
27.07 17:09 На VIP-пляже в Сочи выставили ценник за спасение утопающих
27.07 17:02 «Они уверены, что теперь стали повелителями интернета». Навальный прокомментировал блокировку связанных с ним сайтов
«АвтоВАЗ» «ВКонтакте» «Газпром» «Зенит» «Мемориал» «Мистраль» «Оборонсервис» «Роснефть» «Спартак» «Яблоко» Абхазия Австралия Австрия Азербайджан Антимайдан Аргентина Арктика Армения Афганистан Аэрофлот Башкирия Белоруссия Бельгия Болгария Бразилия Бурятия ВВП ВКС ВМФ ВПК ВТБ ВЦИОМ Ватикан Великобритания Венгрия Венесуэла Владивосток Внуково Волгоград ГИБДД ГЛОНАСС Генпрокуратура Германия Голливуд Госдеп Госдума Греция Гринпис Грузия ДТП Дагестан Дания Домодедово Донецк ЕГЭ ЕСПЧ Евровидение Еврокомиссия Евромайдан Евросоюз Египет Екатеринбург ЖКХ Израиль Ингушетия Индия Индонезия Интерпол Ирак Иран Испания Италия Йемен КНДР КПРФ Казань Казахстан Калининград Камчатка Канада Каталония Кемерово Киев Кипр Киргизия Китай Коми Конституция Красноярск Кремль Крым Куба Курилы ЛГБТ ЛДПР Латвия Ливия Литва Лондон Луганск МВД МВФ МГУ МКС МОК МЧС Малайзия Мексика Минздрав Минкульт Минобороны Минобрнауки Минпромторг Минсельхоз Минск Минтранспорта Минтруд Минфин Минцифры Минэкономразвития Минэнерго Минюст Молдавия Мосгордума Мосгорсуд Москва НАСА Нигерия Нидерланды Новосибирск Норвегия ОАЭ ОБСЕ ООН ОПЕК Одесса Омск ПДД Пакистан Паралимпиада Париж Пентагон Польша Приморье РАН РЖД РПЦ РФС Росавиация Росгвардия Роскомнадзор Роскосмос Роспотребнадзор Россельхознадзор Россия Росстат Ростех Ростуризм СМИ СССР США Сахалин Сбербанк Севастополь Сербия Сирия Сколково Славянск Сочи Таджикистан Таиланд Татарстан Трансаэро Турция УЕФА Узбекистан Украина ФАС ФБР ФИФА ФСБ ФСИН ФСКН Филиппины Финляндия Франция Хакасия Харьков ЦИК ЦРУ ЦСКА Центробанк Чехия Чечня Швейцария Швеция Шереметьево Эбола Эстония ЮКОС Якутия Яндекс Япония авиакатастрофа автопром алкоголь амнистия арест армия археология астрономия аукционы бактерии банкротство беженцы безработица бензин беспилотник беспорядки биатлон бизнес благотворительность блогосфера бокс болельщики вандализм взрыв взятка вирусы вузы выборы гаджеты генетика гомосексуализм госбюджет госзакупки госизмена демография деньги дети доллар допинг драка евро журналисты законотворчество здоровье землетрясение изнасилование импорт инвестиции инновации интернет инфляция ипотека искусство ислам исследования история казнь кино кораблекрушение коронавирус коррупция космос кража кредиты культура лингвистика литература математика медиа медицина метро мигранты млекопитающие монархия мошенничество музыка наводнение налоги нанотехнологии наркотики наука недвижимость нейробиология некролог нефть образование обрушение общество ограбление оппозиция опросы оружие офшор палеонтология педофилия пенсия пиратство планетология погранвойска пожар полиция похищение правительство право православие преступность продовольствие происшествия психология пытки ракета рейтинги реклама религия ретейл робототехника рубль санкции связь сепаратизм следствие смартфоны смертность социология спецслужбы спутники статистика страхование стрельба строительство суды суицид тарифы театр телевидение теракт терроризм технологии транспорт туризм убийство фармакология физика фоторепортаж футбол хакеры химия хоккей хулиганство цензура школа шпионаж экология экономика экспорт экстремизм этология «Единая Россия» «Исламское государство» «Нафтогаз Украины» «Правый сектор» «Северный поток» «Справедливая Россия» «болотное дело» Александр Бастрыкин Александр Лукашенко Александр Новак Александр Турчинов Алексей Кудрин Алексей Навальный Алексей Улюкаев Алтайский край Амурская область Анатолий Сердюков Ангела Меркель Антон Силуанов Аркадий Дворкович Арсений Яценюк Астраханская область Барак Обама Басманный суд Башар Асад Белый дом Борис Немцов Бутовский полигон Валентина Матвиенко Верховная Рада Верховный суд Виктор Янукович Виталий Милонов Виталий Мутко Владимир Жириновский Владимир Зеленский Владимир Маркин Владимир Мединский Владимир Путин Вячеслав Володин Дальний Восток День Победы Дмитрий Медведев Дмитрий Песков Дмитрий Рогозин Дональд Трамп Евгения Васильева Забайкальский край Интервью ученых Ирина Яровая Иркутская область История человечества Калужская область Кирилл Серебренников Кировская область Конституционный суд Космодром Байконур Краснодарский край Красноярский край Ксения Собчак Ленинградская область МИД России Мария Захарова Михаил Прохоров Михаил Саакашвили Михаил Ходорковский Московская область Мурманская область Надежда Савченко Наталья Поклонская Нижний Новгород Николас Мадуро Нобелевская премия Новосибирская область Новый год Олег Дерипаска Олимпийские игры Ольга Голодец Павел Дуров Палестинская автономия Папа Римский Первый канал Пермский край Петр Порошенко Почта России Приморский край Рамзан Кадыров Реджеп Эрдоган Республика Карелия Ростовская область Самарская область Саратовская область Саудовская Аравия Свердловская область Сергей Лавров Сергей Нарышкин Сергей Полонский Сергей Собянин Сергей Шойгу Следственный комитет Совбез ООН Совет Федерации Ставропольский край Счетная палата Тереза Мэй Тюменская область Франсуа Олланд Хабаровский край Хиллари Клинтон Человек дня Челябинская область Черное море Эдвард Сноуден Элла Памфилова Эльвира Набиуллина Эммануэль Макрон Южная Корея Юлия Тимошенко Юрий Чайка авторское право администрация президента акции протеста атомная энергия баллистические ракеты банковский сектор биология большой теннис визовый режим военная авиация выборы губернаторов газовая промышленность гражданская авиация гуманитарная помощь декларации чиновников домашние животные дороги России информационные технологии климат Земли компьютерная безопасность космодром Восточный крушение вертолета легкая атлетика лесные пожары междисциплинарные исследования мобильные приложения морской транспорт некоммерческие организации общественный транспорт патриарх Кирилл пенсионная реформа пищевая промышленность права человека правозащитное движение преступления полицейских публичные лекции российское гражданство русские националисты русский язык сельское хозяйство сотовая связь социальные сети стихийные бедствия телефонный терроризм уголовный кодекс фигурное катание финансовый рынок фондовая биржа химическое оружие хроники обнуления эволюция экономический кризис ядерное оружие Великая Отечественная война Всемирная организация здравоохранения Вторая мировая война Ирак после войны Ким Чен Ын Революция в Киргизии Российская академия наук Стихотворения на случай Федеральная миграционная служба Федеральная таможенная служба борьба с курением выборы мэра Москвы здравоохранение в России связь и телекоммуникации тюрьмы и колонии Совет по правам человека аварии на железной дороге естественные и точные науки закон об «иностранных агентах» компьютеры и программное обеспечение видеозаписи публичных лекций «Полит.ру» Новые технологии, инновации Сочи 2014 рейтинг Forbes Аль-Каида Кабардино-Балкария Левада-Центр Нью-Йорк Санкт-Петербург отставки-назначения шоу-бизнес Ростов-на-Дону ЧМ-2018 Книга. Знание ВИЧ/СПИД Путин20летназад новость20летназад Apple Bitcoin Boeing Facebook G20 Google iPhone IT Microsoft NATO PRO SCIENCE видео ProScience Театр Pussy Riot Telegram Twitter Wikileaks YouTube

Редакция

Электронная почта: polit@polit.ru
Телефон: +7 929 588 33 89
Яндекс.Метрика Top.Mail.Ru
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2021.