Полiт.ua Государственная сеть Государственные люди Войти
22 октября 2018, понедельник, 10:43
Facebook Twitter VK.com Telegram

НОВОСТИ

СТАТЬИ

АВТОРЫ

ЛЕКЦИИ

PRO SCIENCE

СКОЛКОВО

РЕГИОНЫ

13 декабря 2006, 09:00

Прощайте, ключевые слова!

Одна картинка может стоить тысячи слов, но в ответ на запрос «роза» система поиска изображений Google Image выдает более 60 тыс. ссылок на графические файлы, размещенные во Всемирной паутине

Использование ключевых слов имеет как сильные, так и слабые стороны: компьютер может найти множество релевантных веб-страниц, но неспособен отличить, скажем, название цветка от женского имени. Было бы здорово, если бы поисковая система могла находить изображения, похожие на предоставленную пользователем фотографию.

Идея использовать картинки в качестве поисковых запросов не нова. Лет десять назад появилась программа, способная находить похожие друг на друга фотографии и отыскивать в базе данных изображения по их словесному описанию. Несмотря на это, до последнего времени методы поиска изображений по визуальному содержанию разрабатывались лишь в рамках дипломных проектов и кандидатских диссертаций.

Популярным поисковым системам еще предстоит внедрить новую технологию обработки своих каталогов, содержащих гиперссылки на миллиарды фотографий и рисунков. Однако кое-какие успехи в этой области уже достигнуты, и в ближайшем будущем мы сможем отказаться от использования ключевых слов.

Камера вместо клавиатуры

Повсеместное распространение сотовых телефонов и КПК, способных подключаться к Интернету и оснащенных фотокамерами, а также неудобство использования миниатюрных клавиатур для ввода ключевых слов, открывают широкие возможности для отправки поисковых запросов в виде фотографий.

Сотрудники Microsoft Research рассматривают фотокамеру сотового телефона как перспективное устройство для ввода информации. Например, в магазине вы могли бы сфотографировать заинтересовавший вас товар, отправить файл с изображением на поисковый сервер и получить веб-страницу с отзывами других покупателей. Фотография картины «Мона Лиза» поможет найти страницу по истории искусства, а снимок городской достопримечательности – карту ее окрестностей. «Наконец-то Всемирная паутина увидит реальный мир глазами пользователей», – говорит Ларри Зитник (Larry Zitnick) из редмондской лаборатории Microsoft Research. Аналогичный проект разрабатывается и в пекинском подразделении компании.

Перед исследователями стоит нелегкая задача: нужно разработать мощный алгоритм, позволяющий просмотреть все изображения во Всемирной паутине. Группа Зитника продемонстрировала систему, принимающую фотографии-запросы, сделанные с помощью сотовых телефонов, и сопоставляющую их с предварительно обработанными обучающими изображениями, которым соответствуют ссылки на релевантные веб-сайты. Зитник планирует создать базу из миллиардов картинок, собранных поисковой системой MSN Search. Пока на формирование выборки из десятков тысяч обучающих изображений уходит от двух до четырех секунд – интервал, который предстоит уменьшить до долей секунды.

На подготовительном этапе компьютер извлекает из веб-страницы фотографию и выявляет ее характерные особенности – темные пятна, окруженные светлыми областями, и наоборот. Некоторые особенности группируются по три на основании вычисления расстояний между ними. Каждая особенность представляет собой центр квадрата 10×10 пикселей. Группа из трех таких квадратов называется триплетом. В каждом обучающем изображении выявляется примерно 5 тыс. триплетов. Информация об их расположении заносится в гигантскую таблицу, которая используется для того, чтобы сократить объем вычислений во время поиска. Фотография-запрос тоже разделяется на триплеты, которые затем сравниваются с триплетами из таблицы. В результате на сотовый телефон пользователя приходит список гиперссылок на веб-страницы, содержащие искомое изображение. Сравнение основано именно на триплетах, потому что каждый из них охватывает большую часть изображения, за счет чего снижается вероятность ошибочного сопоставления.

К сожалению, производительность системы оставляет желать лучшего: средняя вероятность правильного распознавания не превышает 80%. Однако изображения объектов со специфическими плоскими поверхностями, столь характерными для большинства товаров, распознаются с более высокой степенью точности. Кроме того, пользователи привыкли получать не одну, а несколько ссылок, поэтому вполне можно говорить о приемлемом уровне распознавания. Так или иначе, способность системы выявлять характерные черты объектов на обучающих изображениях и фотографиях-запросах позволяет получать гораздо меньшее количество релевантных ссылок, чем в случае обычного текстового поиска.

Чтобы увеличить диапазон объектов, поддающихся поиску, Зитник планирует усовершенствовать алгоритм, и тогда компьютер сможет находить зеркальные поверхности, а также предметы со сложной структурой, например, растения. Вместе с тем он отмечает, что новая система никогда не сможет охватить все разнообразие визуально различимых объектов

Мальчик, девочка – какая <CENSORED> разница?

Google тоже пристально следит за несметным множеством изображений на веб-страницах. Руководство этой поисковой системы не спешит афишировать планы на будущее, однако ее разработчики начали сообщать о своих достижениях на различных технических конференциях. С точки зрения компании, полноценное сравнение двух фотографий и распознавание отдельных объектов должно отойти на второй план, уступив место более прагматичной задаче простого обобщения миллиардов изображений. Например, на запрос, что это за розоватое пятно на фотографии — участок тела обнаженной красавицы или коттедж в стиле ар деко, — пользователь системы поиска изображений всегда рискует получить пару-тройку порнографических картинок.

«Мы хотим, чтобы порно-сайты отфильтровывались не только по адресам и ключевым словам, но и по содержимому изображений», – говорит один из разработчиков Google Шамит Балуйя (Shumeet Baluja). В одном из подразделений компании была разработана и внедрена система, которая со средней степенью точности определяет, является ли фото порнографическим. Отказавшись от распознавания форм, занимающего до нескольких минут, исследователи с помощью 2,5 тыс. компьютеров, анализирующих по 20 изображений в секунду, выявили половину непристойных картинок в наборе из 1,5 млрд. изображений за 8 часов. Теперь во время поиска по Всемирной паутине вы можете дать указание поисковой системе, чтобы она не выдавала вам ссылки на страницы, чье содержание помечено как сомнительное.

Система состоит из нескольких модулей, распознающих 27 характерных черт порнографии: цвета и текстуры, характерные для изображения кожи человека; области одинакового цвета, соответствующие обнаженному телу; присутствие лиц и т.п. Однако у кожи бывают разные оттенки, и к тому же многие безобидные предметы окрашены в телесные цвета. Поэтому один из компонентов системы отвечает за распознавание объектов, например, зданий, которые легко отличить по длинным прямым граням. Картинки, помеченные как непристойные, служат одним из признаков, по которым система Google Images отфильтровывает ссылки на порнографические сайты. Кроме того, она анализирует адреса и текстовое содержание подозрительных веб-страниц.

Каждый алгоритм, используемый для анализа изображений из Всемирной паутины, прежде всего должен быть быстрым и эффективным. Исследователям из компании Google удалось существенно сократить объем информации, необходимой для визуального определения пола человека и ракурса его лица. Достигнутое ускорение процесса обработки имеет принципиальное значение, поскольку пользователи чаще всего ищут именно фотографии людей. Было бы здорово, если бы поисковая система могла определять, кто изображен на картинке: Бритни Спирс или Тони Блэйр? В Google уже используются фильтры, определяющие ракурс, пол и возраст людей по их портретам.

Модуль для определения пола и ракурса лица разработан Балуйей и Генри Роули (Henry Rowley) на основе результатов измерения световых интенсивностей пар пикселей внутри квадратов 20×20 точек, взятых с фотографий мужских и женских лиц в разных положениях. Сначала специальный алгоритм находит на фото лицо, а затем модуль, определяющий его положение, анализирует 150 пар пикселей и с точностью 99% распознает один из пяти ракурсов (анфас, слева, справа и т.д.). Описанные фильтры можно использовать в самых разных целях, а не только чтобы отфильтровать картинки «для взрослых».

Разработчики Google не считают нужным придумывать изощренные алгоритмы только ради демонстрации своей виртуозности. К исследованиям они относятся прагматически, и по возможности стараются упрощать сложные задачи. Нельзя же, в конце концов, анализировать каждый пиксель на каждой картинке из Всемирной паутины!

ПОИСК ПО ФОТОГРАФИИ ИЗ ТЕЛЕФОНА

В одном из проектов Microsoft Research фотографии, сделанные камерой сотового телефона, используются для поиска похожих изображений и информации о них во Всемирной паутине.

1. Поиск начинается с отправки на поисковый сервер снимка объекта, сделанного с помощью сотового телефона. На сервере содержится каталог обучающих изображений, собранных из всех уголков Сети и подготовленных к сравнению с фотографией-запросом.

2. Для ускорения поиска похожего изображения сервер выявляет характерные особенности снимка: темные пятна, окруженные светлыми областями, и наоборот. Каждая особенность является центром квадрата 10×10 пикселей. Квадраты, расположенные на заданном расстоянии друг от друга, группируются в триплеты.

3. Триплеты фотографии-запроса сравниваются с триплетами обучающих изображений. На каждом снимке выделяют в среднем по 5 тыс. триплетов, которые сохраняются в базе данных. Сопоставление триплетов, а не отдельных кусочков картинки, позволяет находить изображения, наиболее точного соответствующие запросу.

4. Все элементы триплета запоминаются в одном том же масштабе и в одном и том же положении. Обучающее изображение, найденное в результате сравнения триплетов, дополнительно сверяется с запросом путем сопоставления нескольких центральных пикселей.

5. Как только найдено подходящее обучающее изображение, на сотовый телефон пользователя передается ссылка на содержащую его веб-страницу.

ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА

* Boosting Sex Identification Performance. Shumeet Baluja and Henry Rowley. Innovative Applications of Artificial Intelligence, 2005.

* Large Scale Image-Based Adult-Content Filtering. Henry A. Rowley, Yushi Jing and Shumeet Baluja. International Conference on Computer Vision Theory and Applications, 2006.

* Домашняя страница Ларри Зитника: http://research.microsoft.com/˜larryz/

Обсудите в соцсетях

Система Orphus
Loading...

Главные новости

10:22 Причиной аварии «Союза» назвали случайное повреждение ракеты
10:11 Холдинг Усманова отказался от единоличного управления Mail.Ru Group
09:55 В Швейцарии археологи нашли остатки кельтского поселения
09:55 Трамп и Эрдоган обсудили убийство Хашогги
09:38 Посол РФ заявил о реакции России на возможное нападение на Белоруссию
09:29 Стрелок из Керчи сжег личные вещи перед атакой на колледж
09:10 Минтранс предупредили о возможной остановке работы авиакомпаний в РФ
21.10 20:51 Стала известна причина ДТП в Подмосковье
21.10 20:13 Эр-Рияд не знает о местонахождении тела журналиста Хашогги
21.10 19:38 Поклонская объяснила секретность своей свадьбы
21.10 19:06 «Спартак» уступил «Арсеналу» в матче премьер-лиги
21.10 18:35 В Подмосковье при столкновении автобуса и маршрутки погибли четверо
21.10 18:24 Горбачев отреагировал на решение США выйти из договора о РСМД
21.10 17:23 Анита Цой экстренно госпитализирована
21.10 17:00 В Кремле рассказали об ожиданиях от встречи Путина с Болтоном
21.10 16:20 В железнодорожной аварии на Тайване пострадало свыше сотни человек
21.10 16:05 Пожар во Владикавказе потушен
21.10 15:32 Минобороны подтвердило гибель летчиков Л-39
21.10 14:57 Число пострадавших при стрельбе в колледже Керчи выросло
21.10 14:36 РПЦ перестала считать Вселенский патриархат лидером православия
21.10 14:24 Емельяненко ушел с поста президента Союза ММА России
21.10 13:22 Умер нобелевский лауреат по химии Осаму Симомура
21.10 12:49 Опубликовано видео стрельбы в керченском колледже
21.10 12:13 США задумались о расторжении договора СНВ-3 с Россией
21.10 11:43 На Кипре погибли двое россиян
21.10 11:15 Украинцам объяснили резкий рост цен на газ
21.10 10:54 Обвиняемый во взрыве в Гатчине признал вину
21.10 10:19 Скончался режиссер «Клана Сопрано»
21.10 10:03 СМИ рассказали об «армии троллей» в Саудовской Аравии
21.10 09:32 На горящем заводе во Владикавказе возникла угроза взрыва
21.10 09:11 Трамп решил разорвать договор о РСМД с Россией
20.10 20:58 Саакашвили пообещал отметить серебряную свадьбу в Грузии
20.10 20:36 Путин неформально встретился с президентами Казахстана и Узбекистана
20.10 20:25 УПЦ КП приписала Киево-Печерскую лавру к титулу своего патриарха
20.10 20:00 Прокуратура не нашла нарушений в ярославской ИК-1 в связи с голодовкой
20.10 19:21 Директору взорванного завода пиротехники под Петербургом предъявили обвинение
20.10 19:14 Экс-главред катарской газеты призвал не верить признаниям Эр-Рияда о Хашогги
20.10 18:41 Мэрия Москвы передумала запрещать акцию «Возвращение имен»
20.10 18:13 Глава UFC отказал Макгрегору в шансе победить Нурмагомедова
20.10 17:25 В день выборов жертвами терактов в Афганистане стали 28 человек
20.10 16:39 На марш за референдум по Brexit в Лондоне вышли более 500 тысяч человек
20.10 16:22 СМИ приписали «фабрике троллей» эксплуатацию американских стартапов
20.10 15:56 Мамаеву и Кокорину понравилась рисовая каша в «Бутырке»
20.10 15:17 Кандидат в главы Приморья от КПРФ рассказал о предложенной ему сделке
20.10 14:31 Премьер Греции Алексис Ципрас занял пост главы МИД
20.10 14:20 На месте крушения военного Л-39 найдены фрагменты тела и обломки
20.10 13:48 Сирия обвинила авиацию коалиции в гибели 62 мирных жителей
20.10 13:25 МИД РФ обвинил США в беспардонной лжи и клевете
20.10 12:52 Росгвардия решила ужесточить правила оборота оружия из-за ЧП в Керчи
20.10 12:39 Медведев отказался признать отмену санкций «вопросом жизни и смерти»
Apple Bitcoin Boeing Facebook Google iPhone IT NATO PRO SCIENCE видео ProScience Театр Pussy Riot Telegram Twitter Абхазия аварии на железной дороге авиакатастрофа Австралия Австрия автопром авторское право администрация президента Азербайджан акции протеста Александр Лукашенко Александр Турчинов Алексей Кудрин Алексей Навальный Алексей Улюкаев алкоголь амнистия Анатолий Сердюков Ангела Меркель Антимайдан Антон Силуанов Аргентина Аркадий Дворкович Арктика Армения армия Арсений Яценюк археология астрономия атомная энергия аукционы Афганистан Аэрофлот баллистические ракеты банковский сектор банкротство Барак Обама Басманный суд Башар Асад Башкирия беженцы Белоруссия Белый дом Бельгия беспилотник беспорядки биатлон бизнес биология бокс болельщики «болотное дело» большой теннис Борис Немцов борьба с курением Бразилия Валентина Матвиенко вандализм Ватикан ВВП Великая Отечественная война Великобритания Венесуэла Верховная Рада Верховный суд взрыв взятка видеозаписи публичных лекций «Полит.ру» визовый режим Виктор Янукович вирусы Виталий Мутко «ВКонтакте» ВКС Владивосток Владимир Жириновский Владимир Маркин Владимир Мединский Владимир Путин ВМФ Внуково военная авиация Волгоград ВПК ВТБ Вторая мировая война вузы ВЦИОМ выборы выборы губернаторов выборы мэра Москвы Вячеслав Володин гаджеты газовая промышленность «Газпром» генетика Генпрокуратура Германия ГИБДД ГЛОНАСС Голливуд гомосексуализм госбюджет Госдеп Госдума госзакупки госизмена гражданская авиация Греция Гринпис Грузия гуманитарная помощь Дагестан Дальний Восток декларации чиновников деньги День Победы дети Дмитрий Медведев Дмитрий Песков Дмитрий Рогозин доллар Домодедово Дональд Трамп Донецк допинг дороги России драка ДТП Евгения Васильева евро Евровидение Еврокомиссия Евромайдан Евросоюз Египет ЕГЭ «Единая Россия» Екатеринбург ЕСПЧ естественные и точные науки ЖКХ журналисты Забайкальский край закон об «иностранных агентах» законотворчество здравоохранение в России землетрясение «Зенит» Израиль импорт инвестиции Ингушетия Индия Индонезия инновации Интервью ученых интернет инфляция информационные технологии ипотека Ирак Ирак после войны Иран Иркутская область искусство ислам «Исламское государство» Испания история История человечества Италия Йемен Кабардино-Балкария Казань Казахстан казнь Калининград Камчатка Канада Каталония Кемерово Киев Ким Чен Ын кино Киргизия Китай климат Земли КНДР Книга. Знание компьютерная безопасность Компьютеры, программное обеспечение Конституционный суд Конституция кораблекрушение коррупция Космодром Байконур космодром Восточный космос КПРФ кража Краснодарский край Красноярский край кредиты Кремль крушение вертолета Крым Ксения Собчак Куба культура Латвия ЛГБТ ЛДПР Левада-Центр легкая атлетика Ленинградская область лесные пожары Ливия лингвистика Литва литература Лондон Луганск Малайзия Мария Захарова МВД МВФ медиа медицина междисциплинарные исследования Мексика Мемория метро мигранты МИД России Минздрав Минкомсвязи Минкульт Минобороны Минобрнауки Минпромторг Минсельхоз Минтранспорта Минтруд Минфин Минэкономразвития Минэнерго Минюст «Мистраль» Михаил Прохоров Михаил Саакашвили Михаил Ходорковский МКС мобильные приложения МОК Молдавия монархия морской транспорт Мосгорсуд Москва Московская область мошенничество музыка Мурманская область МЧС наводнение Надежда Савченко налоги нанотехнологии наркотики НАСА наука «Нафтогаз Украины» недвижимость некоммерческие организации некролог нефть Нигерия Нидерланды Нобелевская премия Новосибирск Новые технологии, инновации Новый год Норвегия Нью-Йорк «Оборонсервис» образование обрушение ОБСЕ общественный транспорт общество ограбление Одесса Олимпийские игры Ольга Голодец ООН ОПЕК оппозиция опросы оружие отставки-назначения офшор Павел Дуров Пакистан палеонтология Палестинская автономия Папа Римский Париж патриарх Кирилл ПДД педофилия пенсионная реформа пенсия Пентагон Первый канал Петр Порошенко пиратство пищевая промышленность погранвойска пожар полиция Польша похищение Почта России права человека правительство Право правозащитное движение православие «Правый сектор» преступления полицейских преступность Приморский край Приморье Продовольствие происшествия публичные лекции Рамзан Кадыров РАН Революция в Киргизии Реджеп Эрдоган рейтинги реклама религия Республика Карелия РЖД ритейл Росавиация Роскомнадзор Роскосмос «Роснефть» Роспотребнадзор Россельхознадзор Российская академия наук Россия Росстат Ростов-на-Дону Ростовская область РПЦ рубль русские националисты РФС Санкт-Петербург санкции Саудовская Аравия Сахалин Сбербанк Свердловская область связь связь и телекоммуникации Севастополь сельское хозяйство сепаратизм Сербия Сергей Лавров Сергей Нарышкин Сергей Полонский Сергей Собянин Сергей Шойгу Сирия Сколково Славянск Следственный комитет следствие смартфоны СМИ Совбез ООН Совет по правам человека Совет Федерации сотовая связь социальные сети социология Сочи Сочи 2014 «Спартак» спецслужбы «Справедливая Россия» спутники СССР Ставропольский край стихийные бедствия Стихотворения на случай страхование стрельба строительство суды суицид Счетная палата США Таджикистан Таиланд тарифы Татарстан театр телевидение телефонный терроризм теракт терроризм технологии Трансаэро транспорт туризм Турция тюрьмы и колонии убийство уголовный кодекс УЕФА Узбекистан Украина фармакология ФАС ФБР Федеральная миграционная служба физика Филиппины Финляндия ФИФА фондовая биржа фоторепортаж Франсуа Олланд Франция ФСБ ФСИН ФСКН футбол Хабаровский край хакеры Харьков Хиллари Клинтон химическое оружие химия хоккей хулиганство цензура Центробанк ЦИК ЦРУ ЦСКА Челябинская область Чехия Чечня ЧМ-2018 Швейцария Швеция школа шоу-бизнес шпионаж Эбола эволюция Эдвард Сноуден экология экономика экономический кризис экстремизм Элла Памфилова Эстония этология Южная Корея ЮКОС Юлия Тимошенко «Яблоко» ядерное оружие Якутия Яндекс Япония

Редакция

Электронная почта: politru.edit1@gmail.com
Адрес: 129090, г. Москва, Проспект Мира, дом 19, стр.1, пом.1, ком.5
Телефон: +7 495 980 1894.
Яндекс.Метрика
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003г. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2014.