Джозеф Редмон: Как компьютер умеет мгновенно распознавать объекты

Десять лет назад исследователи считали, что создать компьютер, который сможет отличить кошку от собаки, практически невозможно. Сегодня система компьютерного зрения способна определить это почти со стопроцентной точностью. Как? Джозеф Рэдмон работает над YOLO — системой с открытым исходным кодом, которая способна опознавать объекты и идентифицировать их в изображениях и видео — от зебры до знаков «Стоп» — с молниеносной скоростью. В замечательном демо-ролике Рэдмон демонстрирует этот важный шаг в разработке приложений для самоуправляемых автомобилей, робототехники и даже для диагностики рака

Будущее

Десять лет назад исследователи компьютерного зрения думали, что научить компьютер различать изображения кошки и собаки будет практически невозможно, даже несмотря на значительный прогресс в развитии искусственного интеллекта. Сегодня мы можем это делать с точностью до 99%. Это называется классификацией изображений, дайте компьютеру картинку, присвойте этой картинке категорию, и он выдаст вам тысячи похожих.

Я аспирант в Вашингтонском университете, работаю над проектом Darknet, который представляет собой нейронную сеть для обучения и тестирования модели компьютерного зрения. Давайте посмотрим, что думает Darknet о данном изображении. Когда мы запускаем наш классификатор для этого изображения, мы видим, что мы не просто получаем предположение, собака здесь изображена или кошка, мы фактически получаем варианты конкретных пород. Вот современный уровень детализации. И он не ошибся. Порода моей собаки действительно маламут.

Поэтому мы сделали удивительные успехи в классификации изображений, но что происходит, когда мы запускаем наш классификатор применительно к картинке, которая выглядит вот так? Ну… Мы видим, что классификатор выдает довольно похожие варианты. Все правильно: на фото — маламут, но по одной такой метке мы на самом деле не знаем, что происходит на снимке. Нам нужно нечто более мощное. Я работаю над вопросом, касающимся обнаружения объекта, то есть, когда мы смотрим на фото и пытаемся найти все объекты, ставим ограничивающие прямоугольники вокруг них и определяем эти объекты.

Вот что происходит, когда мы запускаем детектор на этом изображении.

И теперь, имея такой результат, мы можем сделать гораздо больше с нашими алгоритмами компьютерного зрения. Мы видим, что компьютер знает, где кошка, а где собака. Он знает их расположение относительно друг друга, их размер. Он даже может знать какую-то дополнительную информацию. На заднем плане находится книга. И если вы хотите построить сверхсистему компьютерного зрения, например, самоуправляемое транспортное средство или робототехническую систему, это именно та информация, которая вам пригодится. Вам нужно что-то, что поможет вам взаимодействовать с материальным миром. Сейчас, работая над проблемой обнаружения объекта, я добился того, что для обработки одного изображения требуется 20 секунд. И чтобы понять, почему скорость так важна в этой области, вот пример детектора объекта, которому требуется две секунды на обработку изображения. Он в 10 раз быстрее 20-секундного детектора, понятно, что к моменту, когда он выдает варианты, в мире происходит много изменений, и это делает приложение бесполезным.

Если увеличить скорость операций в 10 раз, получим детектор, обрабатывающий пять кадров в секунду. Это значительно лучше, но в случае, если произойдет значительное движение, я бы не хотел, чтобы подобная система управляла моим автомобилем.

На ноутбуке видно, как наша система обнаружения работает в реальном времени. Она плавно отслеживает, как я передвигаюсь по помещению, и она точно определяет широкий спектр изменений в размере, позе, движений вперед и назад. Великолепно. Это как раз то, что нам нужно, если мы хотим создать систему самого лучшего компьютерного зрения.

Всего лишь за несколько лет мы продвинулись от 20 секунд на одно изображение до 20 миллисекунд, что в тысячу раз быстрее. Как нам это удалось? В прошлом система опознавания объектов брала такое вот изображение и разделяла его на множество секций, а затем запускала классификатор по каждой из этих секций, и высокий рейтинг классификатора считался определением изображения. Подразумевается, что классификатор должен перебрать тысячи вариантов изображения, тысячи оценок нейронной сети, чтобы выдать конечный результат. Вместо этого мы использовали единственную сеть, которая выполнила всю работу за нас. Она производит все ограничения и варианты видов одновременно. Благодаря нашей системе, вместо того, чтобы смотреть на изображение тысячи раз для его опознавания, достаточно взглянуть раз, вот почему мы назвали ее метод опознавания YOLO. С такой скоростью мы не ограничены разнообразием объектов, мы можем воспроизвести видео в режиме реального времени. Сейчас вместо того, чтобы просто смотреть на эту кошку и собаку, мы видим, как они двигаются и общаются друг с другом.

Мы обучили этот детектор на 80 разных видах в наборе данных COCO от Microsoft. Он учитывает все виды вещей, такие как как ложка, вилка, миска и другие обычные предметы. Есть и более специфичные объекты: животные, автомобили, зебры, жирафы. А сейчас сделаем кое-что прикольное. Я подойду к кому-нибудь из аудитории, и мы посмотрим, какие объекты мы сможем определить. Кто-нибудь хочет чучело? Мы подготовили несколько плюшевых медведей. Можно немного снизить порог опознавания, так что мы сможем кое-что о вас узнать, друзья. Посмотрим, сможем ли получить эти знаки остановки. Обнаружили несколько рюкзаков. Давайте немного увеличим масштаб. Класс! Весь процесс происходит в режиме реального времени на ноутбуке.

Важно помнить, что это главная цель системы обнаружения, поэтому мы можем экспериментировать с изображениями из разных областей. Тот же самый код, который мы используем для обнаружения знаков «Стоп» или пешеходов, велосипедов в самоуправляемых автомобилях, может быть использован для поиска раковых клеток в биопсии ткани. Исследователи по всему миру уже используют эту технологию для внедрения инноваций в медицине, робототехнике. Сегодня утром я прочел статью о том, что в национальном парке Найроби при составлении переписи животных используют YOLO как часть этой системы обнаружения. Причина этого в том, что Darknet — это общедоступный ресурс, и любой пользователь может пользоваться им бесплатно.

Но мы хотели сделать опознавание еще более доступным и удобным, и благодаря комбинации модели оптимизации, сети бинаризации и приближения, в итоге мы смогли добиться опознавания объекта с помощью телефона.

И я очень рад, потому что теперь у нас есть очень мощное решение проблемы низкого уровня компьютерного зрения, и любой может взять его и что-нибудь создать с его помощью. Так что остальное теперь зависит от всех вас и людей по всему миру, имеющих доступ к данному программному обеспечению, и я не могу дождаться, чтобы увидеть, что люди создадут с помощью этой технологии.

Перевод: Алена Черных
Редактор: Юлия Каллистратова

Источник

Лекции

Джозеф Редмон: Как компьютер умеет мгновенно распознавать объекты

Пол Грэм: Правильная настойчивость творит волшебство

«Нам нужен принцип планетарной субсидиарности, а не глобальное управление»

Волновые маркеры: как мозг отмечает то, что нужно запомнить