Новости Software

Видеосемантика вытесняет стандартное видеонаблюдение

Фото-видеопленки, видеокассеты, видео-CD, цифровые видео-фильмы… — вытеснение одного другим шло и продолжается за счет появления более удобного, а главное — компактного средства хранения видео информации. И вот мир снова подошел к критическому рубежу, когда уже не хватает никаких ЦОД для архивации того объема видеоконтента, который сегодня генерируется медийными сервисами. Если раньше видео снималось как короткометражный продукт, месяцы и годы уходили на рождение творческого фильма длиной не более часа, то сегодня многочисленные системы видеонаблюдения «заливают» диски по 24 часа в сутки — и так многие годы без перерыва.

Для сравнения, самый дорогостоящий в России центр городского видеонаблюдения Москвы может хранить свои видеозаписи не больше недели, что крайне мало для обеспечения аналитической деятельности правоохранительных органов. В других регионах и того меньше, причем на порядок.

Если проблему запредельных объемов данных еще как-то можно решить запредельной ценой огромного числа магнитных носителей, то про их обработку приходится забыть. Даже элементарный поиск видеоконтента становится крайне затруднительным, само видео не умеет писать текст о себе, кто-то должен на каждый участок времени хотя бы набросать поисковые фразы. Ключевые слова, которые дают возможность вводить некоторые видео-сервисы, обычно настолько однотипны, что по ним выходит несколько миллионов похожих вариантов.

Всё пишется и все стирается — не самый эффективный алгоритм подавляющего числа систем сегодняшнего видеонаблюдения. Большинство мировых аналитических систем построено на вводных данных в виде текста, а для анализа видеоконтента требуется нечто другое — видеоаналитика. Она стремительно врывается в нашу жизнь, но также быстро её и покидает, оставляя осадок обманутых ожиданий. Мы это где-то уже проходили.

Родоначальница исследований в области видеоанализа компания Intel вот уже пять лет как практически похоронила развитие открытой библиотеки «Open CV», на которой строят и продолжают развивать свои аналитические системы почти все фирмы в отрасли видеонаблюдения. Оставленные предметы, пересечённые линии, детекторы драки и прочие новомодные технологии до сих пор создаются на основе интеловского трупа «Computer Vision». Их успех определяется, как это часто бывает, несоответствием условий демонстрации реалиям жизни. Сегодняшним миром правит рекламная обёртка, вот поэтому постоянно прокуратура указывает на очередной мыльный пузырь в очередном миллиардном проекте «Безопасный город».

Проблема в том, что избалованные заоблачными технологиями заказчики уверены, что искусственный интеллект давно есть и компьютер может оценивать жизненные ситуации даже лучше человека. На всякий спрос есть предложения. Показать, как компьютер все сам находит и определяет, можно с помощью нехитрой компьютерной графики, которая создана, в общем-то, лишь для рекламы. Совмещаем ее с заранее подготовленной сценой по отрежиссированному сценарию – и выглядит эффектно. Но «весь мир — театр» лишь в философском смысле. В реальности компьютер не может разглядеть в высовывающейся за чьим-то телом руке другого человека,

отделить движущуюся тень от тела,

достроить на сливающемся фоне контуры объекта

и даже оценить размеры.

Что больше на видеозаписи с объекта: машина или птица?

Подробнее о мифах компьютерного зрения

Качающиеся деревья, блики, насекомые на камерах, дождь, снег и прочие реалии жизни требуют огромных мощностей для распознавания, а сегодняшние системы видеонаблюдения и так под завязку забиты сжатием мегапиксельных видеопотоков. Самый популярный формат H.264 нуждается в обработке отдельным процессором на каждый видеоканал. Тем не менее, есть и адекватное, скажем так, решение задачи видеоанализа — гибкая видеоаналитика. В Википедии она называется Видеосемантика. К сожалению, много лет пользовалась меньшим спросом, потому что не предполагает чётких формализаций. Она не скажет вам, что кто-то достал оружие или нарушил статью 112 УК РФ, но покажет подозрительный момент, отдав его анализ человеческому разуму. Видеосемантика выделяет в потоке событий все изменения закономерностей, выделяет ключевые события, показывает оператору краткий смысл этих событий.

Не так интеллектуально, как любит пользователь, но при всём при этом многократно сокращается период внимания, необходимый для просмотра камер вживую или в записи, устраняется человеческий фактор, т. к. запечатлённые события не уходят сразу с экрана, и оператор имеет достаточно времени, чтобы обратить на них внимание. Такие краткие видеоролики не требуют больших архивов, легко передаются по мобильным каналам, удобно сопоставляются и систематизируются, их практически можно двигать руками.

Принцип гибкой видеоаналитики появился довольно давно, почти 10 лет назад, упорно не востребовался в виду банального перекоса маркетинга: естественно, что интеллектуальная упаковка более привлекательна, нежели простой механизм для сокращения человеческого труда. И все идёт к тому, что живого видео в видеонаблюдении скоро совсем не останется. У человека просто нет физической  возможности просматривать круглосуточные видеозаписи сотен и тысяч камер. Ему в любом случае придётся решиться на сокращение своего уровня загруженности, доверить первичную обработку компьютеру. В отличие от жёсткой видеоаналитики, видеосемантика не пытается анализировать поведение людей, она лишь раскладывает это поведение на ключевые моменты. Вместо сомнительного машинного интеллекта, практичная математика по сокращению и долгосрочному выводу информации.

Что-то вроде файлархиватора, только здесь удаляются не повторные комбинации байтов, а повторные действия людей, машин и других движущихся объектов. Например, простая система видеонаблюдения будет писать несколько минут, как человек идет из точки «А» в точку «Б», и всё это время оператор должен внимательно следить, не сделает ли что-нибудь эдакого этот человек во время своего движения. А видеосемантика выдаст только два коротких ролика по 2 секунды: «человек идёт» и «человек сделал что-то особенное». Сокращаем человеческий труд (период внимания) в сотни раз!

Если человек не менял скорость, направление, не подпрыгивал и ничего не делал руками, то видеосемантика выдаст короткий видеоролик в 3 секунды, где будет показано, как идёт этот человек, куда идёт, как он выглядит, походка и прочие приметы. Зачем смотреть 10 минут, если всё можно узнать за 3 секунды? 600 делим на 3, получаем выигрыш в 200 раз. Мы сократили необходимость внимания оператора в 200 раз!

Как практичный инструмент видеосемантика стремительно входит в нашу жизнь, и скоро мы станем забывать слово «видеонаблюдение», как забыли «видеомагнитофон». Видеосемантика — это запись смыслов, пусть и понятных только человеку. Но смыслы намного короче и доступнее, нежели весь круглосуточный сюжет, например, как ветер трепал березу.

На правах рекламы

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥