О журнале
Редакционная политика
Редколлегия
Специальности
Авторам
Партнеры
Контакты

05.02.00 Машиностроение и машиноведение
05.07.00 Авиационная и ракетно-космическая техника
05.11.00 Приборостроение, метрология и информационно-измерительные приборы и системы
05.13.00 Информатика, вычислительная техника и управление
01.02.00 Механика

Приложение к журналу

Общие проблемы инженерного образования
Инженер в современной России
Зарубежное образование
История технического прогресса
Будущий инженер

Ключевые слова
Аннотации
Архив рубрик

регистрация
забыли пароль?

Другие журналы

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ

Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211. ISSN 1994-0408

Адаптация алгоритма локализации текстовых областей для видеопотока

# 11, ноябрь 2016
DOI: 10.7463/1116.0850126

Файл статьи:

SE-BMSTU...o112.pdf (1321.79Кб)

авторы: Рудаков И. В.¹, Ломовской И. В.¹, Сёмина В. А.^1,*

УДК 004.932.75

¹ МГТУ им. Н.Э. Баумана, Москва, Россия

Данная работа посвящена адаптации алгоритма локализации текстовых областей на изображении для видеоряда. Предложенное решение состоит из двух шагов: выделение ключевых или опорных кадров (фреймов) видео и проведение локализации для отобранных изображений. Поиск опорных кадров проводится с помощью метода, базирующегося на анализе разницы граничной информации фреймов. Для локализации текстовых областей на изображениях взят алгоритм, относящийся к классу гибридных. Такой выбор обусловлен тем, что данная группа алгоритмов способна справляться с тексом различной ориентации, инвариантна к языку текста и предназначена для обработки изображений со сложным фоном.
Особое внимание в работе уделяется двум этапам собственно алгоритма локализации текста, а именно: фильтрации регионов и объединению оставшихся областей в пары. Для реализации этих шагов использовались некоторые эвристические правила. Адаптация алгоритма заключается в добавлении двух эвристик для этих этапов с целью улучшения качества обнаружения текстовых областей.
Для оценки качества локализации использовались известные метрики (вероятность ошибки первого и второго рода, вероятность потери данных, полнота, точность и f1 - мера). В качестве тестовых данных выступала видео подборка ICDAR 2015. В результате проведения экспериментов было установлено, что предложенное решение справляется с обнаружением текста различного типа шрифта, языка и ориентации, а также способно обрабатывать кадры со сложным фоном. Также было проведено исследование, которое доказало улучшение качества локализации текстовых областей как для видео с простым, так и со сложным фоном, а также для различных его разрешений.
Результатом данной работы является адаптированный алгоритм локализации текстовых областей в видеопотоке.
Результатом же проведенных исследований является набор рекомендаций относительно значений некоторых эвристик в зависимости от типа шрифта, языка, ориентации текста и сложности фона кадров видеоряда.
Перспективным направлением развития работы является добавление новых или модификация уже используемых эвристических правил для сокращения количества ложных срабатываний алгоритма.

Список литературы

Dutta A., Pal U., Shivakumara P., Ganduli A., Bandyopadhya A., Tan C.L. Gradient based approach for text detection in video frames. Available at: https://www.comp.nus.edu.sg/~tancl/publications/c2009/ICSIP2009-3.pdf, accessed 17.09.2016.
Зотин А.Г. Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой. Режим доступа:
http://www.dissercat.com/content/metody-i-algoritmy-obnaruzheniya-nalozhennykh-tekstovykh-simvolov-v-sistemakh-raspoznavaniya (дата обращения 17.09.2016).
Никитин И.К. Обзор методов комплексного ассоциативного поиска видео. Режим доступа:https://www.researchgate.net/publication/274732904_obzor_metodov_kompleksnogo_associativnogo_poiska_video (дата обращения: 17.09.2016).
Wolf W. Key frame selection by motion analysis // IEEE Intern. Conf. on Acoustics, Speech and Signal Processing: ICASSP’ 96: Proceedings. Wash.: IEEE, 1996. Vol. 2. DOI: 10.1109/ICASSP.1996.543588
Khushboo Khurana, Chandak M.B. Key frame extraction methodology for video annotation. Available at: https://www.academia.edu/3255959/KEY_FRAME_EXTRACTION_METHODOLOGY_FOR_VIDEO_ANNOTATION, accessed 17.09.2016.
Фраленко В.П. Локализация текстовых фрагментов на смешанном фоне: краткий научный обзор. Режим доступа:http://psta.psiras.ru/read/psta2014_2_33-45.pdf (дата обращения: 17.09.2016).
Горьков А. О цветовых пространствах. Режим доступа:https://habrahabr.ru/post/181580/ (дата обращения: 17.09.2016).
Canny J.A computational approach to edge detection. Available at:https://perso.limsi.fr/vezien/PAPIERS_ACS/canny1986.pdf, accessed 17.09.2016.
Буй Т.Т.Ч., Спицын В.Г. Анализ методов выделения краев на цифровых изображениях. Режим доступа:http://www.tusur.ru/filearchive/reports-magazine/2010-2-2/221.pdf (дата обращения: 17.09.2016).
Epstein B., Ofek E., Wexler Y. Detecting text in natural scenes with stroke width transform. Available at: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/1509.pdf, accessed 17.09.2016.
Connected component labelling. Available at: http://aishack.in/tutorials/connected-component-labelling/, accessed 17.09.2016.
Троелсен Э. Язык программирования C# 5.0 и платформа .NET 4.5. 6- е изд . М .: Вильямс , 2013. 1312 с . [Troelsen A. Pro C#5.0 and the .NET 4.5 framework. 6^thed. Berk .: Acad . Press, 2012. 1312 p. ]
.NET: Develop high performance application in less time, on any platform. Available at:https://www.microsoft.com/net/, accessed 17.09.2016.
Open CV: Open source computer vision. Available at: http://opencv.org/, accessed 17.09.2016.
Main page: Emgu CV. Available at: http://www.emgu.com/wiki/index.php/Main_Page, accessed 17.09.2016.
F1 score. Available at: https://en.wikipedia.org/wiki/F1_score, accessed 17.09.2016.
ICDAR 2015. Robust reading competition. Available at: http://rrc.cvc.uab.es/?ch=3&com=introduction, accessed 17.02.2016.
Рукописные шрифты. Режим доступа:http://www.fonts-online.ru/fonts/handwritten (дата обращения: 17.09.2016).
Наглядная классификация шрифтов. Режим доступа:http://infogra.ru/typography/naglyadnaya-klassifikatsiya-shriftov (дата обращения: 17.09.2016).
Классификация [шрифтов]. Режим доступа:http://www.paratype.ru/help/class/ (дата обращения: 17.09.2016).
Список наиболее распространенных языков. Режим доступа:https://ru.wikipedia.org/wiki/Список_наиболее_распространённых_языков (дата обращения: 17.09.2016).

Публикации с ключевыми словами: видео, эвристики, локализация текста, ключевые кадры, выделение границ изображения, ширина штриха, Emgu CV
Публикации со словами: видео, эвристики, локализация текста, ключевые кадры, выделение границ изображения, ширина штриха, Emgu CV
Смотри также:

Тематические рубрики:

05.13.00 Информатика, вычислительная техника и управление

Поделиться:

Расширеный поиск

Подписаться на новости

ЮБИЛЕИ

14 января 2017 год. Камышная Э.Н., доцент кафедры ИУ-4 МГТУ им. Н.Э.Баумана

29 января 2016 год Шахнов В.А., член-корреспондент РАН, д.т.н., профессор МГТУ им. Н.Э.Баумана

ФОТОРЕПОРТАЖИ

СОБЫТИЯ

Всероссийская олимпиада студентов «Я — профессионал» 2022

Юбилейный, V сезон всероссийской олимпиады студентов «Я – профессионал» запущен!

НОВОСТНАЯ ЛЕНТА

26.05.2022
Всероссийская олимпиада студентов «Я — профессионал»

15.06.2018
Искусcтвенный интеллект научит горожан экономить время

19.01.2017
На сайте ВАК размещена справочная информация об изданиях, входящих в международные реферативные базы данных и системы цитирования

4.01.2017
На сайте ВАК размещена обновленная информация, о перечне рецензируемых научных изданий

19.12.2016
В МГТУ им.Н.Э.Баумана состоялся региональный этап Всероссийского Конкурса «IT-Прорыв»

Телефон: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)

RSS

© 2003-2024 «Наука и образование»
Перепечатка материалов журнала без согласования с редакцией запрещена
Тел.: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)