Другие журналы
|
Адаптация алгоритма локализации текстовых областей для видеопотока
# 11, ноябрь 2016
DOI: 10.7463/1116.0850126
авторы: Рудаков И. В.1, Ломовской И. В.1, Сёмина В. А.1,*
УДК 004.932.75
| 1 МГТУ им. Н.Э. Баумана, Москва, Россия  |
Данная работа посвящена адаптации алгоритма локализации текстовых областей на изображении для видеоряда. Предложенное решение состоит из двух шагов: выделение ключевых или опорных кадров (фреймов) видео и проведение локализации для отобранных изображений. Поиск опорных кадров проводится с помощью метода, базирующегося на анализе разницы граничной информации фреймов. Для локализации текстовых областей на изображениях взят алгоритм, относящийся к классу гибридных. Такой выбор обусловлен тем, что данная группа алгоритмов способна справляться с тексом различной ориентации, инвариантна к языку текста и предназначена для обработки изображений со сложным фоном. Особое внимание в работе уделяется двум этапам собственно алгоритма локализации текста, а именно: фильтрации регионов и объединению оставшихся областей в пары. Для реализации этих шагов использовались некоторые эвристические правила. Адаптация алгоритма заключается в добавлении двух эвристик для этих этапов с целью улучшения качества обнаружения текстовых областей. Для оценки качества локализации использовались известные метрики (вероятность ошибки первого и второго рода, вероятность потери данных, полнота, точность и f1 - мера). В качестве тестовых данных выступала видео подборка ICDAR 2015. В результате проведения экспериментов было установлено, что предложенное решение справляется с обнаружением текста различного типа шрифта, языка и ориентации, а также способно обрабатывать кадры со сложным фоном. Также было проведено исследование, которое доказало улучшение качества локализации текстовых областей как для видео с простым, так и со сложным фоном, а также для различных его разрешений. Результатом данной работы является адаптированный алгоритм локализации текстовых областей в видеопотоке. Результатом же проведенных исследований является набор рекомендаций относительно значений некоторых эвристик в зависимости от типа шрифта, языка, ориентации текста и сложности фона кадров видеоряда. Перспективным направлением развития работы является добавление новых или модификация уже используемых эвристических правил для сокращения количества ложных срабатываний алгоритма. Список литературы- Dutta A., Pal U., Shivakumara P., Ganduli A., Bandyopadhya A., Tan C.L. Gradient based approach for text detection in video frames. Available at: https://www.comp.nus.edu.sg/~tancl/publications/c2009/ICSIP2009-3.pdf, accessed 17.09.2016.
- Зотин А.Г. Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой. Режим доступа:
http://www.dissercat.com/content/metody-i-algoritmy-obnaruzheniya-nalozhennykh-tekstovykh-simvolov-v-sistemakh-raspoznavaniya (дата обращения 17.09.2016). - Никитин И.К. Обзор методов комплексного ассоциативного поиска видео. Режим доступа:https://www.researchgate.net/publication/274732904_obzor_metodov_kompleksnogo_associativnogo_poiska_video (дата обращения: 17.09.2016).
- Wolf W. Key frame selection by motion analysis // IEEE Intern. Conf. on Acoustics, Speech and Signal Processing: ICASSP’ 96: Proceedings. Wash.: IEEE, 1996. Vol. 2. DOI: 10.1109/ICASSP.1996.543588
- Khushboo Khurana, Chandak M.B. Key frame extraction methodology for video annotation. Available at: https://www.academia.edu/3255959/KEY_FRAME_EXTRACTION_METHODOLOGY_FOR_VIDEO_ANNOTATION, accessed 17.09.2016.
- Фраленко В.П. Локализация текстовых фрагментов на смешанном фоне: краткий научный обзор. Режим доступа:http://psta.psiras.ru/read/psta2014_2_33-45.pdf (дата обращения: 17.09.2016).
- Горьков А. О цветовых пространствах. Режим доступа:https://habrahabr.ru/post/181580/ (дата обращения: 17.09.2016).
- Canny J.A computational approach to edge detection. Available at:https://perso.limsi.fr/vezien/PAPIERS_ACS/canny1986.pdf, accessed 17.09.2016.
- Буй Т.Т.Ч., Спицын В.Г. Анализ методов выделения краев на цифровых изображениях. Режим доступа:http://www.tusur.ru/filearchive/reports-magazine/2010-2-2/221.pdf (дата обращения: 17.09.2016).
- Epstein B., Ofek E., Wexler Y. Detecting text in natural scenes with stroke width transform. Available at: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/1509.pdf, accessed 17.09.2016.
- Connected component labelling. Available at: http://aishack.in/tutorials/connected-component-labelling/, accessed 17.09.2016.
- Троелсен Э. Язык программирования C# 5.0 и платформа .NET 4.5. 6- е изд . М .: Вильямс , 2013. 1312 с . [Troelsen A. Pro C#5.0 and the .NET 4.5 framework. 6thed. Berk .: Acad . Press, 2012. 1312 p. ]
- .NET: Develop high performance application in less time, on any platform. Available at:https://www.microsoft.com/net/, accessed 17.09.2016.
- Open CV: Open source computer vision. Available at: http://opencv.org/, accessed 17.09.2016.
- Main page: Emgu CV. Available at: http://www.emgu.com/wiki/index.php/Main_Page, accessed 17.09.2016.
- F1 score. Available at: https://en.wikipedia.org/wiki/F1_score, accessed 17.09.2016.
- ICDAR 2015. Robust reading competition. Available at: http://rrc.cvc.uab.es/?ch=3&com=introduction, accessed 17.02.2016.
- Рукописные шрифты. Режим доступа:http://www.fonts-online.ru/fonts/handwritten (дата обращения: 17.09.2016).
- Наглядная классификация шрифтов. Режим доступа:http://infogra.ru/typography/naglyadnaya-klassifikatsiya-shriftov (дата обращения: 17.09.2016).
- Классификация [шрифтов]. Режим доступа:http://www.paratype.ru/help/class/ (дата обращения: 17.09.2016).
- Список наиболее распространенных языков. Режим доступа:https://ru.wikipedia.org/wiki/Список_наиболее_распространённых_языков (дата обращения: 17.09.2016).
Публикации с ключевыми словами:
видео, эвристики, локализация текста, ключевые кадры, выделение границ изображения, ширина штриха, Emgu CV
Публикации со словами:
видео, эвристики, локализация текста, ключевые кадры, выделение границ изображения, ширина штриха, Emgu CV
Смотри также:
|
|