Другие журналы

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ

Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211.  ISSN 1994-0408

Сверточное разреженное представление изображений для анализа статических и динамических образов

# 11, ноябрь 2014
DOI: 10.7463/1114.0730860
Файл статьи: SE-BMSTU...o695.pdf (2213.07Кб)
авторы: Князев Б. А., Черненький В. М.

УДК 004.93+004.85

Россия,  МГТУ им. Н.Э. Баумана

Целью работы является повышение эффективности классификации статических и динамических образов. Для этого предлагается новая модель представления изображений и алгоритма преобразования. Проанализированы и показаны недостатки предыдущих методов, которые не позволяют выполнить данную цель. Основное внимание уделяется статическим изображениям, а именно, рукописным цифрам выборки MNIST. Тем не менее, также предлагаются предварительные качественные данные анализа последовательностей изображений на основе разработанной модели.
Приводится описание обобщенной аналитической функции Габора, часто использующейся для генерации фильтров. В данном исследовании оно необходимо для вычисления параметров откликов, возвращаемых предлагаемым алгоритмом. Вводится рекурсивный оператор свертки, позволяющий извлекать произвольные особенности визуальных образов. Разработанная параметрическая модель сравнивается с разреженным представлением на основе минимизации энергетической функции.
В экспериментальной части определяются ошибки вычисления параметров откликов, а также статистика параметров и их корреляционные коэффициенты для более 106 откликов, извлеченных из базы MNIST. Показано, что полученные данные согласуются с предыдущими исследованиями фильтров Габора, а также с исследованиями клеток зрительной коры млекопитающих, в которых наблюдаются схожие отклики. Проведено сравнительное тестирование производительности и точности разработанной модели при классификации изображений рукописных цифр с тремя другими подходами. Для классификации изображений и их представлений применялся метод опорных векторов с линейной или радиально базисной функцией ядра, а для подготовки данных для него в некоторых случаях использовался метод главных компонент. Ввиду особенностей комбинации разработанной модели и SVM не удалось получить высокую точность классификации (ошибка 3,99%). Однако был усовершенствован другой подход на основе фильтров Габора и локального оператора минимума-максимума. Сконструированы составные фильтры и подобраны оптимальные параметра метода, в результате чего достигнута высокая точность (ошибка 0,60%). Точность метода может быть далее улучшена, в том числе за счет статистики параметров, полученной на основе разработанного алгоритма.

Статья подготовлена в рамках выполнения государственного задания № 2014/104.

Список литературы
  1. Olshausen B., Field D. Emergence of simple-cell receptive field properties by learning a sparse code for natural images // Nature. 1996. No. 381 (6583). P. 607-609. DOI:10.1038/381607a0
  2. Baccouche M., Mamalet F., Wolf C., Garcia C., Baskurt A. Spatio-Temporal Convolutional Sparse Auto-Encoder for Sequence Classification // In: Proc. British Machine Vision Conference. University of Surrey, Guildford, United Kingdom, 2012, Vol. 18, no. 5-6.
  3. Daugman J.G. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters // Journal of the Optical Society of America A. 1985. Vol. 2, no. 7. P. 1160-1169.
  4. Petkov N. Biologically motivated computationally intensive approaches to image pattern recognition // Future Generation Computer Systems. 1995. Vol. 11, iss. 4-5. P. 451-465. DOI: 10.1016/0167-739X(95)00015-K
  5. Ranzato M., Fu Jie Huang, Boureau Y.-L., LeCun Y. Unsupervised Learning of Invariant Feature Hierarchies with Applications to Object Recognition // IEEE Conference on Computer Vision and Pattern Recognition (CVPR’07). IEEE, 2007. P. 1-8. DOI: 10.1109/CVPR.2007.383157
  6. Kavukcuoglu K. Learning Feature Hierarchies for Object Recognition. Ph.D. Dissertation. New York University, New York, NY, USA, 2010.
  7. Labusch K., Barth E., Martinetz T. Simple Method for High-Performance Digit Recognition Based on Sparse Coding // IEEE Transactions on Neural Networks. 2008. Vol. 19, no. 11. P. 1985-1989. DOI: 10.1109/TNN.2008.2005830
  8. Raina R., Battle A., Lee H., Packer B., Y. Ng A. Self-taught learning: transfer learning from unlabeled data // In: Proceedings of the 24th International Conference on Machine Learning (ICML '07). ACM, New York, NY, USA, 2007. P. 759-766. DOI: 10.1145/1273496.1273592
  9. Gregor K., LeCun Y. Emergence of Complex-Like Cells in a Temporal Product Network with Local Receptive Fields // arXiv.org, 2010. Art. no. arXiv:1006.0448
  10. Bristow H., Eriksson A., Lucey S. Fast Convolutional Sparse Coding // 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR '13). IEEE Computer Society, Washington, DC, USA, 2013. P. 391-398. DOI: 10.1109/CVPR.2013.57
  11. LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. Vol. 86, no. 11. P. 2278-2324. DOI: 10.1109/5.726791
  12. Cireşan D., Meier U., Schmidhuber J. Multi-column Deep Neural Networks for Image Classification // 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR’12). IEEE, 2012. P. 3642-3649. DOI: 10.1109/CVPR.2012.6248110
  13. Bruna J., Mallat S. Invariant Scattering Convolution Networks // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013. Vol. 35, iss. 8. P. 1872-1886. DOI: 10.1109/TPAMI.2012.230
  14. Mairal J., Koniusz P., Harchaoui Z., Schmid C. Convolutional Kernel Network // arXiv.org, 2014. Art. no. arXiv:1406.3332
  15. Hinton G.E., Osindero S., Teh Y.-W. A Fast Learning Algorithm for Deep Belief Nets // Neural Computation. 2006. Vol . 18, no . 7. P . 1527-1554. DOI : 10.1162/neco.2006.18.7.152
  16. Трубаков А.О. Методы и алгоритмы многомерного моделирования пространства характеристик изображений: дис. … канд. техн. наук. Брянск, 2011. 214 с.
  17. Сафронов К.В. Иерархический итерационный метод распознавания объектов на основе анализа многомерных данных: дис. … канд. техн. наук. Уфа, 2008. 164 с.
  18. Bishop C.M. Pattern Recognition and Machine Learning. Berlin: Springer, 2006. 738 p. (Ser. Information Science and Statistics).
  19. Конспект лекции «Уменьшение размерности описания данных: метод главных компонент» по курсу «Математические основы теории прогнозирования» // MachineLearning.ru : информационно-аналитический ресурс по машинному обучению, распознаванию образов и интеллектуальному анализу данных, 2011. Режим доступа:http://www.machinelearning.ru/wiki/images/a/a4/MOTP11_5.pdf (дата обращения 02.10.2014).
  20. Viola P., Jones M. Rapid object detection using a boosted cascade of simple features // 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’01). Vol. 1. IEEE, 2001. P. 511-518. DOI:10.1109/CVPR.2001.990517
  21. Нехина А.А., Князев Б.А., Кашапова Л.Х., Спиридонов И.Н. Использование онтологической модели знаний и программных средств сенсора Kinect описания позирования человека // Биомедицинская радиоэлектроника. 2012. № 12 . С. 54-60.
  22. Князев Б.А., Нехина А.А. Исследование и разработка мультиагентного аппаратно-программного комплекса распознавания позы человека // Инженерный вестник. 2013. № 7. С. 523-538. Режим доступа:http://engbul.bmstu.ru/doc/598836.html (дата обращения 01.10.2014).
  23. Hamm J., Kohler C.G., Gur R.C., Verma R. Automated facial action coding system for dynamic analysis of facial expressions in neuropsychiatric disorders // Journal of Neuroscience Methods. 2011. Vol . 200, no . 2. P . 237-256.
  24. Князев Б.А., Гапанюк Ю.Е. Распознавание аномального поведения человека по его эмоциональному состоянию и уровню напряженности с использованием экспертных правил // Инженерный вестник. 2013. № 3. С. 509-524. Режим доступа:http://engbul.bmstu.ru/doc/568250.html (дата обращения 01.10.2014).
  25. Князев Б.А., Черненький В.М. Методика и модель кластеризации паттернов двигательной активности лица как преобразований метаграфов // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2014. № 4. С. 34-54.
  26. Кашапова Л.Х., Латышева Е.Ю., Спиридонов И.Н. Алгоритм распознавания эмоционального состояния по изображениям лица с использованием дискриминантного анализа и фильтров Габора // Медицинская техника. 2012. № 3 . С . 1-4.
  27. Solmaz B., Assari S. M., Shah M. Classifying Web Videos using a Global Video Descriptor // Machine Vision and Applications (MVA). 2013. Vol. 24, no. 7. P. 1473-1485.
  28. Lindeberg T. A computational theory of visual receptive fields // Biological Cybernetics. 2013. Vol.107, iss. 6. P. 589-635. DOI:10.1007/s00422-013-0569-z
  29. Самаль Д. М. Алгоритмы идентификации человека по фотопортрету на основе геометрических преобразований: дис. … канд. техн. наук. Минск , 2002. 167 с .
  30. Cortes C., Vapnik V. Support-Vector Networks // Machine Learning. 1995. Vol. 20, no. 3. P. 273-297. DOI: 10.1007/BF00994018
  31. Chang C.-C., Lin C.-J. LIBSVM: A library for support vector machines // ACM Transactions on Intelligent Systems and Technology. 2011. Vol. 2, iss. 3. Article no. 27. DOI: 10.1145/1961189.1961199
Поделиться:
 
ПОИСК
 
elibrary crossref ulrichsweb neicon rusycon
 
ЮБИЛЕИ
ФОТОРЕПОРТАЖИ
 
СОБЫТИЯ
 
НОВОСТНАЯ ЛЕНТА



Авторы
Пресс-релизы
Библиотека
Конференции
Выставки
О проекте
Rambler's Top100
Телефон: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)
  RSS
© 2003-2019 «Наука и образование»
Перепечатка материалов журнала без согласования с редакцией запрещена
 Тел.: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)