Другие журналы
|
Сверточное разреженное представление изображений для анализа статических и динамических образов
# 11, ноябрь 2014
DOI: 10.7463/1114.0730860
авторы: Князев Б. А., Черненький В. М.
УДК 004.93+004.85
| Россия, МГТУ им. Н.Э. Баумана  |
Целью работы является повышение эффективности классификации статических и динамических образов. Для этого предлагается новая модель представления изображений и алгоритма преобразования. Проанализированы и показаны недостатки предыдущих методов, которые не позволяют выполнить данную цель. Основное внимание уделяется статическим изображениям, а именно, рукописным цифрам выборки MNIST. Тем не менее, также предлагаются предварительные качественные данные анализа последовательностей изображений на основе разработанной модели. Приводится описание обобщенной аналитической функции Габора, часто использующейся для генерации фильтров. В данном исследовании оно необходимо для вычисления параметров откликов, возвращаемых предлагаемым алгоритмом. Вводится рекурсивный оператор свертки, позволяющий извлекать произвольные особенности визуальных образов. Разработанная параметрическая модель сравнивается с разреженным представлением на основе минимизации энергетической функции. В экспериментальной части определяются ошибки вычисления параметров откликов, а также статистика параметров и их корреляционные коэффициенты для более 106 откликов, извлеченных из базы MNIST. Показано, что полученные данные согласуются с предыдущими исследованиями фильтров Габора, а также с исследованиями клеток зрительной коры млекопитающих, в которых наблюдаются схожие отклики. Проведено сравнительное тестирование производительности и точности разработанной модели при классификации изображений рукописных цифр с тремя другими подходами. Для классификации изображений и их представлений применялся метод опорных векторов с линейной или радиально базисной функцией ядра, а для подготовки данных для него в некоторых случаях использовался метод главных компонент. Ввиду особенностей комбинации разработанной модели и SVM не удалось получить высокую точность классификации (ошибка 3,99%). Однако был усовершенствован другой подход на основе фильтров Габора и локального оператора минимума-максимума. Сконструированы составные фильтры и подобраны оптимальные параметра метода, в результате чего достигнута высокая точность (ошибка 0,60%). Точность метода может быть далее улучшена, в том числе за счет статистики параметров, полученной на основе разработанного алгоритма. Статья подготовлена в рамках выполнения государственного задания № 2014/104. Список литературы- Olshausen B., Field D. Emergence of simple-cell receptive field properties by learning a sparse code for natural images // Nature. 1996. No. 381 (6583). P. 607-609. DOI:10.1038/381607a0
- Baccouche M., Mamalet F., Wolf C., Garcia C., Baskurt A. Spatio-Temporal Convolutional Sparse Auto-Encoder for Sequence Classification // In: Proc. British Machine Vision Conference. University of Surrey, Guildford, United Kingdom, 2012, Vol. 18, no. 5-6.
- Daugman J.G. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters // Journal of the Optical Society of America A. 1985. Vol. 2, no. 7. P. 1160-1169.
- Petkov N. Biologically motivated computationally intensive approaches to image pattern recognition // Future Generation Computer Systems. 1995. Vol. 11, iss. 4-5. P. 451-465. DOI: 10.1016/0167-739X(95)00015-K
- Ranzato M., Fu Jie Huang, Boureau Y.-L., LeCun Y. Unsupervised Learning of Invariant Feature Hierarchies with Applications to Object Recognition // IEEE Conference on Computer Vision and Pattern Recognition (CVPR’07). IEEE, 2007. P. 1-8. DOI: 10.1109/CVPR.2007.383157
- Kavukcuoglu K. Learning Feature Hierarchies for Object Recognition. Ph.D. Dissertation. New York University, New York, NY, USA, 2010.
- Labusch K., Barth E., Martinetz T. Simple Method for High-Performance Digit Recognition Based on Sparse Coding // IEEE Transactions on Neural Networks. 2008. Vol. 19, no. 11. P. 1985-1989. DOI: 10.1109/TNN.2008.2005830
- Raina R., Battle A., Lee H., Packer B., Y. Ng A. Self-taught learning: transfer learning from unlabeled data // In: Proceedings of the 24th International Conference on Machine Learning (ICML '07). ACM, New York, NY, USA, 2007. P. 759-766. DOI: 10.1145/1273496.1273592
- Gregor K., LeCun Y. Emergence of Complex-Like Cells in a Temporal Product Network with Local Receptive Fields // arXiv.org, 2010. Art. no. arXiv:1006.0448
- Bristow H., Eriksson A., Lucey S. Fast Convolutional Sparse Coding // 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR '13). IEEE Computer Society, Washington, DC, USA, 2013. P. 391-398. DOI: 10.1109/CVPR.2013.57
- LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. Vol. 86, no. 11. P. 2278-2324. DOI: 10.1109/5.726791
- Cireşan D., Meier U., Schmidhuber J. Multi-column Deep Neural Networks for Image Classification // 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR’12). IEEE, 2012. P. 3642-3649. DOI: 10.1109/CVPR.2012.6248110
- Bruna J., Mallat S. Invariant Scattering Convolution Networks // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013. Vol. 35, iss. 8. P. 1872-1886. DOI: 10.1109/TPAMI.2012.230
- Mairal J., Koniusz P., Harchaoui Z., Schmid C. Convolutional Kernel Network // arXiv.org, 2014. Art. no. arXiv:1406.3332
- Hinton G.E., Osindero S., Teh Y.-W. A Fast Learning Algorithm for Deep Belief Nets // Neural Computation. 2006. Vol . 18, no . 7. P . 1527-1554. DOI : 10.1162/neco.2006.18.7.152
- Трубаков А.О. Методы и алгоритмы многомерного моделирования пространства характеристик изображений: дис. … канд. техн. наук. Брянск, 2011. 214 с.
- Сафронов К.В. Иерархический итерационный метод распознавания объектов на основе анализа многомерных данных: дис. … канд. техн. наук. Уфа, 2008. 164 с.
- Bishop C.M. Pattern Recognition and Machine Learning. Berlin: Springer, 2006. 738 p. (Ser. Information Science and Statistics).
- Конспект лекции «Уменьшение размерности описания данных: метод главных компонент» по курсу «Математические основы теории прогнозирования» // MachineLearning.ru : информационно-аналитический ресурс по машинному обучению, распознаванию образов и интеллектуальному анализу данных, 2011. Режим доступа:http://www.machinelearning.ru/wiki/images/a/a4/MOTP11_5.pdf (дата обращения 02.10.2014).
- Viola P., Jones M. Rapid object detection using a boosted cascade of simple features // 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’01). Vol. 1. IEEE, 2001. P. 511-518. DOI:10.1109/CVPR.2001.990517
- Нехина А.А., Князев Б.А., Кашапова Л.Х., Спиридонов И.Н. Использование онтологической модели знаний и программных средств сенсора Kinect описания позирования человека // Биомедицинская радиоэлектроника. 2012. № 12 . С. 54-60.
- Князев Б.А., Нехина А.А. Исследование и разработка мультиагентного аппаратно-программного комплекса распознавания позы человека // Инженерный вестник. 2013. № 7. С. 523-538. Режим доступа:http://engbul.bmstu.ru/doc/598836.html (дата обращения 01.10.2014).
- Hamm J., Kohler C.G., Gur R.C., Verma R. Automated facial action coding system for dynamic analysis of facial expressions in neuropsychiatric disorders // Journal of Neuroscience Methods. 2011. Vol . 200, no . 2. P . 237-256.
- Князев Б.А., Гапанюк Ю.Е. Распознавание аномального поведения человека по его эмоциональному состоянию и уровню напряженности с использованием экспертных правил // Инженерный вестник. 2013. № 3. С. 509-524. Режим доступа:http://engbul.bmstu.ru/doc/568250.html (дата обращения 01.10.2014).
- Князев Б.А., Черненький В.М. Методика и модель кластеризации паттернов двигательной активности лица как преобразований метаграфов // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2014. № 4. С. 34-54.
- Кашапова Л.Х., Латышева Е.Ю., Спиридонов И.Н. Алгоритм распознавания эмоционального состояния по изображениям лица с использованием дискриминантного анализа и фильтров Габора // Медицинская техника. 2012. № 3 . С . 1-4.
- Solmaz B., Assari S. M., Shah M. Classifying Web Videos using a Global Video Descriptor // Machine Vision and Applications (MVA). 2013. Vol. 24, no. 7. P. 1473-1485.
- Lindeberg T. A computational theory of visual receptive fields // Biological Cybernetics. 2013. Vol.107, iss. 6. P. 589-635. DOI:10.1007/s00422-013-0569-z
- Самаль Д. М. Алгоритмы идентификации человека по фотопортрету на основе геометрических преобразований: дис. … канд. техн. наук. Минск , 2002. 167 с .
- Cortes C., Vapnik V. Support-Vector Networks // Machine Learning. 1995. Vol. 20, no. 3. P. 273-297. DOI: 10.1007/BF00994018
- Chang C.-C., Lin C.-J. LIBSVM: A library for support vector machines // ACM Transactions on Intelligent Systems and Technology. 2011. Vol. 2, iss. 3. Article no. 27. DOI: 10.1145/1961189.1961199
Публикации с ключевыми словами:
фильтры, свертка, Габор, параметрическое представление, разреженное представление, метод опорных векторов, рукописные цифры
Публикации со словами:
фильтры, свертка, Габор, параметрическое представление, разреженное представление, метод опорных векторов, рукописные цифры
Смотри также:
|
|