З розвитком цифрових технологій, розпізнавання облич стає невід'ємною складовою сучасних систем безпеки, автентифікації користувачів, автоматизованого контролю доступу та індивідуалізованих сервісів. Прогрес у галузі комп’ютерного зору та глибокого навчання (deep learning), особливо з використанням згорткових нейронних мереж (Convolutional Neutral Network, CNN), відкрив нові можливості для значного покращення точності та ефективності таких систем. Водночас, застосування цих алгоритмів у реальних умовах - зокрема на пристроях із обмеженими ресурсами - вимагає моделей, що поєднують високу швидкодію з достатнім рівнем точності. Одним з ефективних рішень у цьому напрямку є використання трансферного навчання, яке передбачає адаптацію попередньо натренованих нейронних мереж до нових задач і специфічних наборів даних.
У роботі проводилося дослідження ефективності використання трансферного навчання моделі MobileNetV3 [1], попередньо натренованої на наборі даних ImageNet [2], для детектування та розпізнавання осіб за їх обличчям. Слід зазначити, що використання трансферного навчання у згорткових нейронних мережах є досить частим підходом та дозволяє пришвидшити процес за рахунок використання попередніх результатів.
Модель MobileNetV3 оптимізована для детектування об’єктів з розрахунком на обмежені обчислювальні ресурси (як наприклад мобільні пристрої). Структуру даної моделі можна розділити на дві ключові частини, а саме:
1) Екстрактор особливостей (feature extractor). Ця частина моделі складається з кількох шарів, які «згортають» зображення та витягують із нього важливу інформацію. У випадку виявлення обличчя ці шари знаходять характерні риси, наприклад, очі, брови і т.д. Після цього особливості групуються та служать вхідними значеннями для наступних рівнів нейронної мережі.
2) Детектувальна частина, вона складається з двох паралельних блоків, що відповідають за регресію (визначає, де саме на зображенні знаходиться об’єкт) та класифікацію (розпізнавання особи за її обличчям). У таких моделях завжди є два результати: один для позиції об’єкта (регресія), а другий — для його типу (класифікація). Важливо підмітити, що завдяки паралельності цих блоків, стає можливим їх окреме тренування.
Особливість нашого підходу полягала у виконання трансферного навчання у два етапи, а саме:
1) Тренування моделі на детектування обличчя та визначення його положення на фотографії. Для трансферного навчання на першому етапі було використано 5791 тренувальних та 1469 валідаційних фото з відкритого набору даних [3]. Кожне фото містило одне обличчя з відповідною розміткою його положення.
2) Використання моделі, натренованої на попередньому етапі, для навчання моделі розпізнавати особу за обличчям з фотографії. При цьому модель вже навчена детектувати обличчя, тобто приймав участь лише класифікаційний блок. Для цього було використано фотографії 30 студентів Чернівецького національного університету за їх згодою. Загалом на цьому етапі було використано 1624 фотографій для тренування та 406 для валідації.
Як кінцеві моделі з обох етапів було вибрано ті, що давали найкраще передбачення на валідаційному наборі даних, що дозволило значним чином уникнути низької продуктивності на нових даних (overfitting in machine learning).
Метрики ефективності даної моделі (а саме точність розпізнавання особи та час на передбачення) були порівняні з аналогічним дослідженням [4], у якому було використано бібліотеку комп’ютерного зору OpenCV. Для набору даних з фотографіями 30-ти студентів, модель нейронних мереж розпізнає особу з точністю 98,26% (порівняно з 81% для OpenCV), та час підготовки до розпізнавання займає 3,5 хвилини (порівняно з 7 хвилинами для OpenCV).
Результати отримані при проведенні даного дослідження, підтверджують придатність архітектури моделі MobileNetV3 та методики її навчання для побудови системи автоматичного розпізнавання осіб та визначення положення їх лиця на зображенні.
Список літератури:
1. A. Howard, M. Sandler, G. Chu and L.-C. Chen, “Searching for MobileNetV3”.
2. J. Deng et all, "ImageNet: A large-scale hierarchical image database," IEEE, Miami, FL, USA, 2009, pp. 248-255, doi: 10.1109/CVPR.2009.5206848.
3. F. Elmenshawii, "Face-Detection-Dataset," [Online].
Available: https://www.kaggle.com/datasets/fareselmenshawii/face-detection-dataset.
4. Ілащук М., Кушнір І., Мельничук С. Розпізнавання облич в реальному часі за допомогою бібліотеки OpenCV та мови програмування Python. Herald of Khmelnytskyi National University. Technical sciences. 2024. Т. 341, № 5. С. 140–144. URL: https://doi.org/10.31891/2307-5732-2024-341-5-21 (дата звернення: 13.07.2025).
|