Курган, городище, аномалия или ничего: как учить нейросети для конкурса «Экспедиция. Data Science»
Идёт приём заявок на КОЗ №2 «Сканирование». Задача участников: создать ИИ-решение, которое сможет находить археологические объекты в рельефе и под землёй по данным от разных сенсоров.
Чем больше у нейросети видов информации, тем больше шансов найти закономерности, незаметные для людей. Поэтому организаторы подготовили массив из лидарных данных, аэрофотосъёмки, магнитометрии и не только. Для анализа такой ценного, но разрозненного объёма, нужен целый комплекс технологий.
Какие инструменты в руках участников, а также какие подходы в приоритете для лучшего результата — рассказывают наши коллеги — эксперты по работе с данными (Data Science).
- Сегментационные модели U-Net/DeepLab
Специализированные узкие архитектуры, могут точно определить форму фундамента или рва. Однако ошибутся, если объект не похож на выборку, поэтому для обучения нужно много данных. Идеальны для магнитометрии и лидарных точек.
- Модель обнаружения объектов YOLO
Быстро ищет тысячи объектов, но задаёт грубые границы и захватывает много фона. Найдёт все потенциальные курганы на спутниковом снимке города, чтобы ничего не упустить. Лучший выбор для скоростного «поиска кандидатов».
- Универсальная модель сегментации (SAM)
Обучена на миллиардах изображений всего на свете и может идентифицировать почти любой объект. При этом училась на массе «лишних» данных и требует больших мощностей. Идеально уточняет границ найденных объектов.
- Мультимодальные модели (VLM)
Например, GPT-4o или Gemini. Понимают и картинки, и текст. По текстовому запросу найдут курганы и объяснят свои решения, но склонны выдумывать объекты и плохо работают с гео-форматом TIFF. Пока не пригодны для потоковой обработки.
А как объединить данные для верных итоговых решений? Вот главные подходы.
1. Раннее слияние
Взять аэрофото, точки лидара и магнитометрию — и выровнять, чтобы 1 пиксель на всех картах был «равен» одной и той же точке на земле. Модель сразу увидит корреляции: горячо и высоко — значит курган. Требует идеального выравнивания и подходит для данных, которые можно привести к одной сетке.
2. Глубокое слияние
Несколько нейросетей работают каждая над своим типом данных. Например, одна извлекает признаки текстуры из аэрофото, другая добывает геометрию из облаков точек лидара. В середине сети векторы признаков смешиваются, а модель выдаёт надёжный результат. Лучшее из обоих миров, но сложно обучать.
3. Позднее слияние
Несколько независимых моделей изучают разные типы данных и оценивают вероятность объекта. Решение принимают по средней арифметической. Подход игнорирует сложные связи, но уместен, когда данные приходят из разных источников в разное время.
Мы видим лучший исход в первых двух подходах. А что выберут команды конкурса — покажет время.
Подайте заявку на участие на платформе конкурса!








