Russian Federation
from 01.09.1988 until now Voronezh State University of Forestry and Technologies named after G.F. Mo-rozov
The paper discusses the main methods of digitizing archival geological maps, their main advantages and disadvantages. The process of processing images of the geological map of each digitization method is described.
geological map, manual digitization method, semi-automatic digitization method, automatic digitization method, vectorization, geoinformation systems, neural network
С каждым днем объем геологических данных стремительно растет, в том числе за счет сохраненных в архивах старых геологических карт. Эти карты содержат ценную информацию о геологической структуре и ресурсах земной коры, однако их использование и анализ требуют трудоемких процессов оцифровки и интерпретации.
Оцифровка любого картографического материала, в частности архивных геологических карт, состоит из следующих этапов:
- Наличие исходных данных. Основой для создания цифрового картографического материала (ЦКМ) служат старые архивные материалы с изображением топографического плана. Это могут быть планшеты на жесткой основе (фанера или алюминиевые пластины), на кальке или лавсановой плёнке вычерченные тушью, а также бумажные копии выполненные в электронном виде.
- Сканирование. Для того чтобы перевести в электронный вид (оцифровать) картографический материал, используется сканер или цифровая фотокамера с высоким разрешением. В процессе сканирования (фотографирования) получается массив точек в виде растрового изображения, который будет служить основой (подложкой) для создания ЦКМ.
- Привязка растрового изображения. Процесс, при котором растровое изображение соотносится с географическими координатами.
- Обработка растрового изображения. Все действия, производимые на данном этапе, направлены на улучшение изображения, сохранение детализации и подготовку масок (слоев с однотипной информацией) для распознавания на них объектов
- Векторизация. Это процесс преобразования растровых изображений в векторное представление, использующее набор кривых и точек для более точного описания изображения. В процессе векторизации к каждому объекту, оцифрованному на карте, добавляются соответствующие атрибуты (название, классификация, значения и т. д.); присваиваются географические координаты объектам на карте для определения их местоположения на земной поверхности.
- Корректировка. В завершающем этапе производится анализ на соответствие реальным географическим данным и коррекция возможных ошибок.
Основные методы векторизации картографического материала в геоинформационных системах (ГИС)
Ручной метод оцифровки на сегодняшний день можно отнести к традиционным методам (наряду со сканированием), но несмотря на появление новых методик, данный метод не потерял своей актуальности. Суть данного метода заключается в том, что каждый этап оцифровки от сканирования до векторизации и экспорта в нужный формат осуществляется с участием человека (оператора). Стоит отдельно пояснить некоторые этапы оцифровки в ручном режиме.
Импорт растрового изображения после его сканирования осуществляется вручную в специальную программу для векторизации.
Привязка растрового изображения геологической карты осуществляется путем выбора нужной системы координат и привязкой углов карты и её центральной точки. Геологическая карта чаще всего уже разбита сеткой координат с указанием долготы и широты, а также специальной номенклатурой, кодировка которой указывает её территориальное расположение.
На бумажных носителях часто встречаются дефекты в виде потертостей, пятен и других дефектов, затрудняющих автоматическое распознавание. Для улучшения изображений применяются различного рода встроенные в ПО фильтры (фильтр увеличения резкости, бикубическая интерполяция, гистограммное выравнивание и др.), которые оператор применяет по своему усмотрению.
В общем случае векторизация растрового изображения в ручном режиме осуществляется посредством расстановки точек или отрезков на карте, совмещая их с видимыми объектами.
Достоинства ручного метода оцифровки:
- высокое качество: возможность более тщательной и точной обработки изображений;
- гибкость и креативность: возможность внесения различных коррекций и улучшений в процессе обработки;
- сохранение деталей: способность сохранять детали и особенности изображения при оцифровке;
- контроль над процессом: возможность контроля каждого этапа оцифровки.
Недостатки ручного метода оцифровки:
- времязатратность: требуется больше времени на обработку каждого изображения;
- высокая стоимость: затраты на оплату труда специалистов, занимающихся ручной оцифровкой;
- неэффективность для больших объемов: при большом количестве материалов ручной метод может быть неэффективен и неудобен.
Полуавтоматический метод оцифровки – процесс, который включает человеческое вмешательство для помощи системе в распознавании и преобразовании данных. Вот общий процесс полуавтоматической оцифровки:
- предобработка данных: подготовленные изображения или данные проходят предварительную обработку, включающую коррекцию искажений, устранение шума и другие техники для улучшения качества.
- Интерактивная сегментация: пользователь или оператор взаимодействует с системой для пометки ключевых областей, объектов или контуров на изображении, помогая системе определить структуру данных.
- Частичное распознавание: система использует комбинацию алгоритмов автоматического распознавания и пользовательских меток для выделения и идентификации объектов на изображении.
- Ручная коррекция и добавление информации: пользователь вручную корректирует и дополняет обработанные данные (атрибуты) там, где системе сложно правильно распознать или векторизовать объекты.
- При полуавтоматической векторизации или интерактивной – часть операций производится автоматически. Так, например, при векторизации горизонталей достаточно задать начальную точку и направление отслеживания линий, далее векторизатор сам отследит эту линию до тех пор, пока на его пути не встретятся неопределенные ситуации, типа разрыва линии. Возможности интерактивной векторизации прямо связаны с качеством исходного материала и сложностью карты
Достоинства полуавтоматического метода оцифровки:
- высокая точность: участие человека позволяет исправить ошибки, которые могут возникнуть в процессе автоматической обработки, повышая общую точность оцифровки;
- гибкость и адаптивность: человеческое вмешательство позволяет легко адаптировать процесс оцифровки под конкретные требования и особенности данных;
- экономия времени: автоматические методы могут значительно сократить время обработки, и человеческое вмешательство используется там, где это действительно необходимо;
- улучшение качества данных: при полуавтоматическом методе возможно проведение дополнительных проверок и исправлений, что способствует повышению качества оцифрованных данных.
Недостатки полуавтоматического метода оцифровки:
- затраты на человеческий ресурс: участие человека в процессе оцифровки может потребовать значительных затрат времени и ресурсов;
- субъективность и ошибки человеческого фактора: вмешательство человека может привести к человеческим ошибкам или субъективным оценкам, что может повлиять на качество и объективность оцифрованных данных;
- сложность масштабирования: полуавтоматический метод может оказаться сложным для масштабирования, особенно если требуется обработка большого объема данных;
- высокая стоимость: использование человеческого ресурса для дополнительной проверки и исправления данных может сделать процесс оцифровки более затратным.
Автоматический метод оцифровки в настоящий момент включает в себя использование специализированных геоинформационных систем (ГИС) и программного обеспечения для преобразования данных с геологических карт в цифровой формат.
Автоматическая векторизация чаще всего применяется на черно-белых геологических картах (бинарные изображения). В данном случае программа-векторизатор распознает черный цвет и переводит его в векторный формат. Белый цвет распознается, как фон. Для этого может быть использован алгоритм Стэджера [1] для уменьшения времени временных затрат. Для восстановления возможных разрывов при распознавании изолиний используется интерполяция кривой Безье по трем точкам [1].
Обработку растрового изображения в автоматическом режиме можно разделить разделить на два этапа: предобработка изображения и распознавание интересующих объектов на изображении (в нашем случае векторизация изолиний). Каждый этап, в свою очередь, включает в себя ряд подэтапов. Так, для предобработки изображения сначала применяется кластеризация по признаку цветности, затем скелетизация и морфологические операции для восстановления разрывов у изолиний, образовавшихся на предыдущих этапах предобработки или из-за плохого качества изображения.
Привязка растра в ГИС-программе означает соотнесение пиксельных координат на изображении с реальными географическими координатами на карте. Этот процесс основан на поиске соответствия между пикселями на изображении и их географическими координатами в градусах или метрах на карте. Таким образом, программа понимает, как точки на растровом изображении соотносятся с конкретными местами на карте. В основе привязки растрового изображения лежат два алгоритма: алгоритм трансформации растра, изменяющий изображение таким образом, чтобы оно совпадало с имеющимися географическими координатами, и алгоритм «ресемплинг» или передискретизация, в основе которого лежит изменение разрешения изображения для корректного сопоставления с местностью.
Достоинства автоматического метода оцифровки:
- Скорость: автоматический метод оцифровки данных позволяет обрабатывать большие объемы информации значительно быстрее, чем это делалось бы вручную.
- Эффективность: автоматизированные процессы обработки данных могут повысить эффективность работы за счет минимизации человеческого вмешательства.
- Масштабируемость: автоматические методы оцифровки легче масштабируются для работы с большими объемами данных и их быстрой обработки.
- снижение ошибок: при правильной настройке и калибровке системы автоматической обработки, можно уменьшить вероятность ошибок по сравнению с человеческим вмешательством.
Недостатки автоматического метода оцифровки:
- недостаточная точность: автоматические методы могут быть менее точными, особенно при работе с нестандартными или плохо структурированными данными;
- ограниченная гибкость: в случае изменения требований или особенностей данных, автоматизированные системы могут показать себя менее гибкими по сравнению с человеческим вмешательством
- необходимость настройки: для достижения оптимальной производительности и точности автоматизированной системы оцифровки требуется тщательная настройка и обучение;
- трудность обработки специфических случаев: в случае нестандартных данных или особых требований автоматический метод может столкнуться с трудностями, которые человеческий фактор мог бы легче преодолеть.
Существует еще один метод оцифровки архивных геологических карт – с применением машинного обучения. В основе данного метода лежит создание и обучение нейронной сети. Нейронная сеть — это математическая модель и ее реализация в виде программной или программно-аппаратной реализации, которая основана на моделировании активности биологических нейронных сетей, которые представляют собой сети нейронов в биологическом организме. [2] Каждый нейрон принимает входные данные, обрабатывает их и передает результат следующему нейрону. Нейроны организованы в слои, и информация передается от входного слоя к выходному слою через промежуточные слои, называемые скрытыми слоями.
Обучение нейронной сети - процесс настройки параметров нейронной сети на основе обучающих данных с целью минимизации ошибки или потерь во время выполнения конкретной задачи. Обучение нейросетей происходит в два этапа:
- прямое распространение, при котором нейросеть в тестовом режиме «прогоняет» через себя данные и прогнозирует результат;
- обратное распространение ошибки, при котором погрешности каждого звена отправляются обратно в виде градиента, на основании чего изменяются веса. [3]
Существуют три основных способа обучения нейросетей:
- обучение с учителем – данный способ обучения предполагает наличие обучающих данных, где для каждого входа имеется соответствующий правильный выход.
- Обучение без учителя - способ предполагает спонтанный вид самообучения, в котором нет размеченных данных. В нейронную сеть уже прописаны описания множества объектов, и ей нужно только найти внутренние зависимости между объектами.
- Обучение с подкреплением. В обучении с подкреплением нейронная сеть учится на основе взаимодействия с окружающей средой. Сеть принимает действия в данной среде и получает обратную связь в виде награды или штрафа, что позволяет ей корректировать свое поведение для достижения целей.
Рассмотрим стандартные задачи, решаемые нейронными сетями в приложении к изображениям [4]:
- идентификация объектов;
- распознавание частей объектов (например, лиц, рук, ног и т.д.);
- семантическое определение границ объектов (позволяет оставлять только границы объектов на картинке);
- семантическая сегментация (позволяет разделять изображение на различные отдельные объекты);
- выделение нормалей к поверхности (позволяет преобразовывать двумерные картинки в трехмерные изображения);
- выделение объектов внимания (позволяет определять то, на что обратил бы внимание человек на данном изображении).
С учетом решения успешных кейсов в ГИС с использованием машинного обучения [5], а также в других областях [6], выделим основные достоинства и недостатки данного метода:
- автоматизация: использование нейросетевых алгоритмов и технологии компьютерного зрения позволяет автоматизировать процесс оцифровки геологических карт, что увеличивает производительность и снижает трудозатраты.
- скорость: нейросетевые алгоритмы могут обрабатывать большие объемы данных быстрее, чем традиционные методы, что способствует более быстрой оцифровке геологических карт;
- высокая точность: при правильной настройке и обучении нейронных сетей, можно добиться высокой точности при распознавании и оцифровке геологических объектов на картах;
- способность обрабатывать сложные структуры: нейросетевые алгоритмы и технология компьютерного зрения способны обрабатывать сложные геологические структуры и образования, что может быть сложно для человека.
Недостатки применения нейросетевых алгоритмов и технологии компьютерного зрения для оцифровки геологических карт:
- требование большого объема обучающих данных: для достижения высокой точности нейросетевые алгоритмы требуют обширные обучающие наборы данных, что может потребовать значительных усилий и ресурсов.
- сложность в интерпретации результатов: иногда сложно понять, как нейросеть приняла свое решение, что может затруднить валидацию результатов оцифровки;
- необходимость корректировки и улучшения моделей: нейросетевые модели требуют постоянного обновления, корректировки и улучшения для обеспечения высокой точности и актуальности результатов оцифровки;
- ограничения в обработке специфических случаев: нейросетевые алгоритмы могут столкнуться с трудностями при обработке нестандартных геологических карт или объектов, которые не входили в обучающий набор данных.
Заключение
Использование нейросетевых алгоритмов и технологии компьютерного зрения для оцифровки геологических карт предоставляет значительные преимущества в виде автоматизации, скорости, точности и способности обработки сложных структур. Однако данные методы требуют большого объема обучающих данных и постоянной настройки моделей для достижения высокой эффективности. Поэтому выбор между традиционными методами и нейросетевыми алгоритмами зависит от конкретных потребностей проекта и доступных ресурсов.
1. Kurochkin, V. Yu. Razrabotka servisa dlya avtomatizirovannogo poiska i raspoznavaniya izoliniy na izobrazheniyah geologicheskih kart / V. Yu. Kurochkina, A. A. Stupnikov. — Tekst : elektronnyy // Matematicheskoe i informacionnoe modelirovanie : materialy Vserossiyskoy konferencii molodyh uchenyh (Tyumen', 18–20 maya 2023 g.) / Ministerstvo nauki i vysshego obrazovaniya RF, Tyumenskiy gosudarstvennyy universitet, Institut matematiki i komp'yuternyh nauk ; redakcionnaya kollegiya : E. P. Vdovin [i dr.]. — Tyumen' : TyumGU-Press, 2023. — Vyp. 21. — S. 144–152.
2. Nikitin, A. A. Process raspoznavaniya izobrazheniya neyronnoy set'yu / A. A. Nikitin, N. I. Limanova. — Tekst : neposredstvennyy // Molodoy uchenyy. — 2020. — № 47 (337). — S. 23-25. — URL: https://moluch.ru/archive/337/75420/ (data obrascheniya: 27.03.2024).
3. Levchenko, K. M. Neyronnye seti = Neural networks / Levchenko K. M., Sych A. A. // Nauchnaya konferenciya uchaschihsya kolledzha : materialy 58-y nauchnoy konferencii aspirantov, magistrantov i studentov BGUIR, Minsk, 18–22 aprelya 2022 / Belorusskiy gosudarstvennyy universitet informatiki i radioelektroniki, Minskiy radiotehnicheskiy kolledzh ; redkol.: V. V. Shatalova [i dr.]. – Minsk : BGUIR, 2022. – S. 89–93.
4. Markova, S. V. Primenenie neyronnoy seti dlya sozdaniya sistemy raspoznavaniya izobrazheniy / S. V. Markova, K. Yu. Zhigalov // Fundamental'nye issledovaniya. – 2017. – № 8-1. – S. 60-64. – EDN ZELKMR.
5. Sellin, A. Yu. Aktualizaciya geoinformacionnyh sistem posredstvom integracii neyronnyh setey / A. Yu. Sellin, O. N. Ponamareva // Sostoyanie i perspektivy razvitiya sovremennoy nauki po napravleniyu «Geoinformacionnye platformy voennogo naznacheniya»: Sbornik statey I Vserossiyskoy nauchno-tehnicheskoy konferencii, Anapa, 17 marta 2021 goda. – Anapa: Federal'noe gosudarstvennoe avtonomnoe uchrezhdenie "Voennyy innovacionnyy tehnopolis "ERA", 2021. – S. 195-205. – EDN GHCCMY.
6. Sozdanie povedencheskoy modeli LDMOS tranzistora na osnove iskusstvennoy MLP neyroseti i ee opisanie na yazyke Verilog-A / S.A. Pobeda, M.I. Chernyh, F.V. Makarenko, K.V. Zol'nikov // Modelirovanie sistem i processov. – 2021. – T. 14, № 2. – S. 28-34. – DOI:https://doi.org/10.12737/2219-0767-2021-14-2-28-34.
7. Poluektov A.V., Makarenko F.V., Yagodkin A.S. Ispol'zovanie storonnih bibliotek pri napisanii programm dlya obrabotki statisticheskih dannyh // Modelirovanie sistem i processov. – 2022. – T. 15, № 2. – S. 33-41.