Применение машинного обучения методом случайного леса и систем управления большими пространственными данными для восстановления рядов данных вегетационных индексов

DOI: 10.35595/2414-9179-2024-1-30-295-305

Посмотреть или загрузить статью (Rus)

Об авторе

А.А. Воробьева

Санкт-Петербургский Государственный Университет, Институт наук о Земле, Кафедра картографии и геоинформатики,
Менделеевская линия, д. 2, Санкт-Петербург, Россия, 199034,
E-mail: st096985@student.spbu.ru

Аннотация

В данной статье рассмотрены содержание и результаты работы, посвященной разработке модели машинного обучения, позволяющей осуществить восстановление неполных данных с применением технологий облачных вычислений. Задача рассмотрена на примере исследования, посвященного моделированию данных для восполнения отсутствующих значений вегетационных индексов, основываясь на открытых каталогах данных платформ облачных вычислений. Предложенная методика основана на использовании многолетней периодичной выборки значений вегетационных индексов и обучения модели на больших объемах данных для повышения качества восстановления рядов. Указанный в работе подход позволяет добиться более высокой точности, нежели использование при восстановлении данных классических способов интерполяции, что делает моделируемые значения пригодными для использования при решении различных практических задач. Предложенная в работе методика реализована на примере восстановления значений нормализованного разностного вегетационного индекса, используемого для мониторинга и оценки состояния растительного покрова. В качестве исходных данных использовались массивы значений, полученные из каталогов облачной среды Google Earth Engine, предназначенной для обработки и анализа данных дистанционного зондирования Земли, по территории центральной части Новгородской области. Также, для ускорения процесса обучения модели и увеличения эффективности и производительности, использовались возможности платформы Google Colaboratory, что позволило не применять в исследовании локальные вычислительные мощности и специализированное программное обеспечение. Этот подход может быть адаптирован для восстановления других индексов или разрешения неполноты данных в различных предметных областях, что подчеркивает его универсальность и потенциальное практическое применение.

Ключ. слова

Google Earth Engine, регрессия, NDVI, Python

Список литературы

  1. Бучнев А.А., Пяткин В.П., Пяткин Ф.В. Модель облачной среды для обработки данных дистанционного зондирования Земли. ИТНОУ: Информационные технологии в науке, образовании и управлении, 2017. № 3. С. 57–61.
  2. Мордовина Д.О. Облачные вычисления в сфере геоинформационных технологий и ДЗЗ. Геоматика, 2012. № 2. С. 9–11.
  3. Тараканов Д.А. Восстановление пропущенных значений в данных гидрометеорологических наблюдений с использованием машинного обучения (на примере реки Белая, Республика Башкортостан). Вестник Евразийской науки, 2023. Т. 15. № 6.
  4. Шнелле Ф. Фенология растений. Ленинград: Гидрометеоиздат, 1961. 259 с.
  5. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning, Data Mining, Inference, and Prediction. Springer, 2009. 746 p.
  6. Julien Y., Sobrino J.A. Optimizing and comparing gap-filling techniques using simulated NDVI time series from remotely sensed global data. International Journal of Applied Earth Observation and Geoinformation, 2019. V. 76. P. 93–111. DOI: 10.1016/j.jag.2018.11.008.
  7. Pacifici F., Longbotham N., Emery W.J. The Importance of physical quantities for the analysis of multitemporal and multiangular optical very high spatial resolution images. IEEE Transactions on Geoscience and Remote Sensing, 2014. V. 52. No. 10. P. 6241–6256. DOI: 10.1109/TGRS.2013.2295819.
  8. Pessoa T., Medeiros R., Nepomuceno T., Bian G., Albuquerque V.H.C., Filho P.P. Performance Analysis of Google Colaboratory as a Tool for Accelerating Deep Learning Applications. IEEE Access, 2018. V. 6. P. 61677–61685. DOI: 10.1109/ACCESS.2018.2874767.
  9. Saad M., Chaudhary M., Karray F., Gaudet V. Machine learning based approaches for imputation in time series data and their impact on forecasting. 2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC), 2020. P. 2621–2627.
  10. Sarafanov M., Kazakov E., Nikitin N.O., Kalyuzhnaya A.V. A machine learning approach for remote sensing data gap-filling with open-source implementation: An example regarding land surface temperature, surface albedo and NDVI. Remote Sensing, 2020. V. 12. Iss. 23. P. 3865. DOI: 10.3390/rs12233865.
  11. Schmid J.N. Using Google Earth Engine for Landsat NDVI time series analysis to indicate the present status of forest stands. 2017. DOI: 10.13140/RG.2.2.34134.14402/6.
  12. Weigend A.S. Time series prediction: forecasting the future and understanding the past. Routledge, 2018. 663 p. DOI: 10.4324/9780429492648.
  13. Zhu T. Analysis on the Applicability of the Random Forest. Journal of Physics: Conference Series, 2020. V. 1607. P. 012123. DOI: 10.1088/1742-6596/1607/1/012123.

Для цитирования: Воробьева А.А. Применение машинного обучения методом случайного леса и систем управления большими пространственными данными для восстановления рядов данных вегетационных индексов. ИнтерКарто. ИнтерГИС. M.: Географический факультет МГУ, 2024. Т. 30. Ч. 1. С. 295–305. DOI: 10.35595/2414-9179-2024-1-30-295-305

For citation: Vorobyeva A.A. Application of random forest machine learning and big geospatial data management systems applied to reconstruct the vegetation index data series. InterCarto. InterGIS. Moscow: MSU, Faculty of Geography, 2024. V. 30. Part 1. P. 295–305. DOI: 10.35595/2414-9179-2024-1-30-295-305 (in Russian)