Анализ и прогнозирование пространственно-временных экологических показателей с использованием методов машинного обучения

DOI: 10.35595/2414-9179-2020-3-26-53-61

Посмотреть или загрузить статью (Rus)

Об авторах

П.М. Кикин

Санкт-Петербургский политехнический университет Петра Великого (СПбПУ),
ул. Политехническая, д. 29, 195251, Санкт-Петербург, Россия,
E-mail: it-technologies@yandex.ru

А.А. Колесников

Сибирский государственный университет геосистем и технологий,
ул. Плахотного, д. 10, 630108, Новосибирск, Россия,
E-mail: alexeykw@mail.ru

А.М. Портнов

Московский государственный университет геодезии и картографии,
Гороховский пер., д. 4, 105064, Москва, Россия,
E-mail: portnov@miigaik.ru

Д.В. Грищенко

Сибирский государственный университет геосистем и технологий,
ул. Плахотного, д. 10, 630108, Новосибирск, Россия,
E-mail: mr_divis@mail.ru

Аннотация

Состояние экологических систем наряду с их общими характеристиками практически всегда описывается показателями, изменяющимися в пространстве и времени, что приводит к существенному усложнению построения математических моделей для прогнозирования состояния таких систем. Одним из способов, позволяющих упростить и автоматизировать построение математических моделей для прогнозирования состояния таких систем, является использование методов машинного обучения. В статье приводится сравнение традиционных и основанных на нейронных сетях алгоритмов и методов машинного обучения для прогнозирования пространственно-временных рядов, представляющих данные экосистем. Анализ и сравнение проводились среди следующих алгоритмов и методов: логистическая регрессия, случайный лес, градиентный бустинг на деревьях решений, SARIMAX, нейронные сети долгой краткосрочной памяти (LSTM) и управляемых рекуррентных блоков (GRU). Для проведения исследования были подобраны наборы данных, имеющих как пространственную, так и временную составляющие: значения численности москитов, количество заражений лихорадкой денге, физическое состояние деревьев тропической рощи, уровень воды в реке. В статье рассматриваются необходимые действия по предварительной обработке данных, в зависимости от используемого алгоритма. Также в качестве одного из параметров, которые могут помочь формализовать выбор наиболее оптимального алгоритма при построении математических моделей пространственно-временных данных для используемых наборов, была вычислена колмогоровская сложность. По результатам проведенного анализа даются рекомендации по применению тех или иных методов и конкретных технических решений в зависимости от особенностей набора данных, описывающего конкретную экосистему.

Ключ. слова

экосистемы, пространственно-временные показатели, LSTM, SARIMAX, прогнозирование

Список литературы

  1. Сметанин Ю.Г., Ульянов М.В. Построение кластерного пространства временных рядов: колмогоровская и гармоническая сложность. Научные труды Вольного экономического общества России, 2014. № 186 (186). С. 124–129.
  2. Ульянов М.В., Сметанин Ю.Г. Подход к определению характеристик колмогоровской сложности временных рядов на основе символьных описаний. Бизнес-информатика, 2013. № 2. С. 49–54.
  3. Arunraj N.S., Ahrens D., Fernandes M. Application of SARIMAX model to forecast daily sales in food retail industry. International Journal of Operations Research and Information Systems, 2016. V. 7 (2). P. 1–21. DOI:–10.4018/ijoris.2016040101.
  4. Chiu J., Jason P.C., Nichols E. Named entity recognition with bidirectional LSTM-CNNs. Transactions of the Association for Computational Linguistics, 2015. V. 4. P. 357–370.
  5. Chung J., Gulcehre C., Cho K.H., Bengio Y. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, 2014. 9 p. DOI: arΧiv:1412.3555 [cs.NE].
  6. Clark D.B., Clark D.A. Tree growth, mortality, physical condition, and microsite in an old-growth lowland tropical rain forest. Ecology, 2006. V. 87. P. 2132–2132. DOI: 10.1890/0012-9658(2006)87[2132:TGMPCA]2.0.CO;2
  7. Haupt S., Pasini A., Marzban C. Artificial Intelligence Methods in the Environmental Sciences. Springer Netherlands, 2009. 424 p. DOI: 10.1007/978-1-4020-9119-3.
  8. Hochreiter S., Schmidhuber J. Long Short-Term Memory. Neural Computing, 1997. V. 9–8. P. 1735–1780. DOI: dx.doi.org/10.1162/neco.1997.9.8.1735.
  9. Knudby A., Brenning A., LeDrew E. New approaches to modelling fish–habitat relationships. Ecological Modelling, 2010. V. 221 (3). P. 503–511. DOI: 10.1016/j.ecolmodel.2009.11.008.
  10. Liaw A., Wiener M. Classification and Regression by Random Forest. R News, 2002. V. 2 (3). P. 18–22.
  11. McCullagh P., Nelder J.A. Generalized linear models. 2nd edition. Taylor & Francis, 1989. 532 p.
  12. Ndenga B.A., Mutuku F.M., Ngugi H.N. Characteristics of Aedes aegypti adult mosquitoes in rural and urban areas of western and coastal Kenya. PLoS One, 2017. V. 12 (12): e0189971. DOI: 10.1371/journal.pone.0189971.
  13. Olden J., Lawler J., Poff N.L. Machine learning methods without tears: A primer for ecologists. The Quarterly Review of Biology, 2017. V. 83 (2). P. 171–193. DOI: 10.1086/587826.
  14. Schuster M., Paliwal K.K. Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing, 1997. V. 45–11. P. 2673–2681. DOI: dx.doi.org/10.1109/78.650093.

Для цитирования: Кикин П.М., Колесников А.А., Портнов А.М., Грищенко Д.В. Анализ и прогнозирование пространственно-временных экологических показателей с использованием методов машинного обучения. ИнтерКарто. ИнтерГИС. Геоинформационное обеспечение устойчивого развития территорий: Материалы Междунар. конф. M: Издательство Московского университета, 2020. Т. 26. Ч. 3. С. 53–61 DOI: 10.35595/2414-9179-2020-3-26-53-61

For citation: Kikin P.M., Kolesnikov A.A., Portnov A.M., Grischenko D.V. Natural language processing systems for data extraction and mapping on the basis of unstructured text blocks. InterCarto. InterGIS. GI support of sustainable development of territories: Proceedings of the International conference. Moscow: Moscow University Press, 2020. V. 26. Part 3. P. 53–61. DOI: 10.35595/2414-9179-2020-3-26-53-61 (in Russian)