Автоматизация подготовки картографических данных с помощью систем обработки естественного языка

DOI: 10.35595/2414-9179-2022-1-28-659-669

Посмотреть или загрузить статью (Rus)

Об авторах

А.А. Колесников

Сибирский государственный университет геосистем и технологий,
ул. Плахотного, д. 10, 630108, Новосибирск, Россия;
E-mail: alexeykw@mail.ru

Е.А. Плитченко

Фонд поддержки литературного творчества «Сибирский писатель»,
ул. Грибоедова, д. 2, офис 11, 630083, Новосибирск, Россия;
E-mail: str2007@list.ru

М.К. Кропачева

Сибирский государственный университет геосистем и технологий,
ул. Плахотного, д. 10, 630108, Новосибирск, Россия;
E-mail: kropacheva.m.k@gmail.com

Аннотация

Современный уровень развития информационных технологий позволяет автоматизировать обработку тех видов данных, с которыми ранее мог работать только специалист. В качестве одного из таких примеров можно привести технологии обработки естественного языка, реализующие функции анализа тональности, машинного перевода, вопросно-ответных систем. Для процессов создания картографических и геоинформационных произведений наибольший интерес представляют методики извлечения именованных сущностей, которые позволяют извлекать географические названия из неструктурированного текста, и связывания именованных сущностей, дающие возможность создания логических связей между извлеченными наименованиями пространственных объектов. Их обработка посредством локальной или сетевой базы данных сервиса для геокодирования позволит автоматизировать создание слоев карты в геоинформационной системе на основе текстовых сообщений. В статье описываются наиболее популярные подходы и их программные реализации для решения задачи извлечения именованных сущностей на примере текстов биографий и произведений сибирских писателей. Выполняется анализ методик, основанных на правилах, моделях максимальной энтропии и сверточных нейронных сетях. Для оценки качества результатов извлечения из текста географических названий и объектов, помимо стандартного варианта F1-score, авторами предлагается дополнительный вариант способа оценки, учитывающий большее число критериев и также базирующийся на матрице ошибок. Приведено описание форматов разметки текстовых блоков для улучшения качества распознавания и расширения возможных вариантов географических наименований именованных сущностей на основе дообучения модели нейронной сети.

Ключ. слова

географическое название, автоматизация, извлечение именованных сущностей, обработка естественного языка, нейронные сети, сибирские писатели

Список литературы

  1. Белецкая С.Ю., Гриневич Я.С. Применение скрытых марковских моделей и условных случайных полей для распознавания именованных сущностей. В сборнике: Интеллектуальные информационные системы. Труды Международной научно-практической конференции. Воронеж: ВГТУ, в 2-х частях. 2018. С. 121–125.
  2. Исаченко В.В. Обзор систем обработки текстов на естественном языке с использованием методов выделения именованных сущностей. Наука и мир, 2019. № 7-1 (71). С. 33–35.
  3. Карпачевский А.М., Филиппова О.Г. Возможности картографирования аварийности энергосистем на основе открытых данных. ИнтерКарто. ИнтерГИС. Материалы Международной конференции, 2018. Т. 24. № 1. С. 202–211. DOI: 10.24057/2414-9179-2018-1-24-202-211.
  4. Кукарцев В.В., Колмакова З.А., Мельникова О.Л. Системный анализ возможностей по извлечению именованных сущностей с применением технологии text mining. Перспективы науки, 2019. № 9 (120). С. 18–20.
  5. Akbik A., Blythe D., Vollgraf R. Contextual string embeddings for sequence labeling. Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe: Association for Computational Linguistics, 2018. P. 1638–1649.
  6. Anh L.T., Arkhipov M.Y., Burtsev M.S. Application of a hybrid Bi-LSTM-CRF model to the task of Russian Named Entity Recognition. Artificial Intelligence and Natural Language. AINL, 2017. P. 91–103. DOI: 10.1007/978-3-319-71746-3_8.
  7. Berant J., Chou A., Frostig R., Liang P. Semantic parsing on freebase from question-answer pairs. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP). Grand Hyatt Seattle, Seattle, Washington, USA: Association for Computational Linguistics, 2013. P. 1533–1544.
  8. Bodenhamer D.J., Corrigan J., Harris T.M. Deep maps and spatial narratives. Bloomington: Indiana University Press, 2015. 254 p. DOI: 10.2307/j.ctt1zxxzr2.
  9. Camelin N., Damnati G., Bouchekif A., Landeau A., Charlet D., Estève Y. FrNewsLink: a corpus linking TV Broadcast News Segments and Press Articles. Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, Japan: European Language Resources Association (ELRA), 2018. L18–1329.
  10. Cooper D., Donaldson C., Murrieta-Flores P. Literary Mapping in the digital age. Digital research in the arts and humanities. Abingdon: Routledge, 2016. 326 p. DOI: 10.4324/9781315592596.
  11. Cura R., Dumenieu B., Abadie N., Costes B., Perret J., Gribaudi M. Historical collaborative geocoding. ISPRS International Journal of Geo-Information, 2018. V. 7. No. 7. P. 262. DOI: 10.3390/ijgi7070262.
  12. De Oliveira M.G., De Souza Baptista C., Campelo C.E.C., Bertolotto M. A Gold-standard Social Media Corpus for Urban Issues. Proceedings of the Symposium on Applied Computing, 2017. P. 1011–1016. DOI: 10.1145/3019612.3019808.
  13. Ding J., Wang Y., Hu W., Shi L., Qu Y. Answering Multiple-Choice Questions in Geographical Gaokao with a Concept Graph. The semantic web—Proceedings of the 15th international conference, 2018. P. 161–176. DOI: 10.1007/978-3-319-93417-4_11.
  14. Ding N., Xu G., Chen Y., Wang X., Han X., Xie P., Zheng H., Liu Z. Few-NERD: A Few-shot Named Entity Recognition Dataset. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, 2021. V. 1. P. 3198–3213. DOI: 10.18653/v1/2021.acl-long.248.
  15. Gong Y., Luo H., Zhang J. Natural Language Inference over Interaction Space. Proceedings of the 6th international conference on learning representations (ICLR), 2018.
  16. Honnibal M., Johnson M. An Improved Non-Monotonic Transition System for Dependency Parsing. Proceedings of the 2015 Conference an Empirical Methods in Natural Language Processing. Lisbon, Portugal: Association for Computational Linguistics, 2015. P. 1373–1378. DOI: 10.18653/v1/D15-1162.
  17. Konkol M., Konopík M. Segment Representations in Named Entity Recognition. Text, Speech, and Dialogue. TSD, 2015. P. 61–70. DOI: 10.1007/978-3-319-24033-6_7.
  18. Lally A., Bagchi S., Barborak M., Buchanan D.W., Chu-Carroll J., Ferrucci D.A., Glass M.R., Kalyanpur A., Mueller E.T., Murdock J.W., Patwardhan S., Prager J.M. WatsonPaths: Scenario-based question answering and inference over unstructured information. AI magazine. Menlo Park: Association for the advancement of artificial intelligence, 2017. V. 38. No. 2. P. 59–76. DOI: 10.1609/aimag.v38i2.2715.
  19. Mozharova V., Loukachevitch N. Two-stage approach in Russian named entity recognition. International FRUCT Conference on Intelligence, Social Media and Web. St. Petersburg: IEEE, 2016. DOI: 10.1109/FRUCT.2016.7584769.
  20. Ramalho R., Firmino A., Baptista C., Falcão A., De Oliveira M., De Andrade F. Using Natural Language Processing for Extracting GeoSpatial Urban Issues Complaints from TV News, 2020. P. 229–239.

Для цитирования: Колесников А.А., Плитченко Е.А., Кропачева М.К. Автоматизация подготовки картографических данных с помощью систем обработки естественного языка. ИнтерКарто. ИнтерГИС. Геоинформационное обеспечение устойчивого развития территорий: Материалы Междунар. конф. M: Географический факультет МГУ, 2022. Т. 28. Ч. 1. С. 659–669 DOI: 10.35595/2414-9179-2022-1-28-659-669

For citation: Kolesnikov A.A., Plitchenko E.A., Kropacheva M.K. Automation of data preparation for mapping using natural language processing systems. InterCarto. InterGIS. GI support of sustainable development of territories: Proceedings of the International conference. Moscow: MSU, Faculty of Geography, 2022. V. 28. Part 1. P. 659–669. DOI: 10.35595/2414-9179-2022-1-28-659-669 (in Russian)