Imputation of Municipal Statistics Data
https://doi.org/10.34020/2073-6495-2020-3-277-286
Abstract
The article considers the key problem of conducting statistical analysis on an array of municipal statistics: the presence of a significant amount of missing data. The concept and types of data imputation are given. The application of the K nearest neighbor method for imputation at the stage of using official statistics data contained in the database of municipal indicators is justified. The author’s algorithm for restoring omissions in the data set of municipal statistics indicators using the STATISTICA system is proposed. Verification of the imputation results was performed by comparing the distributions of the original and restored data based on the Pearson’s consent criterion.
About the Author
T. B. SkripkinaRussian Federation
Skripkina Tatyana B., Senior Lecturer, Department of Statistics
Novosibirsk
References
1. Бурдун Г.Д., Марков Б.Н. Основы метрологии. М.: Изд-во стандартов, 1985. 120 с.
2. Зайков К.А. К вопросу оценки уровня инновационного потенциала субъектов Российской Федерации // Вестник НГУЭУ. 2019. № 1. С. 134–151.
3. Бых А.И., Высоцкая Е.В., Рак Л.И., Порван А.П., Болибок Е.Е., Сватенко О.А. Выбор метода восстановления пропущенных данных для оценки сердечно-сосудистой деятельности подростков // Восточно-Европейский журнал передовых технологий. 2010. № 3/4 (45). С. 4–7. [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/vybor-metoda-vosstanovleniya-propuschennyh-dannyh-dlya-otsenki-serdechno-sosudistoy-deyatelnosti-podrostkov/viewer
4. Ковтун А. Развитие и совершенствование процессов обработки данных выборочных обследований. [Электронный ресурс]. URL: https://www.gks.ru/free_doc/new_site/rosstat/smi/prezent23-2013/kovtun.pdf
5. Лемешко Б.Ю., Чимитова Е.В. О выборе числа интервалов в критериях согласия типа c2 // Заводская лаборатория. Диагностика материалов. 2003. Т. 69. С. 61–67. URL: https://www.researchgate.net/publication/315333672_O_vybore_cisla_intervalov_v_kriteriah_soglasia_tipa_X2
6. Приказ Росстата от 07.12.2018 N 732 «Об утверждении Методологических положений по организации процессов производства официальной статистической информации». [Электронный ресурс]. URL: http://www.consultant.ru/document/cons_doc_LAW_313411/ (дата обращения: 13.03.2020).
7. Фабрикант М.С. Модель-ориентированный подход к отсутствующим значениям: множественная импутация в многоуровневой регрессии посредством R (на примере анализа опросных данных) // Социология: методология, методы, математическое моделирование. 2015. № 41. С. 7–29. [Электронный ресурс]. URL: https://www.elibrary.ru/download/elibrary_26539204_98997170.pdf
8. Фомина Е.Е. Обзор методов и программного обеспечения для восстановления пропущенных значений в массивах социологических данных // Гуманитарный вестник. 2019. № 4. С. 1–12. [Электронный ресурс]. URL: http://www.hmbul.ru/articles/611/611.pdf
9. Хрестоматия практико-ориентированного комплекса учебно-методических материалов по курсу «Организация выборочных обследований». Межгосударственный статистический комитет Содружества Независимых государств. С. 42. URL: http://www.cisstat.com/Trainig_courses/CIS_training_course_Organization_of_sample_surveys/CIS_training_course_Organization_of_sample_surveys_07%20-%20reader.pdf
Review
For citations:
Skripkina T.B. Imputation of Municipal Statistics Data. Vestnik NSUEM. 2020;(3):277-286. (In Russ.) https://doi.org/10.34020/2073-6495-2020-3-277-286