Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Выгрузка и качество данных stat.gibdd.ru #45

Open
ustnv opened this issue Jan 15, 2019 · 3 comments
Open

Выгрузка и качество данных stat.gibdd.ru #45

ustnv opened this issue Jan 15, 2019 · 3 comments

Comments

@ustnv
Copy link
Member

ustnv commented Jan 15, 2019

Нынешний парсер не очень функциональный и долгий. Хочется сделать новый. Помимо старого функционала парсер должен:

  • делать параллельные запросы, чтобы ускорить парсинг
  • вести лог парсинга, так как stat.gibdd.ru часто зависает, то надо понимать, что скачалось, а что нет, чтобы повторно запускаться по конкретным запросам

Скорее всего, лучше это реализовать на scrapy.

И еще дополнительно:

  • записывать в базу, если информация о ДТП изменилась (например, в течение времени после ДТП в больнице умер пострадавший или были откорректированы координаты)
@c13 c13 assigned ustnv Feb 5, 2019
@bender-spb
Copy link

FYI
Данные по ДТП (2015-2018) выложены как json и csv: https://безопасныедороги.рф/opendata
К сожалению, информация по каждому ДТП не настолько полная как отдает stat.gibdd:

{
"reg_code": "38",
"reg_name": "Курская область",
"road_code": "",
"road_name": "КУРСК-ПОНЫРИ",
"road_type": "Региональная или межмуниципальная дорога общего пользования",
"oktmo": "38620000",
"address": "ЦФО, Курская область, Курский район",
"crash_type_name": "Опрокидывание",
"crash_date": "20180101",
"crash_time": "19:20",
"crash_reason": "Другие нарушения ПДД водителями",
"fatalities_amount": "1",
"victims_amount": "0",
"vehicles_amount": "1",
"participants_amount": "12",
"latitude": "51.8679",
"longitude": "36.2959"
},

@bender-spb
Copy link

bender-spb commented Feb 8, 2019

Чуть более детальный анализ выложенных открытых данных показал что там очень много других проблем (не сходятся со статистикой от ГИБДД, есть дубликаты, перепутаны погибшие и пострадавшие, файлы за один год содержит так же записи за другие годы). Видимо этот вариант можно отложить до повышения качества этих открытых данных.

@ustnv ustnv changed the title Новый парсер данных stat.gibdd.ru Выгрузка и качество данных stat.gibdd.ru Feb 12, 2019
@c13
Copy link

c13 commented Feb 18, 2019

Видимо этот вариант можно отложить до повышения качества этих открытых данных.

Такой подход не работает с открытыми данными в РФ.
Нужно улучшать парсер, чтобы он писал о проблемах с открытыми данными. Потом логи парсера посылать в ГУБДД и требовать исправления данных.

@alexander-mart alexander-mart transferred this issue from dtpstat/dtp-stat-archive Oct 17, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants