Visão Geral
Temos uma equipe que liga para os detentores de dados e os motiva a doá‑los para o projeto AddressForAll, com licenças livres. Sempre recomendamos liberar os dados no domínio público e o uso da licença CC0, mas aceitamos também dados com licença CC‑BY e CC‑BY‑SA.
Nossos dados estão disponíveis em 3 fases de tratamento:
Dados Preservados
Os dados e licenças do projeto Digital‑Guard são rigorosamente controlados e preservados tal como os originais recebidos dos doadores. São os “dados brutos”, sem padronização e nos mais diversos formatos (CSV, Shapefile, Geojason etc.). Eles são preservados por 20 anos, e durante esse tempo podem ser baixados, tal como os recebemos.
Dados Filtrados
Por terem origem diversa, os dados Preservados precisam ser filtrados e padronizados. O Projeto AddressForAll faz um recorte com foco nos endereços. A estrutura do recorte é padronizada e publicado em formato GeoJSON, através de PostgreSQL em repositórios git.
Todo o processo de filtragem e publicação é aberto e reprodutível , qualquer um pode auditorá‑lo. Os resultados não sofrem validação , e um mesmo endereço pode ser descrito e repetido por diferentes fontes, tais como a prefeitura, a empresa de água e a empresa de logística.
Dados Consolidados
A consolidação consiste em agregar estatisticamente as informações das diversas fontes sobre um mesmo endereço e suas vizinhanças, e aplicar algoritmos de validação. No processo os endereços reconhecidos como duplicados são reduzidos a um só endereço, e os endereços inválidos descartados.
Obtemos tanto o score de confiabilidade dos dados originais como a posição mais provável do ponto de endereço. Nomes de rua recebem padronização terminológica e a numeração predial pode ser otimizada através de médias, reposicionamentos ou interpolação. Esta base é a utilizada para nossas APIs de busca e geocodificação (em construção) .
Carregando dados...