Misclassification errors from postal code-based geocoding to assign census geography in Nova Scotia, Canada

Can J Public Health. 2016 Dec 27;107(4-5):e424-e430. doi: 10.17269/cjph.107.5459.

Abstract

Objectives: Postal codes are often the only available geographic identifiers in many sources of health data in Canada. In order to conduct geographic analyses, postal codes are routinely geocoded to census geography to link to ecological data. Despite common use of this method, the extent of geographic misclassification errors is poorly understood. We estimated misclassification errors in the geocoding of postal codes to assign census geography in Nova Scotia, Canada.

Methods: We examined differences between counts and match rates for postal-code geocoded and actual locations of buildings in Nova Scotia at two census administrative area levels: dissemination areas (DAs) and census subdivisions (CSDs). Actual locations were based on the data collected by the provincial government containing actual latitude/longitude of buildings. Variation in misclassification by rurality, using Statistics Canada's classification, was also assessed.

Results: Outside two urban areas (Halifax Metro and Sydney) which had <10% differences in counts, many DAs had >30% differences. Match rates showed similar patterns, with the vast majority of non-urban DAs having <40% match rates. Even in major urban areas, 10% of DAs had large misclassification errors. Misclassification errors at the CSD level were still too great to estimate counts or rates without further area aggregation.

Conclusion: Routine use of postal code geocoding should be replaced with geocoding of location information using additional identifiers such as civic addresses or latitude and longitude. If data holders did this in-house before providing data to researchers, the accuracy and capacity of geographic analysis would be enhanced while protecting confidentiality.

OBJECTIFS: Les codes postaux sont souvent les seuls identifiants géographiques disponibles dans de nombreuses sources de données sanitaires au Canada. Afin de procéder à des analyses géographiques, les codes postaux sont habituellement géocodés à la géographie du recensement pour être reliés aux données écologiques. Bien que ce soit une méthode couramment utilisée, on connaît mal l’étendue des erreurs de classification géographique. Nous avons estimé les erreurs de classification dans le géocodage des codes postaux pour fins d’association à la géographie du recensement en Nouvelle-Écosse, au Canada.

MÉTHODE: Nous avons examiné les écarts entre les numérations et les taux d’appariement d’emplacements géocodés selon le code postal et d’emplacements réels de bâtiments en Nouvelle-Écosse à deux niveaux de régions administratives du recensement: les aires de diffusion (AD) et les subdivisions de recensement (SDR). Les emplacements réels ont été déterminés selon les données recueillies par le gouvernement provincial indiquant la latitude et la longitude réelles des bâtiments. Nous avons aussi évalué la variation des erreurs de classification par ruralité à l’aide de la classification de Statistique Canada.

RÉSULTATS: Sauf dans deux agglomérations urbaines (Sydney et la région métropolitaine de Halifax) où il y avait <10 % d’écarts dans les numérations, beaucoup d’AD affichaient des écarts >30 %. Les tendances étaient semblables pour les taux d’appariement: la très grande majorité des AD non urbaines affichaient des taux d’appariement <40 %. Même dans les grandes agglomérations urbaines, 10 % des AD comportaient d’importantes erreurs de classification. Les erreurs de classification à l’échelle des SDR étaient encore trop importantes pour estimer les numérations ou les taux sans un regroupement plus poussé des zones.

CONCLUSION: L’utilisation habituelle du géocodage par code postal devrait être remplacée par le géocodage de l’information de localisation à l’aide d’identifiants supplémentaires, comme les adresses de voirie ou la latitude et la longitude. Si les détenteurs de données faisaient cela à l’interne avant de fournir leurs données aux chercheurs, l’exactitude et la capacité des analyses géographiques seraient rehaussées, et la confidentialité des données serait protégée.

MeSH terms

  • Censuses*
  • Geographic Information Systems / standards*
  • Geographic Mapping*
  • Humans
  • Nova Scotia
  • Reproducibility of Results
  • Rural Population
  • Urban Population