Neue Publikation: A geolocated dataset of German news articles
02. Juli 2025
Online
Dr. Lukas Kriesch und Dr. Sebastian Losacker haben ihren neuen Artikel "A geolocated dataset of German news articles" erfolgreich im Journal Scientific Data aus dem Nature-Portfolio veröffentlicht.
In dem Artikel präsentieren sie einen geolokalisierten Datensatz mit 50 Millionen deutschen Nachrichtenartikeln (2016–2024), die aus dem News-Datensatz der Common Crawl Foundation extrahiert wurden. Mithilfe von Natural Language Processing-Methoden (NLP) wie dem named-entity recognition model und SBERT wurden die Artikel geokodiert und in semantische Text-Embeddings transformiert, die semantische Suchen innerhalb des Datensatzes ermöglichen. Durch die Verknüpfung von Nachrichteninhalten mit geografischen Standorten ermöglicht der Datensatz groß angelegte regionale Analysen des öffentlichen Diskurses.
Mit diesem Datensatz leisten die Autoren einen wertvollen Beitrag zur computergestützte Sozialforschung und schaffen neue Möglichkeiten für die Analyse gesellschaftlicher Trends. Die Methodik ist darüber hinaus übertragbar auf Nachrichtendaten aus anderen Ländern und eröffnet somit vielfältige Perspektiven für die internationale vergleichende Forschung. Der Datensatz steht zum Download bereit. Dr. Lukas Kriesch und Dr. Sebastian Losacker haben ihren neuen Artikel "A geolocated dataset of German news articles" erfolgreich im Journal Scientific Data aus dem Nature-Portfolio veröffentlicht.
In dem Artikel präsentieren sie einen geolokalisierten Datensatz mit 50 Millionen deutschen Nachrichtenartikeln (2016–2024), die aus dem News-Datensatz der Common Crawl Foundation extrahiert wurden. Mithilfe von Natural Language Processing-Methoden (NLP) wie dem named-entity recognition model und SBERT wurden die Artikel geokodiert und in semantische Text-Embeddings transformiert, die semantische Suchen innerhalb des Datensatzes ermöglichen. Durch die Verknüpfung von Nachrichteninhalten mit geografischen Standorten ermöglicht der Datensatz groß angelegte regionale Analysen des öffentlichen Diskurses.
Mit diesem Datensatz leisten die Autoren einen wertvollen Beitrag zur computergestützte Sozialforschung und schaffen neue Möglichkeiten für die Analyse gesellschaftlicher Trends. Die Methodik ist darüber hinaus übertragbar auf Nachrichtendaten aus anderen Ländern und eröffnet somit vielfältige Perspektiven für die internationale vergleichende Forschung. Der Datensatz steht zum Download bereit.




