Datenbanken und Informationssysteme

News

Alle News

Das Paper "SheetReader: Efficient Specialized Spreadsheet Parsing" wurde von der Zeitschrift Information Systems zur Veröffentlichung angenommen.

Das Paper "SheetReader: Efficient Specialized Spreadsheet Parsing" von Haralampos Gavriilidis, Felix Henze, Eleni Tzirita Zacharatou und Volker Markl wurde von der CORE A* gerankten Zeitschrift Information Systems zur Veröffentlichung angenommen

Abstract:

Spreadsheets wie beispielsweise Microsoft Excel-Dateien werden häufig für die initiale Exploration von Datensätzen verwendet. Da Spreadsheet-Systeme meist jedoch nur über eine begrenzte Funktionalität verfügen, importieren Benutzer ihre Spreadsheets häufig in eine Data Science Entwicklungsumbgebung, um erweiterte Analysen durchzuführen. Die derzeitigen Ansätze zum Laden von Spreadsheets leiden jedoch entweder unter einer hohen Laufzeit oder einem hohen Speicherverbrauch, was die Datenexploration auf handelsüblichen Systemen behindert. Um das Laden von Spreadsheets auf durchschnittlicher Hardware praktikabel zu machen, stellen wir einen neuartigen Parser vor, der den Speicherverbrauch durch eine enge Kopplung von Dekomprimierung und Parsing minimiert. Um die Laufzeit zu reduzieren, führen wir optimierte Spreadsheet-spezifische Parsing-Routinen und Parallelisierung ein. Wir evaluieren unseren Ansatz mit Hilfe eines Prototypens zum Laden von Excel-Tabellen in R- und Python-Umgebungen. Unsere Evaluierung zeigt, dass unser neuartiger Ansatz bis zu drei Mal schneller im Vergleich zu bisherigen Ansätzen ist und dabei bis zu 40-fach weniger Speicherplatz verbraucht.

Unsere Open-Source-Implementierung von SheetReader für R ist verfügbar unter: https://github.com/fhenz/SheetReader-r und wurde bereits mehr als 2.000 Mal heruntergeladen.