Verringern des Speicherplatzes monatlicher Datenbanken von Urchin-Profilen

Übersicht

Urchin-Berichtdaten werden für jedes in Urchin konfigurierte Profil in separaten monatlichen Datenbanken gespeichert. Diese Datenbanken befinden sich in der Regel im Verzeichnis „data/reports“ der Urchin-Installation. Standardmäßig wird in Urchin eine uneingeschränkte Zahl dieser monatlichen Profildatenbanken beibehalten. Bei den meisten Websites von kleiner oder mittlerer Größe halten sich die Speicheranforderungen in Grenzen. Da für Urchin-Berichte kein Zugriff auf die unformatierten Webserver-Protokolle nach ihrer Verarbeitung erforderlich ist, müssen die Webserver-Protokolle nicht aufbewahrt werden. Die Größe der verarbeiteten monatlichen Urchin-Datenbanken beträgt etwa fünf bis zehn Prozent der Größe der unformatierten Webserver-Protokolle, die zum Füllen der Urchin-Datenbanken verarbeitet wurden. In den meisten Fällen beansprucht das nur einen minimalen Speicherplatz, selbst wenn alle Urchin-Datenbank endlos beibehalten werden.

Bei großen Websites jedoch, bei denen Hunderte oder Tausende von Megabyte große Webserver-Protokolle täglich erstellt werden, oder bei Hosting-Anbietern mit einer hohen Zahl konfigurierter Profile kann es sich empfehlen, die laufenden Speicheranforderungen von Urchin zu verringern. Dazu gibt es mehrere Möglichkeiten:

  1. Festlegen des Profils auf das automatische Löschen der Tracking-Rohdaten nach der Verarbeitung der Protokolle
  2. Festlegen des Profils auf das Archivieren bisher erstellter Daten
  3. Beschränken der Anzahl der Monate für das Beibehalten bisher erstellter Berichtdaten

Anleitungen zu den jeweiligen Methoden erhalten Sie am Ende dieses Artikels.

Technische Übersicht zur Urchin-Datenbankspeicherung

Urchin behält für jedes Urchin-Profil eine Gruppe von Datenbankdateien bei, die in monatlichen, nach der Konvention JJJJMM benannten Verzeichnissen gespeichert werden. Jedes dieser Verzeichnisse enthält etwa 50 Dateien mit Daten für das Berichtmodul. Das Verzeichnis und die Datenbankdateien werden nach dem Monat benannt, für den die Daten gespeichert werden. Die vollständige Liste der Datenbanken lautet:

JJJJMM-uhed –> Header für die Datenbank

JJJJMM-usti –> Zeichenfolgenindex

JJJJMM-ustd –> Zeichenfolgendaten

JJJJMM-udai –> Aggregattabellenindex

JJJJMM-udXX –> Aggregatdatentabellen (XX wird durch die Tabellennummer aus der Datenzuordnung ersetzt)

JJJJMM-uvii –> Besucherindex

JJJJMM-uvid –> Besucherdaten

JJJJMM-used –> Sitzungsdaten

JJJJMM-upad –> Pfaddaten

JJJJMM-utrd –> Transaktionsdaten (Ecommerce)

JJJJMM-uitd –> Artikeldaten (Ecommerce)

JJJJMM-ulti –> Protokoll-Tracking-Index

JJJJMM-ultd –> Protokoll-Tracking-Daten

JJJJMM-utod –> Summendaten

JJJJMM-uhid –> Histogrammdaten

JJJJMM-umad –> Besuchermatrixdaten

Jede Datenbankgruppe enthält die vollständigen Daten für den jeweiligen Monat. Da zwischen den monatlichen Datenbankengruppen keine Abhängigkeiten bestehen, können Archivierungs- und Löschvorgänge zu jeder Datenbankgruppe ohne Auswirkung auf andere Datenbankgruppen vorgenommen werden.

Normalerweise wird die gesamte Gruppe der monatlichen Datenbankdateien für jeden Monat beibehalten. Jedoch werden vier dieser Datenbankdateien ausschließlich vom Urchin-Protokollverarbeitungsmodul verwendet:

JJJJMM-usti

JJJJMM-udai

JJJJMM-ulti

JJJJMM-ultd

Die folgenden Datenbankdateien werden vom Urchin-Protokollverarbeitungsmodul und für die segmentübergreifende Anzeige sowie für detaillierte Analysen zu Besuchern in Berichten verwendet. Wird ihr Inhalt entfernt, wirkt sich das nur auf diese Berichtfunktionen aus.

JJJJMM-uvii

JJJJMM-uvid

JJJJMM-used

JJJJMM-upad

JJJJMM-utrd

JJJJMM-uitd

Diese Datenbanken enthalten Informationen zu Besuchern, Sitzungen, Pfaden, Transaktionen und Produkten. Diese Dateien können einen beachtlichen Prozentsatz des für den Monat benötigten Gesamtspeicherplatzes beanspruchen: ungefähr 10 bis 50 Prozent. Somit kann mit dem Deaktivieren der Option „Unformatierte Tracking-Daten beibehalten“ auf der Seite „Speicherkapazität/Datenbank“ der Profilkonfiguration erheblich Speicherplatz gespart werden.

Es wird empfohlen, die Beibehaltung der Tracking-Rohdaten nur bei Websites mit extrem hohen Zugriffszahlen zu deaktivieren, bei denen der Verbrauch von Speicherplatz oder CPU-Ressourcen eine Rolle spielt.

Eine andere Möglichkeit, Speicherplatz zu sparen, ist das Komprimieren bisher erstellter monatlicher Urchin-Datenbanken in ZIP-Archive. Diese Archive entsprechen normalerweise nur 20 bis 30 Prozent der Größe einer unkomprimierten Datenbankgruppe. Das Urchin-Berichtmodul kann ZIP-Archive zwar nicht direkt lesen, kann jedoch die benötigten Datenbanken automatisch aus den ZIP-Archiven extrahieren. Abgesehen von einer leichten Verzögerung beim Dekomprimieren der Datenbanken stellt dieser Vorgang für den Nutzer, der die Urchin-Berichte anzeigt, keinen Aufwand dar. Das Berichtmodul entfernt die dekomprimierten Datenbanken nicht. Dadurch kann der Nutzer beim Anzeigen der Urchin-Berichte schneller auf die Daten zugreifen. Allerdings bleiben die ursprünglichen ZIP-Archive, wie sie sind. Mit einer regelmäßigen Bereinigung können deshalb ganz einfach die dekomprimierten Datenbanken entfernt und Speicherplatz freigegeben werden.

Die letzte Möglichkeit zum Verringern der Speicherplatzanforderungen von Urchin besteht im Erstellen einer Richtlinie hinsichtlich der Dauer, für die bisher erstellte Berichte von Urchin bereitgestellt werden. Beispielsweise werden in Umgebungen, in denen Urchin als Berichterstellungsdienst im Rahmen eines Hosting-Pakets bereitgestellt wird, früher erstellte Urchin-Daten meist für den Zeitraum eines Jahres beibehalten. Da die Urchin-Datenbanken nach Monaten organisiert sind, können ältere monatliche Datenbanken nach dem Überschreiten einer bestimmten Altersgrenze ganz einfach mithilfe automatischer Skriptverfahren entfernt werden. Durch die Implementierung einer Richtlinie zur Aufbewahrungsdauer bisher erstellter Berichte stabilisieren sich in der Regel die Speicheranforderungen von Urchin und erhöhen sich gegebenenfalls nur leicht gegen Ende der Aufbewahrungsfrist.

Methoden zum Verringern des Datenspeichers – Vorgehensweisen

Methode 1: Löschen der Tracking-Rohdaten nach der Protokollverarbeitung

Sie können das Profil so konfigurieren, dass Rohdaten zu Besuchern und Sitzungen nach der Verarbeitung gelöscht werden. Bei großen Websites erhöht sich dadurch die Leistung und verringert sich die Menge der gespeicherten Daten. Hinweis: Bei dieser Konfiguration werden Sitzungen mit Tagesübergängen als zwei Sitzungen (eine für jeden Tag) anstatt als einzelne Sitzung erfasst. Bei den meisten Websites ist die sich dadurch ergebende Differenz unerheblich.

So konfigurieren Sie das Profil zum Löschen von Rohdaten zu Besuchern und Sitzungen nach der Verarbeitung.

  1. Klicken Sie auf der Verwaltungsoberfläche auf „Konfiguration“ und dann auf „Urchin-Profile“ -> „Profile“.
  2. Bearbeiten Sie das entsprechende Profil.
  3. Deaktivieren Sie auf der Registerkarte „Speicherkapazität/Datenbank“ die Option „Unformatierte Tracking-Daten beibehalten“.
  4. Klicken Sie auf „Aktualisieren“.

Methode 2: Automatisches Archivieren bisher erstellter Daten

Sie können das Profil so konfigurieren, dass bisher erstellte monatliche Daten in ein Archiv komprimiert werden. In den Berichten können archivierte Daten zwar angezeigt werden, es können jedoch für die archivierten Monate keine weiteren Treffer verarbeitet werden.

So konfigurieren Sie das Profil zum Archivieren bisher erstellter Daten

  1. Klicken Sie auf der Verwaltungsoberfläche auf „Konfiguration“ und dann auf „Urchin-Profile“ -> „Profile“.
  2. Bearbeiten Sie das entsprechende Profil.
  3. Aktivieren Sie auf der Registerkarte „Speicherkapazität/Datenbank“ die Option Datenbank archivieren.
  4. Geben Sie die Anzahl der Monate im Feld „Datenbank archivieren nach“ an.
  5. Klicken Sie auf „Aktualisieren“.

Methode 3: Beschränken der Beibehaltungsdauer bisher erstellter Berichte

Entfernen Sie ganz einfach für jedes Urchin-Profil die Datenbanken im Verzeichnis „data/reports/Profilename“, an deren JJJJMM-Präfix erkennbar ist, dass die Dauer zur Beibehaltung der Berichte überschritten ist. Beispiel: Sie möchten Berichte für ein Jahr beibehalten und der aktuelle Monat ist Februar 2004. Sie entfernen nun alle Datenbanken mit dem Namen „200301-*data.un*“, um die Berichtdaten für Januar 2003 für dieses Urchin-Profil zu löschen. Diesen Schritt wiederholen Sie für alle Datenbanken, die älter sind als Januar 2003.

Kommentieren

Suchen