Computerwissenschaften

Analysieren von Textdateien mit Perl

Das Parsen von Textdateien ist einer der Gründe, warum Perl ein großartiges Data Mining- und Scripting-Tool ist.

Wie Sie unten sehen werden, kann Perl verwendet werden, um eine Textgruppe grundsätzlich neu zu formatieren. Wenn Sie auf den ersten Textabschnitt und dann auf den letzten Teil unten auf der Seite schauen, können Sie sehen, dass der Code in der Mitte den ersten Satz in den zweiten verwandelt.

 

So analysieren Sie Textdateien

Als Beispiel erstellen wir ein kleines Programm, das eine durch Tabulatoren getrennte Datendatei öffnet und die Spalten in etwas analysiert, das wir verwenden können.

Nehmen wir zum Beispiel an, Ihr Chef gibt Ihnen eine Datei mit einer Liste von Namen, E-Mails und Telefonnummern und möchte, dass Sie die Datei lesen und etwas mit den Informationen tun, z. B. sie in eine Datenbank stellen oder sie einfach ausdrucken in einem schön formatierten Bericht.

Die Spalten der Datei werden durch das TAB-Zeichen getrennt und sehen ungefähr so ​​aus:


 Larry [email protected] 111-1111

 

 Curly [email protected] 222-2222

 

 Moe [email protected] 333-3333

Hier ist die vollständige Liste, mit der wir arbeiten werden:


 #! / usr / bin / perl

 


 

 open (FILE, 'data.txt');

 

 while () {

 

 chomp;

 

 ($ name, $ email, $ phone)=split ("\ t");

 

 print "Name: $ name \ n";

 

 print "Email: $ email \ n";

 

 print "Telefon: $ phone \ n";

 

 print "--------- \ n";

 

 }}

 

 Datei schließen);

 

 Ausfahrt;

 


Hinweis:  Hiermit wird Code aus dem Lernprogramm zum Lesen und Schreiben von Dateien in Perl abgerufen .

Zunächst wird eine Datei mit dem Namen data.txt geöffnet (die sich im selben Verzeichnis wie das Perl-Skript befinden sollte). Anschließend wird die Datei zeilenweise in die catchall-Variable $ _ eingelesen. In diesem Fall wird $ _ impliziert und im Code nicht verwendet.

Nachdem in einer Zeile zu lesen, wird jeder Leerzeichen chomped vom Ende. Dann wird die Teilungsfunktion verwendet, um die Linie auf dem Tabulatorzeichen zu unterbrechen. In diesem Fall wird die Registerkarte durch den Code \ t dargestellt . Links neben dem Split-Zeichen sehen Sie, dass ich eine Gruppe von drei verschiedenen Variablen zuweise. Diese repräsentieren eine für jede Spalte der Zeile.

Schließlich wird jede Variable, die von der Zeile der Datei getrennt wurde, separat gedruckt, damit Sie sehen können, wie Sie auf die Daten jeder Spalte einzeln zugreifen können.

Die Ausgabe des Skripts sollte ungefähr so ​​aussehen:


 Name: Larry

 

 E-Mail: [email protected]

 

 Telefon: 111-1111

 

 ---------

 

 Name: Curly

 

 E-Mail: [email protected]

 

 Telefon: 222-2222

 

 ---------

 

 Name: Moe

 

 E-Mail: [email protected]

 

 Telefon: 333-3333

 

 ---------

Obwohl wir in diesem Beispiel nur die Daten ausdrucken, ist es trivial einfach, dieselben Informationen, die aus einer TSV- oder CSV-Datei analysiert wurden, in einer vollwertigen Datenbank zu speichern.

Similar Posts

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.