Regular Expressions und Top Level Domains

Karl Jepertinger — Wed, 04 Oct 2017 19:20:00 +0000

Eine häufige Aufgabe in der Programmierung ist das suchen/validieren von Email-Adressen. Mal davon abgesehen, dass ein regulärer Ausdruck nur bedingt dazu benutzt werden kann, funktionieren filtern grobe Näherungen schon mal die meisten. Dies ist eine grobe Näherung wie sie in vielen Programmen bereits hinterlegt ist. Auch im Internet finden sich noch oft Ausdrücke wie dieser (Quelle):

strPattern = "^([a-zA-Z0-9_\-\.]+)@[a-z0-9-]+(\.[a-z0-9-]+)*(\.[a-z]{2,3})$"

In diesem Blogpost geht es mir im besonderen um das Matching der Toplevel-Domain. Dabei ist vielfach noch hinterlegt, dass diese zwischen zwei und drei Buchstaben lang sein muss. Das gilt aber leider nur bei „country code top level domains“, die eben einem Land gehören. Generische Top Level Domains sind meist länger. Eine“.info“-Domain ist valide, würde aber von obigem Regex nicht gematcht.

strPattern = "^([a-zA-Z0-9_\-\.]+)@[a-z0-9-]+(\.[a-z0-9-]+)*(\.[a-z]{2,})$"

Obiger Regex ist derweil immer noch nur eine Näherung an den IEEE-Standard, filtert aber längere Toplevel-Domains nicht mehr aus.

Oracle SQL String Split in mehrere Zeilen/Rows

Karl Jepertinger — Thu, 25 May 2017 16:31:56 +0000

Auch mit dem besten Datenbankmodell gibt es Importe und Situationen in denen in einem Feld mehrer Werte durch Separatoren getrennt hinterlegt sind.

Um diese Werte in Zeilen umzuwandeln gibt es genügend Varianten im Internet zu finden: z.b. auf Stackoverflow. Die meisten Lösungen arbeiten dabei mit regulären Ausdrücken und der Funktion „regexp_substr“. Die gehen einfach von der Hand, wirken sich bei größeren Datenmengen, wie sie in einem Datawarehouse vorkommen, aber durchaus auf die Performance aus. Um nicht mit Kanonen auf Spatzen zu schießen, läßt sich das Splitten alternativ mit einfachen Stringfunktionen lösen.

Im folgenden Beispiel gilt es den String „12,22,3“ in 12 – 22 – 3 zu teilen.

with input as
(
select '12,22,3' str from dual
)
select level, str,
trim(',' from substr(str, instr(str,',',1,level), instr(str,',',1,level+1)-instr(str,',',1,level)))
,instr(str,',',1,level), instr(str,',',1,level+1)
from input
connect by instr(str,',',1,level+1) != 0 ;

Um nun den Separator nicht noch mehrfach zu wiederholen, wäre es noch schön diesen in einem eigenen Block auszulagern. Das würde hier aber der Leserlichkeit schaden.

Reguläre Ausdrücke sind eine prima Sache, müssen aber mit Bedacht eingesetzt werden. Manch harmloser Ausdruck kann auch durchaus die Datenbank auf Anschlag belasten. Wenn möglich sind einfache, berechenbare Funktion vorzuziehen.

regexp – Karl Jepertinger IT Consulting

Regular Expressions und Top Level Domains

Oracle SQL String Split in mehrere Zeilen/Rows