четверг, февраля 19, 2009

Perl - Проверка email регулярным выражением

Задался тут целью выловить таки в присылаемых мне списках некорректные адреса электронной почты. Идя по пути наименьшего сопротивления, обратился в гугл. От туда на форум Opennet.ru. И уже от туда на, как оказалось, замечательный сайт посвященный регулярным выражениям.
Совсем немного времени и в моём распоряжении регулярное выражение для валидации адресов электронной почты. Ещё капелька усилий и имеем скрипт для вывода email, не проходящих проверку.

#!D:\Perl\bin\perl.exe
use strict;
use warnings;
# открываем файл с адресами
open (my $emailh, 'emails.csv') or die $!;
# считываем построчно в переменную "по-умолчанию" $_
while (<$emailh>) {
# "магия" начинается тут.
# если считанная строка не проходит проверку, то выводим её на экран  
print if ($_ !~ m{(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])}i)
}
# закрываем файл
close $emailh;

Что удивительно - скрипт отработал как надо. За исключением одного момента. Скрипт, вернее само регулярное выражение, почему-то забраковало адрес вида xxx@mtu_net.ru
Надо почитать что там в официальном стандарте говорится об этом.

1 комментарий: