Jak hledat slova s diakritikou pomocí regulárních výrazů v PHP

UTF-8 znaky jsou v regulárních výrazech rozřazeny do skupin podle účelu (malá a velká písmena, čísla, spojovníky …) a lze je vyhledávat pomocí sekvence \p{xx} kde xx je klíč skupiny.

Vyhledat česká slova s velkým písmenem na začátku lze pomocí regexu např. takto:

$string = 'Červená jablka Šampion uzrála v Říčanech';

// najdi všechna slova začínající velkým písmenem (UTF-8).
// obdoba patterun '#[A-Z][a-z]+#u' pro kódování ASCII
$pattern = '#\p{Lu}\p{Ll}+#u'; 

preg_match_all($pattern,$string,$matches);

// Array ( [0] => Array ( [0] => Červená [1] => Šampion [2] => Říčanech ) );

Kompletní seznam klíčů na php.net

Seznam klíčů skupin UTF-8 v PHP

Přidejte komentář