Regexy II ========= ## Backtracking ## ('a' x 999) ~~ rx{^(aa|aaaa)*$} <-- exponenciální ('a' x 9) ~~ rx{^(a|aa)(aa)*$} <-- backtrackuje přes volby v | ('a' x 9) ~~ rx{^(a|aa):(aa)*$} <-- zákaz BT => selže (podobně :r) ('a' x 9) ~~ rx{^(a+)([aa]+)$} <-- backtrackuje přes "+ ('a' x 9) ~~ rx:r{^(a+)([aa]+)$} <-- zákaz BT => selže ('a' x 9) ~~ rx:r{^(a+!)([aa]+)$} <-- pro konkrétní "+" povolím BT ## Longest token match (co doopravdy dělá A|B) ## Vítězí nejdelší "čistokrevný prefix": * patří do něj vše vyhodnotitelne bez side-efektů * zalézá se i do podregexů, ale nikoliv rekurzivně * idiom {} pro ukončení prefixu -> Perl6 si odvozuje vlastní tokenizer ## Příslovce ## Při deklaraci regexu (mohou být i kdekoliv uvnitř): :i :ignorecase <-- nerozlišovat velká/malá písmena :r :ratchet <-- zákaz backtrackingu :s :sigspace <-- signifikantní whitespace (volá , kdekoliv se v regexu objeví mezery) Defaultní pravidlo ekvivalentní /\s*/ -- tedy mezi dvěma znaky slova povinné mezery, jinde volitelné. Např.: "my sub" ~~ rx:s/my sub/ "mysub" !~~ rx:s/my sub/ "1+ 1" ~~ rx:s/\d+ "+" \d+/ Při matchování: :c(N) :continue(N) <-- pokračuje od dané pozice :c :continue <-- pokračuje od $/.to, je-li $/ definováno (jinak 0) :p(N) :pos(N) <-- vyžaduje výskyt začínající na dané pozici :g :global <-- hledá všechny nepřekrývající se výskyty, $/=list :e :exhaustive <-- ... i ty překrývající se :o :overlap <-- pro každou pozici nejdelší výskyt Gramatiky --------- Skupina pojmenovaných regexů, které se na sebe odkazují, dohromady obvykle parsuje nějaký jazyk. Ve skutečnosti třída, regexy=metody. Regexové deklarátory: * regex { ... } * token { ... } <---> regex { :r ... } # zakazuje backtrackování * rule { ... } <---> regex { :r :s ... } # + sigspace grammar SimpleJSON { token string-char { <-[\\\"]> | '\u' <[0..9]>**4 | \\<["/\\bfnrt]> } token string { '"' <.string-char>*? '"' } token integer { '-'? <[0..9]>+ } rule value { | | } rule list { '[' * % ',' ']' } rule TOP { \s* \s* } # na krajích sigspace nezabere } Gramatika má metodu parse, která matchuje pravidlo TOP a vrací Match objekt. Díky automatickému zachytávání <...> výsledek je syntaktický strom. > say SimpleJSON.parse(q{ [42, "hroch", [1, 2]] }) '[42, "hroch", [1, 2]]' value => '[42, "hroch", [1, 2]]' list => '[42, "hroch", [1, 2]]' value => '42' integer => '42' value => '"hroch"' string => '"hroch"' value => '[1, 2]' list => '[1, 2]' value => '1' integer => '1' value => '2' integer => '2' ## Dědičnost ## Gramatiky jsou třídy, dají se dědit. Jednotlivá pravidla jsou interně metody: dají se předefinovat a můžete se odkázat na zděděnou (přímo, zatím moc nefungují callwith a spol). Platí běžná pravidla dědičnosti a MRO, můžete používat role. grammar BetterJSON is SimpleJSON { rule object { '{' * % ',' '}' } rule field { ':' } rule value { |