6-kmp/6-kmp.tex

   1 \input lecnotes.tex
   2
   3 \prednaska{6}{Vyhledávání v textu}{(zapsal K. Ka¹èák, M. Klauèo, M. Vachna)}
   4
   5 \s{Úkol:} V~textu s~délkou $S$ najít v¹echny výskyty hledaného slova s~délkou $J$ (hledaných slov).
   6
   7 \h{Hloupý algoritmus}
   8
   9 Algoritmus prochází sekvenènì textem a hledaným vzorovým slovem. Pøi neshodì se ve vzorovem slovì vrací na zaèátek a v~textu pokraèuje znakem, v~kterém nastala neshoda. Èasová slo¾itost je $\O(S)$. Tento algoritmus funguje pouze jen pro vzorová slova bez opakujících se znakù.
  10
  11 \s{Pøíklad:} Hledání vzorového slova |jehla| v~textu |vkupcejejehla|. Ve chvíli kdy máme prefix |je| a na vstupu dostaneme |j|, dochází k~neshodì a pokraèujeme v~hledání od tohoto znaku.
  12
  13 \h{Neefektivní algoritmus}
  14
  15 Algoritmus prochází text od zaèátku a¾ do konce a pro ka¾dou pozici v~textu zkontroluje, zda na této pozici nezaèíná hledané slovo. Tak pro ka¾dou pozici provede a¾ $S$ porovnání znakù, èili celkem a¾ $SJ$ porovnání. Proto je èasová slo¾itost $\O(SJ)$.
  16
  17 \h{Chytrý algoritmus}
  18
  19 Algoritmus je vylep¹ením Neefektivního algoritmu, konkretnì zpùsobu jakým sa vrací v textu pøi neshodì mezi znakem textu a
  20 znakem vzorového slova.
  21
  22 \s{Pøíklad:} Pro vzorové slovo |ajaajak| jsme na¹li v~textu prefix |ajaaja|. Oèakávame |k|.
  23 \itemize\ibull
  24 \:Kdy¾ ale dostaneme |a| a budeme mít prefix |ajaajaa|, vracíme se v~textu za první |aja|, tedy prefix zkrátíme na |ajaa| a pokraèujeme v~hledání.
  25 \:Kdy¾ je nasledující znak |j| a budeme mít prefix |ajaajaj|, vracíme se v~textu za |ajaaj|, tedy prefix zkrátíme na |aj| a pokraèujeme v~hledání.
  26 \:V~pøípadì, ¾e dostaneme jiný znak, v~textu se nevracíme a pokraèujeme dal¹ím znakem v~textu.
  27 \endlist
  28
  29 \s{Definice a znaèení pro øetìzce (slova):}
  30 \itemize\ibull
  31 \s{Definice:}
  32 \itemize\ibull
  33 \:{\I Abeceda $\Sigma$} je koneèná mno¾ina znakù, ze kterých tvoøíme text, øetìzece, slova jako koneèné posloupnosti znakù ze $\Sigma$. Pøíkladem extrémních abeced je lineární abeceda slo¾ená z~nul a jednièek. Pøíklad s~druhého konce je abeceda, která má jako znaky slova èeského jazyka. V algoritmech nebudeme uva¾ovat velikost abecedy (poèet znakù).
  34 \:{\I $\Sigma$*} je mno¾ina v¹ech slov nad abecedou $\Sigma$.
  35 \endlist
  36 \s{Znaèení:}
  37 \itemize\ibull
  38 \:{\I Slova} budeme znaèit malými písmeny øecké abecedy $\alpha$, $\beta$, \dots,
  39 \:{\I Znaky} velkými písmeny latinky $A$, $B$, \dots
  40 \:{\I Prázdné slovo} znaèíme písmenem $\varepsilon$.
  41 \:{\I Délka slova} $\vert \alpha  \vert$ pro $\alpha \in \Sigma^*$ je poèet znakù.
  42 \:{\I Zøetìzení} $\alpha\beta$ vznikne zapsáním slov $\alpha$ a $\beta$ za sebe. Platí: $\alpha\varepsilon=\varepsilon\alpha=\alpha$, $\vert \alpha\beta  \vert=\vert \alpha \vert+\vert \beta \vert$.
  43 \:$\alpha[i]$ je $i$-té písmeno slova $\alpha$, indexuje se od $0$.
  44 \:$\alpha[i:j]$ je podslovo tvoøené písmeny $\alpha[i]$,...,$\alpha[j-1]$. Pøíklady: $\alpha[i:i+1]=\alpha[i]$, $\alpha[i:i]=\varepsilon$, $\alpha[:]=\alpha$.
  45 \:$\alpha[:j]$ je prefix obsahující prvních $j$ znakù slova $\alpha$.
  46 \:$\alpha[i:]$ je suffix obsahující znaky slova $\alpha$ poèínaje $i$-tým znakem.
  47 \:Ka¾dé slovo je prefixem i suffixem sebe sama, takovému prefixu resp. suffixu øíkáme {\I nevlastní}. V¹em ostatním {\I vlastní}.
  48 \:Prázdné slovo je podslovem, prefixem i suffixem ka¾dého slova vèetnì prázdného slova.
  49 \endlist
  50 \endlist
  51
  52 \s{Problém:}
  53 \itemize\ibull
  54 \s{IN:}
  55 \itemize\ibull
  56 \:$\iota$ slovo (jehla) délky $J=\vert \iota \vert$,
  57 \:$\sigma$ text (seno) délky $S=\vert \sigma \vert$.
  58 \endlist
  59 \s{OUT:}
  60 \itemize\ibull
  61 \:V¹echny výskyty slova $\iota$ v textu $\sigma$: $\left\{ i : \sigma[i:i+J]=\iota \right\}.$
  62 \endlist
  63 \endlist
  64
  65 \h{Vyhledávací automat (Knuth, Morris, Pratt)}
  66 Vyhledávací automat bude vlastnì graf, jeho¾ vrcholy reprezentují stavy. Jmény stavù budou v¹echny prefixy slova $\iota$. Poèáteèní stav je prázdné slovo $\varepsilon$ a koneèný je samotná $\iota$. Dopøedné hrany grafu budou popisovat pøechod mezi stavy ve smyslu zvìt¹ení délky jména stavu (dopøedná funkce $d(\alpha , X)$), tedy ka¾dá taková hrana bude oznaèena písmenem $X$  a bude popisovat dané zvìt¹ení délky jména stavu, tedy $\alpha \rightarrow \alpha X$. Zpìtné hrany grafu budou popisovat pøechod (zpìtná funkce $z(\alpha)$) mezi stavem $\alpha$ a nejdel¹ím vlastním suffixem $\alpha$, který je prefixem $\iota$, kdy¾ nastane neshoda.
  67
  68 \figure{vautomat.eps}{Vyhledávací automat}{5.5in}
  69
  70 \s{Vyhledávaní:}
  71 \algo
  72 \:$\alpha \leftarrow \varepsilon$.
  73 \:Pro $C\in\Sigma$ postupnì:
  74 \:$\indent$Dokud $\neg \exists d(\alpha , C) \wedge \alpha\neq\varepsilon : \alpha \leftarrow z(\alpha)$.
  75 \:$\indent$Jestli¾e $\exists d(\alpha , C) \Rightarrow \alpha \leftarrow d(\alpha , C)$.
  76 \:$\indent$Jestli¾e $\alpha = \iota \Rightarrow$ hledané slovo je v~textu.
  77 \endalgo
  78
  79 \s{Alternativa:}
  80 \algo
  81 \:$k \leftarrow 0$.
  82 \:Pro $C\in\Sigma$ postupnì:
  83 \:$\indent$Dokud $C\neq \iota[k] \wedge k>0: k \leftarrow z(k)$.
  84 \:$\indent$Jestli¾e $C=\iota[k] \Rightarrow k++$.
  85 \:$\indent$Jestli¾e $k = J \Rightarrow$ hledané slovo je v~textu.
  86 \endalgo
  87
  88 \s{Invariant:} Stav po pøeètení vstupu $\beta$: $\alpha(\beta)$ $=$ nejdel¹í suffix $\beta$, který je prefixem $\iota$.
  89 Z~invariantu vyplývá korektnost vyhledávací èásti algoritmu KMP.
  90
  91 \proof
  92 Dùkaz indukcí. Na zaèátku pro prázdný naètený vstup platí invariant, tedy prázdný suffix $\beta$ je prefixem $\iota$. V~kroku $n$ máme naètený vstup $\beta$ a k~nìmu naèteme znak $C$. Jestli¾e si odmyslíme $C$, tedy kdy¾ si od jména stavu odmyslíme poslední písmenko, dostaneme znovu jméno stavu. Tak stav, který pasuje na konec vstupu bez toho $C$, je stavem, který pasuje na konec pùvodního vstupu, toho o~jeden znak krat¹ího. Tím pádem to musí být nìco, co je maximálnì tak dlouhé jako pùvodní stav, u~kterého jsme byli, proto¾e to byl nejdel¹í, který pasoval. Staèí procházet postupnì v¹echny stavy, které pasují na konec toho vstupu od nejdel¹ího k~nejkrat¹ímu a vzít první, který se dá roz¹íøit o $C$. To je pøesnì to, co algoritmus dìlá, proto¾e zpìtná funkce øekne nejbli¾¹í krat¹í jméno stavu. Tak¾e algoritmus iteruje pøes stavy, které tam pasují, a¾ najde jeden, který se dá roz¹íøit o~$C$, a jeliko¾ iteroval od nejdel¹ího, tak to je logicky ten nejdel¹í, který tam pasuje.
  93 \qed
  94
  95 \s{Lemma:} Vyhledávaní dobìhne v~èase $\O(S)$.
  96
  97 \proof
  98 Pro ka¾dý znak vstupního textu mohou nastat dva pøípady. Znak roz¹iøuje aktuální prefix, nebo musíme pou¾ít zpìtnou funkci (zpìtnou hranu). Roz¹irování trvá konstantnì mnoho èasu, zatímco zpìtná funkce mu¾e být pro jeden znak volána a¾ $J$-krát. Pøi ka¾dém volání klesne délka aktuálního stavu minimálnì o~jedna a zároveò platí, ¾e kdykoliv stav prodlu¾ujeme, roste právì o~jeden znak. Proto v¹ech zkrácení dohromady mu¾e být nejvý¹e tolik, kolik bylo v¹ech prodlou¾ení, t.j. kolik jsme pøeèetli znakù textu. Celkem je tedy poèet krokù lineární vzhledem k~délce textu.
  99 \qed
 100
 101 \s{Konstrukce zpìtné funkce:}
 102 \algo
 103 \:Sestrojíme dopøedné hrany.
 104 \:$z( \varepsilon ) \leftarrow \emptyset$, $z( \iota [0]) \leftarrow \varepsilon $.
 105 \:$\alpha \leftarrow \varepsilon$.
 106 \:Pro $i = 1$ do $J-1$:
 107 \:$\indent$$\alpha \leftarrow krok( \alpha , \iota [i])$.
 108 \:$\indent$$z( \iota [0:i+1]) \leftarrow \alpha$.
 109 \endalgo
 110
 111 \s{Vysvìtlení:} V¹imnìte si, ¾e $z(i)$ je pøesnì stav, do nìho¾ se dostaneme pøi spu¹tìní na¹eho vyhledávacího algoritmu na øetìzec $\iota [2:i]$, èili na $i$-tý prefix bez prvního písmenka. Proè to tak je? Zpìtná funkce øíká, jaký je nejdel¹í vlastní suffix daného stavu, který je také stavem, zatímco $\alpha$ oznaèuje nejdel¹í suffix textu, který je stavem. Tyto dvì vìci se pøeci li¹í jen v~tom, ¾e ta druhá pøipou¹tí i nevlastní suffixy, a právì tomu zabráníme odstranìním prvního znaku. Tak¾e $z()$ získáme tak, ¾e spustíme vyhledávání na èást samotného slova $\iota$. Jen¾e k~vyhledávání zase potøebujeme zpìtnou funkci $z$. Proto budeme zpìtnou funkci vytváøet postupne od nejkrat¹ích prefixu. Zøejmì $z(1) = \varepsilon$. Pokud ji¾ máme $z(i)$, pak výpoèet $z(i+1)$ odpovídá spu¹tení automatu na slovo délky i a pritom budeme zpìtnou funkci potøebovat jen pro stavy délky $i$ nebo men¹í, pro které ji ji¾ máme hotovou.
 112
 113 Navíc nemusíme pro jednotlivé prefixy spou¹tìt výpoèet v¾dy znovu od zaèátku, proto¾e $(i+1)$-ní prefix
 114 je prodlou¾ením $i$-tého prefixu o~jeden znak. Staèí tedy spustit algoritmus na celý øetìzec $\iota[1:J]$ a sledovat, jakými stavy bude procházet. A to budou pøesnì hodnoty zpìtné funkce. Vytvoøení zpìtné funkce se tak nakonec zredukovalo na jediné vyhledávání v~textu o~délce $J-1$, a proto pobe¾í v case $\O(J)$. Èasová slo¾itost celého algoritmu tedy bude $\O(S+J)$.
 115
 116 \h{Algoritmus (Rabin, Karp)}
 117 Tenhle algoritmus funguje tak, ¾e porovnává hash hledaného øetìzce s~hashem aktuálního podøetìzce v~textu a aktuální podøetìzec porovná se vzorkem pouze v~pøípadì, kdy¾ mají shodný hash. Kdy¾ si zvolíme tu správnou hashovací funkci, budeme moci vypoèítat hash následujíciho podøetìzce na základe hashe toho aktuálního. Jako hashovací funkci $h: \Sigma^J \rightarrow {\bb Z}$ pou¾ijeme následující:
 118 $$h(x_{0},...,x_{J-1}) = ( \sum_{i=0}^{J-1} x_{i}.p^{J-i}) \bmod N,$$
 119 kde $N$ je velikost prostoru, do kterého hashujeme. Jak zjistíme hash $h{'}$ následujícího podøetìzce?
 120 \itemize\ibull
 121 \:$h = x_{0}.p^{J} + x_{1}.p^{J-1} + ... + x_{J-1}.p^{1}$
 122 \:$h^{'} = x_{1}.p^{J} + x_{2}.p^{J-1} + ...    + x_{J}.p^{1}$
 123 \:$h^{'} = (h - x_{0}.p^{J}).p + x_{J}.p^{1}$
 124 \endlist
 125 Tady mù¾eme vidìt, ¾e hash následujícího øetìzce lze pøepoèítat na základì toho pøedchozího v konstantním èase. Èasová slo¾itost je v nejlep¹ím pøípadì lineární vzhledem k~délce textu, zatímco nejhor¹í pøípad mù¾e trvat $\O(JS)$.
 126
 127 \bye