6-kmp/6-kmp.tex

   1 \input lecnotes.tex
   2
   3 \prednaska{6}{Vyhledávání v textu}{(zapsal K. Ka¹èák, M. Klauèo, M. Vachna)}
   4
   5 \s{Úkol:} V~textu s~délkou $S$ najít v¹echny výskyty hledaného slova s~délkou $J$.
   6
   7 \h{Hloupý algoritmus}
   8
   9 Algoritmus prochází sekvenènì textem a hledaným vzorovým slovem. Pøi neshodì se ve vzorovem slovì vrací na zaèátek a v~textu pokraèuje znakem, ve~kterém nastala neshoda. Èasová slo¾itost je $\O(S)$. Tento algoritmus funguje pouze pro vzorová slova, ve kterých se neopakuje první znak.
  10
  11 \s{Pøíklad:} Hledání vzorového slova |jehla| v~textu |vkupcejejehla|. Ve chvíli kdy máme prefix |je| a na vstupu dostaneme |j|, dochází k~neshodì a pokraèujeme v~hledání od tohoto znaku. Pro tenhle pøípad algoritmus najde vzorové slovo. To ale ji¾ neplatí
  12 pro vzorové slovo |kokos| v~textu |clanekokokosu|. Ve chvíli kdy máme prefix |koko| a na vstupu dostaneme |k|, dochází k~neshodì a pokraèujeme v~hledání od tohoto znaku, tím ale zahodíme potøebnou èást a algoritmus sel¾e.
  13
  14 \h{Neefektivní algoritmus}
  15
  16 Algoritmus prochází text od zaèátku a¾ do konce a pro ka¾dou pozici v~textu zkontroluje, zda na této pozici nezaèíná hledané slovo. Tak pro ka¾dou pozici provede a¾ $S$ porovnání znakù, èili celkem a¾ $SJ$ porovnání. Proto je èasová slo¾itost $\O(SJ)$.
  17
  18 \h{Chytrý algoritmus}
  19
  20 Algoritmus je vylep¹ením Neefektivního algoritmu, konkrétnì zpùsobu, jakým sa vrací v textu pøi neshodì mezi znakem textu a
  21 znakem vzorového slova.
  22
  23 \s{Pøíklad:} Pro vzorové slovo |ajaajak| jsme na¹li v~textu prefix |ajaaja|. Oèekávame |k|.
  24 \itemize\ibull
  25 \:Kdy¾ ale dostaneme |a| a budeme mít prefix |ajaajaa|, vracíme se v~textu za první |aja|, tedy prefix zkrátíme na |ajaa| a pokraèujeme v~hledání.
  26 \:Kdy¾ je nasledující znak |j| a budeme mít prefix |ajaajaj|, vracíme se v~textu za |ajaaj|, tedy prefix zkrátíme na |aj| a pokraèujeme v~hledání.
  27 \:V~pøípadì, ¾e dostaneme jiný znak, se v~textu nevracíme a pokraèujeme dal¹ím znakem textu.
  28 \endlist
  29
  30 \s{Definice a znaèení pro øetìzce (slova):}
  31
  32 \s{Definice:}
  33 \itemize\ibull
  34 \:{\I Abeceda $\Sigma$} je koneèná mno¾ina znakù, ze~kterých tvoøíme text, øetìzce, slova jako koneèné posloupnosti znakù z $\Sigma$. Pøíkladem extrémních abeced je binární abeceda slo¾ená z~nul a jednièek. Pøíklad z~druhého konce je abeceda, která má jako znaky slova èeského jazyka. V algoritmech nebudeme uva¾ovat velikost abecedy (poèet znakù), budeme pøedpokládat, ¾e je to konstanta.
  35 \:{\I $\Sigma^*$} je mno¾ina v¹ech slov nad abecedou $\Sigma$.
  36 \endlist
  37 \s{Znaèení:}
  38 \itemize\ibull
  39 \:{\I Slova} budeme znaèit malými písmeny øecké abecedy $\alpha$,$\beta$... a {\I znaky} malými písmeny latinky $a$,$b$... .
  40 \:{\I Prázdné slovo} znaèíme písmenem $\varepsilon$.
  41 \:{\I Délka slova} $\vert \alpha  \vert$ pro $\alpha \in \Sigma^*$ je poèet jeho znakù.
  42 \:{\I Zøetìzení} $\alpha\beta$ vznikne zapsáním slov $\alpha$ a $\beta$ za sebe. Platí $\alpha\varepsilon=\varepsilon\alpha=\alpha$, $\vert \alpha\beta  \vert=\vert \alpha \vert+\vert \beta \vert$.
  43 \:$\alpha[i]$ je $i$-té písmeno slova $\alpha$, indexuje se od $0$.
  44 \:$\alpha[i:j]$ je podslovo tvoøené písmeny $\alpha[i]$,...,$\alpha[j-1]$. Pøíklady: $\alpha[i:i+1]=\alpha[i]$, $\alpha[i:i]=\varepsilon$. Vynechaním první meze získame prefix ($\alpha[:j]$), druhé meze suffix ($\alpha[i:]$), obou mezí dostaneme celé slovo ($\alpha[:]$=$\alpha$).
  45 \:$\alpha[:j]$ je {\I prefix} obsahující prvních $j$ znakù slova $\alpha$.
  46 \:$\alpha[i:]$ je {\I suffix} obsahující znaky slova $\alpha$ poèínaje $i$-tým znakem.
  47 \:Ka¾dé slovo je prefixem i suffixem sebe sama, takovému prefixu/suffixu øíkáme {\I nevlastní}. V¹em ostatním {\I vlastní}.
  48 \:Prázdné slovo je podslovem, prefixem i suffixem ka¾dého slova vèetnì prázdného slova.
  49 \endlist
  50
  51
  52 \s{Problém:}
  53
  54 Vstupem je $\iota$ hledané slovo (jehla) délky $J=\vert \iota \vert$ a $\sigma$ text (seno) délky $S=\vert \sigma \vert$.
  55
  56 Výstupem jsou v¹echny vyskyty hledaného slova $\iota$ v textu $\sigma$: $\left\{ i\vert \sigma[i:i+J]=\iota \right\}$
  57
  58 \h{Vyhledávací automat (Knuth, Morris, Pratt)}
  59 Vyhledávací automat bude graf, jeho¾ vrcholùm øíkame stavy automatu. Jména stavù budou v¹echny prefixy slova $\iota$. Poèáteèní stav je prázdné slovo $\varepsilon$ a koncový je celá $\iota$. Dopøedné hrany grafu budou popisovat pøechod mezi stavy ve~smyslu zvìt¹ení délky jména stavu (dopøedná funkce $d(\alpha , X)$), tedy ka¾dá taková hrana bude oznaèena písmenem $X$  a bude popisovat dané zvìt¹ení délky jména stavu, tedy $\alpha \rightarrow \alpha X$. Zpìtné hrany grafu budú popisovat pøechod (zpìtná funkce $z(\alpha)$) mezi stavem $\alpha$ a nejdel¹ím vlastním suffixem $\alpha$, který je prefixem $\iota$, kdy¾ nastane neshoda.
  60
  61 \figure{vautomat.eps}{Vyhledávací automat}{5.5in}
  62
  63 \s{Vyhledávání:}
  64 \algo
  65 \:$\alpha \leftarrow \varepsilon$.
  66 \:Pro $c\in\Sigma$ postupnì:
  67 \:$\indent$Dokud $\neg \exists d(\alpha , c) \wedge \alpha\neq\varepsilon : \alpha \leftarrow z(\alpha)$.
  68 \:$\indent$Kdy¾ $\exists d(\alpha , c)\Rightarrow \alpha \leftarrow d(\alpha , c)$.
  69 \:$\indent$Kdy¾ $\alpha = \iota \Rightarrow$ hledané slovo je v~textu.
  70 \endalgo
  71
  72 \s{Alternatíva:} Automat mù¾e být reprezentovaný i polem. Pøi této reprezentaci odpadá starost o dopøední hrany (staèí zvìt¹it hodnotu, kterou v poli indexujeme). Hodnota na dané pozici v poli urèuje kam smìruje zpìtná hrana (index v poli).
  73
  74 \s{Alternatívní vyhledávání:}
  75 \algo
  76 \:$k \leftarrow 0$.
  77 \:pro $c\in\Sigma$ postupnì:
  78 \:$\indent$Dokud $c\neq \iota[k] \wedge k>0: k \leftarrow z[k]$
  79 \:$\indent$Je-li $c=\iota[k] \Rightarrow k \leftarrow k+1$
  80 \:$\indent$Kdy¾ $k = J \Rightarrow$ hledané slovo je v~textu
  81 \endalgo
  82
  83 \s{Invariant:} Nejdel¹í suffix $\beta$, který je prefixem $\iota$ $=$ $\alpha(\beta)$. Kde $\beta$ je pøeètení vstup.
  84 Z~invariantu vyplýva korektnost vyhledávací èásti algoritmu KMP.
  85
  86 \proof
  87 Indukcí podle $\vert \beta \vert$. Na zaèátku pro prázdný naètený vstup platí invariant, tedy prázdny suffix $\beta$ je prefixem $\iota$. V~kroku $n$ máme naètený vstup $\beta$ a k~nìmu naèteme znak $c$. Jestli si odmyslíme $c$, tedy kdy¾ si od jména stavu odmyslíme poslední písmenko, dostaneme znovu jméno stavu. Tak stav, který pasuje na konec vstupu bez toho $c$ je stav, který pasuje na konec pùvodního vstupu, toho o~jeden znak krat¹ího. Tím pádem to musí být nìco, co je maximálnì tak dlouhé jako pùvodní stav, u~kterého jsme byli, proto¾e to byl nejdel¹í, který pasoval. Staèí procházet postupnì v¹echny stavy, které pasují na konec toho vstupu od nejdel¹ího k~nejkrat¹ímu a vzít první, který se dá roz¹íøit o $c$. To je pøesnì to, co algoritmus dìlá. Proto¾e zpìtná funkce øekne nejbli¾¹í krat¹í jméno stavu. Tak¾e algoritmus iteruje pøes stavy, které tam pasují, a¾ najde jeden, který se dá roz¹íøit o~$c$ a jeliko¾ iteroval od toho nejdel¹ího, tak to je logicky ten nejdel¹í, který tam pasuje.
  88 \qed
  89
  90 \s{Lemma:} Vyhledávání dobìhne v~èase $\O(S)$.
  91
  92 \proof
  93 Pro ka¾dý znak vstupního textu mohou nastat dva pøípady. Znak roz¹iruje aktuální prefix, nebo musíme pou¾ít zpìtnou funkci (zpìtnou hranu). Roz¹irování trvá konstantnì mnoho èasu, zatímco zpìtná funkce mu¾e být pro jeden znak volána a¾ $J$-krát. Pøi ka¾dém volání klesne délka aktuálního stavu minimálnì o~jedna a zároveò platí, ¾e kdykoliv stav prodlu¾ujeme, roste právì o~jeden znak. Proto v¹ech zkrácení dohromady mu¾e být nejvý¹e tolik, kolik bylo v¹ech prodlou¾ení, t.j. kolik jsme pøeèetli znaku textu. Celkem je tedy poèet krokù lineární vzhledem k~délce textu.
  94 \qed
  95
  96 \s{Konstrukce zpìtné funkce:}
  97 \algo
  98 \:Sestrojíme dopøedné hrany
  99 \:$z( \varepsilon ) \leftarrow 0$, $z( \iota [0]) \leftarrow \varepsilon $
 100 \:$\indent$ $\alpha \leftarrow \varepsilon$
 101 \:pro $i = 1$ do $J$
 102 \:$\indent$$\alpha \leftarrow krok( \alpha , \iota [i])$
 103 \:$\indent$$z( \iota [0:i+1]) \leftarrow \alpha$
 104 \endalgo
 105
 106 \s{Vysvìtlení:} V¹imnìte si, ¾e $z(i)$ je pøesnì stav, do nej¾ se dostaneme pøi spu¹tìní na¹eho vyhledávacího algoritmu na øetìzec $\iota [2:i]$, èili na $i$-tý prefix bez prvního písmenka. Proè to tak je? Zpìtná funkce øíká, jaký je nejdel¹í vlastní suffix daného stavu, který je také stavem, zatímco $\alpha$ oznaèuje nejdel¹í suffix textu, který je stavem. Tyto dvì vìci se pøeci li¹í jen v~tom, ¾e ta druhá pøipou¹tí i nevlastní suffixy, a právì tomu zabráníme odstranìním prvního znaku. Tak¾e $z()$ získáme tak, ¾e spustíme vyhledávání na èást samotného slova $\iota$. Jen¾e k~vyhledávání zase potøebujeme zpìtnou funkci $z$. Proto budeme zpìtnou funkci vytváøet postupne od nejkrat¹ích prefixù. Zøejmì $z(1) = \varepsilon$. Pokud ji¾ máme $z(i)$, pak výpoèet $z(i+1)$ odpovídá spu¹tení automatu na slovo délky $i$ a pritom budeme zpìtnou funkci potøebovat jen pro stavy délky $i$ nebo men¹í, pro které ji ji¾ máme hotovou.
 107
 108 Navíc nemusíme pro jednotlivé prefixy spou¹tìt výpoèet v¾dy znovu od zaèátku, proto¾e $(i+1)$-ní prefix
 109 je prodlou¾ením $i$-tého prefixu o~jeden znak. Staèí tedy spustit algoritmus na celý øetìzec $\iota$ a sledovat, jakými stavy bude procházet. To budou pøesnì hodnoty zpìtné funkce. Vytvoøení zpìtné funkce se tak nakonec zredukovalo na jediné vyhledávání v~textu o~délce $J-1$, a proto pobì¾í v èase $\O(J)$. Èasová slo¾itost celého algoritmu tedy bude $\O(S+J)$.
 110
 111 \h{Algoritmus Rabin \& Karp}
 112 Tento algoritmus funguje tak, ¾e porovnává hash hledaného øetìzce s~hashem aktuálního podøetìzce (\uv{posuvné okénko} stejné délky jako hledaný øetìzec) v~textu  a aktuální podøetìzec porovná se vzorkem pouze v~pøípadì, kdy¾ mají shodný hash. Kdy¾ si zvolíme tu správnou hashovací funkci, budeme moci vypoèítat hash následujíciho podøetìzce na základe hashe toho aktuálního. Jako hashovací funkci $h: \Sigma^J \rightarrow \bb Z$ pou¾ijeme následující: $h(x_{0},...,x_{J-1}) = ( \sum_{i=0}^{J-1} x_{i}.p^{J-1-i}) \bmod N$, kde $N$ je velikost prostoru, do kterého hashujeme. Jak zjistíme hash následujícího podøetìzce?
 113 \itemize\ibull
 114 \:$h = x_{0}.p^{J} + x_{1}.p^{J-1} + ... + x_{J-1}.p^{1}$
 115 \:$h^{'} = x_{1}.p^{J} + x_{2}.p^{J-1} + ...    + x_{J}.p^{1}$
 116 \:$h^{'} = (h - x_{0}.p^{J}).p + x_{J}.p^{1}$
 117 \endlist
 118 Tady mù¾eme vidìt, ¾e hash následujícího øetìzce lze pøepoèítat na základì toho pøedchozího v konstantním èase.
 119 Èasová slo¾itost je v nejlep¹ím pøípadì lineární vzhledem k~délce textu, zatímco nejhor¹í pøípad mú¾e trvat a¾ $\Theta(JS)$.
 120
 121 \bye