]> mj.ucw.cz Git - ads2.git/blob - 6-kmp/6-kmp.tex
Oprava definice separatoru.
[ads2.git] / 6-kmp / 6-kmp.tex
1 \input lecnotes.tex
2
3 \prednaska{6}{Vyhledávání v textu}{(zapsal K. Ka¹èák, M. Klauèo, M. Vachna)}
4
5 \s{Úkol:} V~textu s~délkou $S$ najít v¹echny výskyty hledaného slova s~délkou $J$.
6
7 \h{Hloupý algoritmus} 
8
9 Algoritmus prochází sekvenènì textem a hledaným vzorovým slovem. Pøi neshodì se ve vzorovem slovì vrací na zaèátek a v~textu pokraèuje znakem, ve~kterém nastala neshoda. Èasová slo¾itost je $\O(S)$. Tento algoritmus funguje pouze pro vzorová slova, ve kterých se neopakuje první znak. 
10
11 \s{Pøíklad:} Hledání vzorového slova |jehla| v~textu |vkupcejejehla|. Ve chvíli kdy máme prefix |je| a na vstupu dostaneme |j|, dochází k~neshodì a pokraèujeme v~hledání od tohoto znaku. Pro tenhle pøípad algoritmus najde vzorové slovo. To ale ji¾ neplatí
12 pro vzorové slovo |kokos| v~textu |clanekokokosu|. Ve chvíli kdy máme prefix |koko| a na vstupu dostaneme |k|, dochází k~neshodì a pokraèujeme v~hledání od tohoto znaku, tím ale zahodíme potøebnou èást a algoritmus sel¾e.
13
14 \h{Neefektivní algoritmus}
15
16 Algoritmus prochází text od zaèátku a¾ do konce a pro ka¾dou pozici v~textu zkontroluje, zda na této pozici nezaèíná hledané slovo. Tak pro ka¾dou pozici provede a¾ $S$ porovnání znakù, èili celkem a¾ $SJ$ porovnání. Proto je èasová slo¾itost $\O(SJ)$.
17
18 \h{Chytrý algoritmus}
19
20 Algoritmus je vylep¹ením Neefektivního algoritmu, konkrétnì zpùsobu, jakým sa vrací v textu pøi neshodì mezi znakem textu a 
21 znakem vzorového slova. 
22
23 \s{Pøíklad:} Pro vzorové slovo |ajaajak| jsme na¹li v~textu prefix |ajaaja|. Oèekávame |k|. 
24 \itemize\ibull
25 \:Kdy¾ ale dostaneme |a| a budeme mít prefix |ajaajaa|, vracíme se v~textu za první |aja|, tedy prefix zkrátíme na |ajaa| a pokraèujeme v~hledání.
26 \:Kdy¾ je nasledující znak |j| a budeme mít prefix |ajaajaj|, vracíme se v~textu za |ajaaj|, tedy prefix zkrátíme na |aj| a pokraèujeme v~hledání.
27 \:V~pøípadì, ¾e dostaneme jiný znak, se v~textu nevracíme a pokraèujeme dal¹ím znakem textu.
28 \endlist
29  
30 \s{Definice a znaèení pro øetìzce (slova):}
31
32 \s{Definice:}
33 \itemize\ibull
34 \:{\I Abeceda $\Sigma$} je koneèná mno¾ina znakù, ze~kterých tvoøíme text, øetìzce, slova jako koneèné posloupnosti znakù z $\Sigma$. Pøíkladem extrémních abeced je binární abeceda slo¾ená z~nul a jednièek. Pøíklad z~druhého konce je abeceda, která má jako znaky slova èeského jazyka. V algoritmech nebudeme uva¾ovat velikost abecedy (poèet znakù), budeme pøedpokládat, ¾e je to konstanta.
35 \:{\I $\Sigma^*$} je mno¾ina v¹ech slov nad abecedou $\Sigma$.
36 \endlist
37 \s{Znaèení:}
38 \itemize\ibull
39 \:{\I Slova} budeme znaèit malými písmeny øecké abecedy $\alpha$,$\beta$... a {\I znaky} malými písmeny latinky $a$,$b$... .
40 \:{\I Prázdné slovo} znaèíme písmenem $\varepsilon$.
41 \:{\I Délka slova} $\vert \alpha  \vert$ pro $\alpha \in \Sigma^*$ je poèet jeho znakù.
42 \:{\I Zøetìzení} $\alpha\beta$ vznikne zapsáním slov $\alpha$ a $\beta$ za sebe. Platí $\alpha\varepsilon=\varepsilon\alpha=\alpha$, $\vert \alpha\beta  \vert=\vert \alpha \vert+\vert \beta \vert$.
43 \:$\alpha[i]$ je $i$-té písmeno slova $\alpha$, indexuje se od $0$.
44 \:$\alpha[i:j]$ je podslovo tvoøené písmeny $\alpha[i]$,...,$\alpha[j-1]$. Pøíklady: $\alpha[i:i+1]=\alpha[i]$, $\alpha[i:i]=\varepsilon$. Vynechaním první meze získame prefix ($\alpha[:j]$), druhé meze suffix ($\alpha[i:]$), obou mezí dostaneme celé slovo ($\alpha[:]$=$\alpha$).
45 \:$\alpha[:j]$ je {\I prefix} obsahující prvních $j$ znakù slova $\alpha$.
46 \:$\alpha[i:]$ je {\I suffix} obsahující znaky slova $\alpha$ poèínaje $i$-tým znakem.
47 \:Ka¾dé slovo je prefixem i suffixem sebe sama, takovému prefixu/suffixu øíkáme {\I nevlastní}. V¹em ostatním {\I vlastní}.
48 \:Prázdné slovo je podslovem, prefixem i suffixem ka¾dého slova vèetnì prázdného slova.
49 \endlist
50
51
52 \s{Problém:}
53  
54 Vstupem je $\iota$ hledané slovo (jehla) délky $J=\vert \iota \vert$ a $\sigma$ text (seno) délky $S=\vert \sigma \vert$.
55
56 Výstupem jsou v¹echny vyskyty hledaného slova $\iota$ v textu $\sigma$: $\left\{ i\vert \sigma[i:i+J]=\iota \right\}$
57
58 \h{Vyhledávací automat (Knuth, Morris, Pratt)}
59 Vyhledávací automat bude graf, jeho¾ vrcholùm øíkame stavy automatu. Jména stavù budou v¹echny prefixy slova $\iota$. Poèáteèní stav je prázdné slovo $\varepsilon$ a koncový je celá $\iota$. Dopøedné hrany grafu budou popisovat pøechod mezi stavy ve~smyslu zvìt¹ení délky jména stavu (dopøedná funkce $d(\alpha , X)$), tedy ka¾dá taková hrana bude oznaèena písmenem $X$  a bude popisovat dané zvìt¹ení délky jména stavu, tedy $\alpha \rightarrow \alpha X$. Zpìtné hrany grafu budú popisovat pøechod (zpìtná funkce $z(\alpha)$) mezi stavem $\alpha$ a nejdel¹ím vlastním suffixem $\alpha$, který je prefixem $\iota$, kdy¾ nastane neshoda.
60
61 \figure{vautomat.eps}{Vyhledávací automat}{5.5in}
62
63 \s{Vyhledávání:}
64 \algo
65 \:$\alpha \leftarrow \varepsilon$.
66 \:Pro $c\in\Sigma$ postupnì:
67 \:$\indent$Dokud $\neg \exists d(\alpha , c) \wedge \alpha\neq\varepsilon : \alpha \leftarrow z(\alpha)$. 
68 \:$\indent$Kdy¾ $\exists d(\alpha , c)\Rightarrow \alpha \leftarrow d(\alpha , c)$.
69 \:$\indent$Kdy¾ $\alpha = \iota \Rightarrow$ hledané slovo je v~textu.
70 \endalgo
71
72 \s{Alternatíva:} Automat mù¾e být reprezentovaný i polem. Pøi této reprezentaci odpadá starost o dopøední hrany (staèí zvìt¹it hodnotu, kterou v poli indexujeme). Hodnota na dané pozici v poli urèuje kam smìruje zpìtná hrana (index v poli).
73
74 \s{Alternatívní vyhledávání:}
75 \algo
76 \:$k \leftarrow 0$.
77 \:pro $c\in\Sigma$ postupnì:
78 \:$\indent$Dokud $c\neq \iota[k] \wedge k>0: k \leftarrow z[k]$ 
79 \:$\indent$Je-li $c=\iota[k] \Rightarrow k \leftarrow k+1$
80 \:$\indent$Kdy¾ $k = J \Rightarrow$ hledané slovo je v~textu
81 \endalgo
82
83 \s{Invariant:} Nejdel¹í suffix $\beta$, který je prefixem $\iota$ $=$ $\alpha(\beta)$. Kde $\beta$ je pøeètení vstup. 
84 Z~invariantu vyplýva korektnost vyhledávací èásti algoritmu KMP.
85
86 \proof
87 Indukcí podle $\vert \beta \vert$. Na zaèátku pro prázdný naètený vstup platí invariant, tedy prázdny suffix $\beta$ je prefixem $\iota$. V~kroku $n$ máme naètený vstup $\beta$ a k~nìmu naèteme znak $c$. Jestli si odmyslíme $c$, tedy kdy¾ si od jména stavu odmyslíme poslední písmenko, dostaneme znovu jméno stavu. Tak stav, který pasuje na konec vstupu bez toho $c$ je stav, který pasuje na konec pùvodního vstupu, toho o~jeden znak krat¹ího. Tím pádem to musí být nìco, co je maximálnì tak dlouhé jako pùvodní stav, u~kterého jsme byli, proto¾e to byl nejdel¹í, který pasoval. Staèí procházet postupnì v¹echny stavy, které pasují na konec toho vstupu od nejdel¹ího k~nejkrat¹ímu a vzít první, který se dá roz¹íøit o $c$. To je pøesnì to, co algoritmus dìlá. Proto¾e zpìtná funkce øekne nejbli¾¹í krat¹í jméno stavu. Tak¾e algoritmus iteruje pøes stavy, které tam pasují, a¾ najde jeden, který se dá roz¹íøit o~$c$ a jeliko¾ iteroval od toho nejdel¹ího, tak to je logicky ten nejdel¹í, který tam pasuje.
88 \qed
89
90 \s{Lemma:} Vyhledávání dobìhne v~èase $\O(S)$.
91
92 \proof
93 Pro ka¾dý znak vstupního textu mohou nastat dva pøípady. Znak roz¹iruje aktuální prefix, nebo musíme pou¾ít zpìtnou funkci (zpìtnou hranu). Roz¹irování trvá konstantnì mnoho èasu, zatímco zpìtná funkce mu¾e být pro jeden znak volána a¾ $J$-krát. Pøi ka¾dém volání klesne délka aktuálního stavu minimálnì o~jedna a zároveò platí, ¾e kdykoliv stav prodlu¾ujeme, roste právì o~jeden znak. Proto v¹ech zkrácení dohromady mu¾e být nejvý¹e tolik, kolik bylo v¹ech prodlou¾ení, t.j. kolik jsme pøeèetli znaku textu. Celkem je tedy poèet krokù lineární vzhledem k~délce textu.
94 \qed
95
96 \s{Konstrukce zpìtné funkce:}
97 \algo
98 \:Sestrojíme dopøedné hrany
99 \:$z( \varepsilon ) \leftarrow 0$, $z( \iota [0]) \leftarrow \varepsilon $
100 \:$\indent$ $\alpha \leftarrow \varepsilon$ 
101 \:pro $i = 1$ do $J$
102 \:$\indent$$\alpha \leftarrow krok( \alpha , \iota [i])$
103 \:$\indent$$z( \iota [0:i+1]) \leftarrow \alpha$
104 \endalgo
105
106 \s{Vysvìtlení:} V¹imnìte si, ¾e $z(i)$ je pøesnì stav, do nej¾ se dostaneme pøi spu¹tìní na¹eho vyhledávacího algoritmu na øetìzec $\iota [2:i]$, èili na $i$-tý prefix bez prvního písmenka. Proè to tak je? Zpìtná funkce øíká, jaký je nejdel¹í vlastní suffix daného stavu, který je také stavem, zatímco $\alpha$ oznaèuje nejdel¹í suffix textu, který je stavem. Tyto dvì vìci se pøeci li¹í jen v~tom, ¾e ta druhá pøipou¹tí i nevlastní suffixy, a právì tomu zabráníme odstranìním prvního znaku. Tak¾e $z()$ získáme tak, ¾e spustíme vyhledávání na èást samotného slova $\iota$. Jen¾e k~vyhledávání zase potøebujeme zpìtnou funkci $z$. Proto budeme zpìtnou funkci vytváøet postupne od nejkrat¹ích prefixù. Zøejmì $z(1) = \varepsilon$. Pokud ji¾ máme $z(i)$, pak výpoèet $z(i+1)$ odpovídá spu¹tení automatu na slovo délky $i$ a pritom budeme zpìtnou funkci potøebovat jen pro stavy délky $i$ nebo men¹í, pro které ji ji¾ máme hotovou.
107
108 Navíc nemusíme pro jednotlivé prefixy spou¹tìt výpoèet v¾dy znovu od zaèátku, proto¾e $(i+1)$-ní prefix 
109 je prodlou¾ením $i$-tého prefixu o~jeden znak. Staèí tedy spustit algoritmus na celý øetìzec $\iota$ a sledovat, jakými stavy bude procházet. To budou pøesnì hodnoty zpìtné funkce. Vytvoøení zpìtné funkce se tak nakonec zredukovalo na jediné vyhledávání v~textu o~délce $J-1$, a proto pobì¾í v èase $\O(J)$. Èasová slo¾itost celého algoritmu tedy bude $\O(S+J)$.
110
111 \h{Algoritmus Rabin \& Karp}
112 Tento algoritmus funguje tak, ¾e porovnává hash hledaného øetìzce s~hashem aktuálního podøetìzce (\uv{posuvné okénko} stejné délky jako hledaný øetìzec) v~textu  a aktuální podøetìzec porovná se vzorkem pouze v~pøípadì, kdy¾ mají shodný hash. Kdy¾ si zvolíme tu správnou hashovací funkci, budeme moci vypoèítat hash následujíciho podøetìzce na základe hashe toho aktuálního. Jako hashovací funkci $h: \Sigma^J \rightarrow \bb Z$ pou¾ijeme následující: $h(x_{0},...,x_{J-1}) = ( \sum_{i=0}^{J-1} x_{i}.p^{J-1-i}) \bmod N$, kde $N$ je velikost prostoru, do kterého hashujeme. Jak zjistíme hash následujícího podøetìzce?
113 \itemize\ibull
114 \:$h = x_{0}.p^{J} + x_{1}.p^{J-1} + ... + x_{J-1}.p^{1}$
115 \:$h^{'} = x_{1}.p^{J} + x_{2}.p^{J-1} + ...    + x_{J}.p^{1}$
116 \:$h^{'} = (h - x_{0}.p^{J}).p + x_{J}.p^{1}$
117 \endlist
118 Tady mù¾eme vidìt, ¾e hash následujícího øetìzce lze pøepoèítat na základì toho pøedchozího v konstantním èase.
119 Èasová slo¾itost je v nejlep¹ím pøípadì lineární vzhledem k~délce textu, zatímco nejhor¹í pøípad mú¾e trvat a¾ $\Theta(JS)$.
120
121 \bye