]> mj.ucw.cz Git - ads2.git/blob - 1-kmp/1-kmp.tex
KMP: Cviceni
[ads2.git] / 1-kmp / 1-kmp.tex
1 \input lecnotes.tex
2
3 \prednaska{1}{Vyhledávání v~textu}{}
4
5 \h{Jehla v~kupce sena}
6
7 Uva¾ujme následující problém: máme nìjaký text~$\sigma$ délky~$S$ (seno), chceme v~nìm najít
8 v¹echny výskyty nìjakého podøetìzce~$\iota$ délky~$J$ (jehly). Seno pøitom bude øádovì del¹í
9 ne¾ jehla.
10
11 Triviální øe¹ení pøesnì podle definice by vypadalo následovnì: Zkusíme v¹echny mo¾né pozice,
12 kde by se v~senì mohla jehla nacházet, a pro ka¾dou z~nich otestujeme, zda tam opravdu je.
13 Pozic je øádovì~$S$, ka¾dé porovnání stojí a¾~$J$, celkovì tedy algoritmus bì¾í v~èase
14 $\O(SJ)$. (Rozmyslete si, jak by vypadaly vstupy, pro které skuteènì spotøebujeme tolik èasu.)
15
16 Zkusme jiný pøístup: nalezneme v~senì první znak jehly a od tohoto místa budeme porovnávat
17 dal¹í znaky. Pokud se pøestanou shodovat, pøepneme opìt na hledání prvního znaku. Jen¾e odkud?
18 Pokud od místa, kde nastala neshoda, sel¾e to tøeba pøi hledání jehly |kokos| v~senì |clanekokokosu|
19 -- neshoda nastane za~|koko| a zbylý |kos| nás neuspokojí. Nebo se mù¾eme vrátit a¾ k~výskytu
20 prvního znaku a pokraèovat tìsnì za ním, jen¾e to je toté¾, co dìlal triviální algoritmus,
21 tak¾e je to také stejnì pomalé.
22
23 V~této kapitole si uká¾eme algoritmus, který je o~trochu slo¾itìj¹í, ale nalezne v¹echny
24 výskyty v~èase $\O(S+J)$. Pak ho zobecníme, aby umìl hledat více rùzných jehel najednou.
25
26 \h{Øetìzce a abecedy}
27
28 Aby se nám o~øetìzcových algoritmech lépe psalo, udìlejme si nejprve poøádek
29 v~terminologii okolo øetìzcù.
30
31 \s{Definice:}
32 \itemize\ibull
33 \:{\I Abeceda $\Sigma$} je nìjaká koneèná mno¾ina {\I znakù,} z~nich¾ se
34   skládají na¹e øetìzce.
35 \:{\I $\Sigma^*$} je mno¾ina v¹ech {\I slov} neboli {\I øetìzcù} nad abecedou~$\Sigma$,
36   co¾ jsou koneèné posloupnosti znakù ze~$\Sigma$.
37 \endlist
38
39 \s{Pøíklady:}
40 Abeceda mù¾e být tvoøena tøeba písmeny |a| a¾~|z| nebo bity |0| a~|1|.
41 Potkáme ov¹em i rozlehlej¹í abecedy: napøíklad dnes bì¾ná znaková sada UniCode
42 má $2^{16}=65\,536$ znakù, v~novìj¹ích verzích dokonce $2^{31}\approx 2\cdot 10^9$ znakù. Je¹tì extrémnìj¹ím
43 zpùsobem pou¾ívají øetìzce lingvisté: na èeský text se nìkdy dívají jako na~øetìzec
44 nad abecedou, její¾ prvky jsou èeská slova.
45
46 Pro na¹e úèely budeme pøedpokládat, ¾e abeceda je \uv{rozumnì malá}, èím¾ myslíme, ¾e
47 její velikost je konstantní a navíc dostateènì malá na to, abychom si mohli dovolit
48 ukládat do pamìti pole indexovaná znakem.
49
50 \s{Znaèení:}
51 \itemize\ibull
52 \:{\I Slova} budeme znaèit malými písmenky øecké abecedy $\alpha$, $\beta$, \dots
53 \:{\I Znaky} oznaèíme malými písmeny latinky $a$, $b$, \dots{} \hfil\break
54   Znak budeme pou¾ívat i ve~smyslu jednoznakového øetìzce.
55 \:{\I Èísla} budeme znaèit velkými písmeny $A$, $B$, \dots
56 \:{\I Délka slova} $\vert \alpha  \vert$ udává, kolika znaky je slovo tvoøeno.
57 \:{\I Prázdné slovo} znaèíme písmenem $\varepsilon$, je to jediné slovo délky~0.
58 \:{\I Zøetìzení} $\alpha\beta$ vznikne zapsáním slov $\alpha$ a~$\beta$ za sebe. Platí $\vert \alpha\beta  \vert=\vert \alpha \vert+\vert \beta \vert$, $\alpha\varepsilon=\varepsilon\alpha=\alpha$.
59 \:$\alpha[k]$ je $k$-tý znak slova $\alpha$, indexujeme od~$0$ do~$\vert\alpha\vert-1$.
60 \:$\alpha[k:\ell]$ je {\I podslovo} zaèínající $k$-tým znakem a konèící tìsnì pøed~$\ell$-tým.
61 Tedy $\alpha[k:\ell] = \alpha[k]\alpha[k+1]\ldots\alpha[\ell-1]$. Pokud $k\ge\ell$, je podslovo
62 prázdné. Pokud nìkterou z~mezí vynecháme, míní se $k=0$ nebo $\ell=\vert\alpha\vert$.
63 \:$\alpha[{}:\ell]$ je {\I prefix} (pøedpona) tvoøený prvními $\ell$ znaky øetìzce.
64 \:$\alpha[k:{}]$ je {\I suffix} (pøípona) od $k$-tého znaku do~konce øetìzce.
65 \:$\alpha[:] = \alpha$.
66 \endlist
67
68 \>Dodejme je¹tì, ¾e prázdné slovo je prefixem, suffixem i~podslovem jakéhokoliv slova vèetnì sebe sama.
69 Ka¾dé slovo je také prefixem, suffixem i~podslovem sebe sama. To se ne v¾dy hodí, pak budeme hovoøit
70 o~{\I vlastním} prefixu, suffixu èi podslovì, èím¾ myslíme, ¾e alespoò jeden znak nebude obsahovat.
71
72 \h{Inkrementální algoritmus}
73
74 Vra»me se tedy zpìt k~pùvodnímu problému hledání podøetìzcù. Nejprve si
75 ujasnìme, co má být výstupem algoritmu. Budeme chtít nalézt mno¾inu v¹ech
76 indexù~$K$ takových, ¾e $\sigma[K:K+\vert\iota\vert] = \iota$. To je dostateènì
77 kompaktní výstup (nejvý¹e lineární s~délkou sena), a~pøitom obsahuje informace
78 o~v¹ech výskytech.
79
80 Na hledání podøetìzce pou¾ijeme {\I inkrementální pøístup.} Tím se obecnì myslí,
81 ¾e chceme umìt roz¹íøit vstup o~dal¹í znak a pøepoèítat výstup. V~na¹em pøípadì
82 budeme pøidávat znak na konec sena a zapoèítáme pøípadný nový výskyt jehly, který
83 konèí tímto znakem.
84
85 Abychom toho dosáhli, budeme si prùbì¾nì udr¾ovat informaci o~tom, jaký nejdel¹í
86 prefix jehly konèí právì pøidaným znakem. Tomu budeme øíkat {\I stav algoritmu.}
87 A~jakmile bude tento prefix roven celé jehle, ohlásíme výskyt.
88
89 Pøedstavme si tedy, ¾e jsme pøeèetli øetìzec~$\sigma$, který konèil stavem~$\alpha$.
90 Teï vstup roz¹íøíme o~znak~$x$ na~$\sigma x$. V~jakém stavu se nyní máme
91 nacházet? Pokud to nebude prázdný øetìzec, musí konèit na~$x$, tedy ho mù¾eme
92 napsat ve~tvaru $\alpha'x$.
93
94 V¹imneme si, ¾e $\alpha'$ musí být suffixem slova~$\alpha$: Jeliko¾ $\alpha' x$
95 je prefix jehly, je $\alpha'$ také prefix jehly. A~proto¾e $\alpha'x$ je suffixem~$\sigma x$,
96 musí $\alpha'$ být suffixem~$\sigma$. Tedy jak $\alpha$, tak $\alpha'$ jsou suffixy slova~$\alpha$,
97 které jsou souèasnì prefixy jehly. Ov¹em stav~$\alpha$ jsme vybrali jako nejdel¹í slovo
98 s~touto vlastností, tak¾e $\alpha'$~musí být nejvý¹e tak dlouhé, a~tudí¾ je prefixem~$\alpha$.
99
100 Staèilo by tedy probrat v¹echny suffixy slova~$\alpha$, které jsou prefixem jehly,
101 a~vybrat z~nich nejdel¹í, který po roz¹íøení o~znak~$x$ je stále prefixem jehly.
102
103 Abychom ale nemuseli suffixy procházet v¹echny, pøedpoèítáme {\I zpìtnou funkci~$z$.}
104 Ta nám pro ka¾dý prefix jehly øekne, jaký je jeho nejdel¹í vlastní suffix,
105 který je opìt prefixem jehly. To nám umo¾ní procházet rovnou kandidáty na nový stav:
106 staèí probrat øetìzce $\alpha$, $z(\alpha)$, $z(z(\alpha))$, \dots{} a pou¾ít první,
107 který lze roz¹íøit o~znak~$x$. Pokud nepùjde roz¹íøit ani jeden z~tìchto kandidátù,
108 novým stavem bude prázdný øetìzec.
109
110 Na~této my¹lence je zalo¾en následující algoritmus.
111
112 \h{Knuthùv-Morrisùv-Prattùv algoritmus (KMP)}
113
114 Algoritmus se opírá o~{\I vyhledávací automat.} To je orientovaný graf, jeho¾
115 vrcholy ({\I stavy} automatu) odpovídají prefixùm jehly. Vrcholy jsou spojeny
116 hranami dvou druhù: {\I dopøedné} popisují roz¹íøení prefixu pøidáním jednoho písmene,
117 {\I zpìtné} vedou podle zpìtné funkce, tedy z~ka¾dého stavu do jeho nejdel¹ího
118 vlastního suffixu, který je opìt stavem.
119
120 \figure{barb.eps}{Vyhledávací automat pro slovo |barbarossa|}{4.1in}
121
122 Reprezentace automatu bude pøímoèará: stavy oèíslujeme od~0 do~$J$, dopøedná hrana
123 povede v¾dy ze stavu~$S$ do~$S+1$ a bude odpovídat roz¹íøení prefixu o~pøíslu¹ný
124 znak jehly, tedy $\iota[S]$. Zpìtné hrany si budeme pamatovat v~poli~$Z$, tedy
125 $Z[S]$ bude øíkat èíslo stavu, do~nìj¾ vede zpìtná hrana ze~stavu~$S$, pøípadnì
126 bude nedefinované, pokud taková hrana neexistuje.
127
128 Kdybychom takový automat mìli, mohli bychom pomocí nìj inkrementální algoritmus
129 z~pøedchozí sekce popsat následovnì:
130
131 \proc{KmpKrok} \cmt{Jeden krok automatu}
132 \algin Jsme ve~stavu~$I$, pøeèetli jsme znak~$x$.
133 \:Dokud $\iota[I] \neq x~\&~I \neq 0: I \= Z[I]$.
134 \:Pokud $\iota[I] = x$, pak $I \= I + 1$.
135 \algout Nový stav~$I$.
136 \endalgo
137
138 \algo{Kmp} \cmt{Spu¹tìní automatu na øetìzec~$\sigma$.}
139 \algin Seno~$\sigma$, zkonstruovaný automat.
140 \:$I \= 0$.
141 \:Pro znaky $x\in\sigma$ postupnì provádíme:
142 \::$I \= \alg{KmpKrok}(I,x)$.
143 \::Pokud $I = J$, ohlásíme výskyt.
144 \endalgo
145
146 \s{Invariant:} Stav algoritmu~$I$ v~ka¾dém okam¾iku øíká, jaký nejdel¹í
147 prefix jehly je suffixem zatím pøeètené èásti sena. (To u¾ víme z~úvah
148 o~inkrementálním algoritmu.)
149
150 \s{Dùsledek:} Algoritmus ohlásí v¹echny výskyty. Pokud jsme toti¾ právì
151 pøeèetli poslední znak nìjakého výskytu, je celá jehla suffixem zatím
152 pøeètené èásti sena, tak¾e se musíme nacházet v~posledním stavu.
153
154 Jen musíme opravit drobnou chybu -- tìsnì poté, co ohlásíme výskyt, se
155 algoritmus zeptá na~dopøednou hranu z~posledního stavu. Ta ale
156 neexistuje. Napravíme to jednodu¹e: pøidáme fiktivní dopøednou hranu,
157 na~ní¾ je napsán znak odli¹ný od~v¹ech skuteèných znakù. Tím zajistíme,
158 ¾e se po této hranì nikdy nevydáme. Staèí tedy vhodnì dodefinovat $\iota[i]$.%
159 \foot{V jazyce C mù¾eme zneu¾ít toho, ¾e ka¾dý øetìzec je ukonèen znakem
160 s~nulovým kódem.}
161
162 \s{Lemma:} Funkce \<Hledej> bì¾í v~èase $\O(S)$.
163
164 \proof
165 Výpoèet funkce mù¾eme rozdìlit na prùchody dopøednými a zpìtnými hranami.
166 S~dopøednými je to snadné -- za~ka¾dý z~$S$ znakù sena projdeme po nejvý¹e
167 jedné dopøedné hranì. To o~zpìtných hranách neplatí, ale pomù¾e nám, ¾e ka¾dá
168 dopøedná hrana vede o~právì~1 stav doprava a ka¾dá zpìtná o~aspoò~1 stav
169 doleva. Proto je v¹ech prùchodù po~zpìtných hranách nejvý¹e tolik, kolik
170 jsme pro¹li dopøedných hran, tak¾e také nejvý¹e~$S$.
171 \qed
172
173 \s{Konstrukce automatu:}
174 Algoritmus je tedy lineární, ale potøebuje, aby mu nìkdo zkonstruoval 
175 automat. Dopøedné hrany vytvoøíme snadno, ale jak si poøídit ty zpìtné?
176
177 Podnikneme my¹lenkový pokus: Pøedstavme si, ¾e automat u¾ máme hotový, ale nevidíme,
178 jak vypadá uvnitø. Chtìli bychom zjistit, jak v~nìm vedou zpìtné hrany, ov¹em jediné,
179 co umíme, je spustit automat na nìjaký øetìzec a zjistit, v~jakém stavu skonèil.
180
181 Tvrdíme, ¾e pro zji¹tìní zpìtné hrany ze~stavu~$\alpha$ staèí automatu pøedlo¾it
182 øetìzec $\alpha[1:{}]$. Definice zpìtné funkce je toti¾ nápadnì podobná invariantu,
183 který jsme o~funkci \<Hledej> dokázali. Obojí hovoøí o~nejdel¹ím suffixu daného
184 slova, který je prefixem jehly. Jediný rozdíl je v~tom, ¾e v~pøípadì zpìtné funkce
185 uva¾ujeme pouze vlastní suffixy, zatímco invariant pøipou¹tí i nevlastní. To ov¹em
186 snadno vyøe¹íme \uv{ukousnutím} prvního znaku jména stavu.
187
188 Pokud chceme objevit v¹echny zpìtné hrany, staèí automat spou¹tìt postupnì
189 na øetìzce $\iota[1:1]$, $\iota[1:2]$, $\iota[1:3]$, atd. Jeliko¾ funkce \<Hledej>
190 je lineární, stálo by nás to dohromady $\O(J^2)$. Pokud si ale v¹imneme, ¾e ka¾dý
191 ze~zmínìných øetìzcù je prefixem toho následujícího, je jasné, ¾e staèí spustit
192 automat jen jednou na øetìzec $\iota[1:{}]$ a jen zaznamenávat, kterými stavy
193 jsme pro¹li.
194
195 To je zajímavé pozorování, øeknete si, ale jak nám pomù¾e ke~konstrukci automatu,
196 kdy¾ samo u¾ hotový automat potøebuje? Pomù¾e pìkný trik: pokud hledáme zpìtnou
197 hranu z~$I$-tého stavu, spou¹tíme automat na slovo délky~$I-1$, tak¾e se mù¾eme
198 dostat pouze do prvních~$I-1$ stavù a vùbec nám nevadí, ¾e v~tom $I$-tém je¹tì
199 není zpìtná hrana hotova.%
200 \foot{Konstruovat nìjaký objekt pomocí tého¾ objektu je osvìdèený postup, který
201 si u¾ vyslou¾il i svùj vlastní název. V~angliètinì se mu øíká {\I bootstrapping}
202 a z~tohoto názvu vzniklo i bootování poèítaèù, proto¾e pøi nìm operaèní systém
203 vlastnì do pamìti zavádí sám sebe. Kde se toto slovo vzalo? Bootstrap znamená èesky
204 {\I ¹truple} -- to je takové to oèko na patì boty, které usnadòuje nazouvání.
205 A~v~jednom z~pøíbìhù o~baronu Prá¹ilovi sly¹íme barona vyprávìt, jak se uvíznuv
206 v~ba¾inì zachránil tím, ¾e se vytáhl za ¹truple. Krásný popis bootování, není-li¾
207 pravda?}
208
209 Konstrukce automatu tedy bude vypadat tak, ¾e nejdøíve sestrojíme pouze dopøedné
210 hrany, pak rozpracovaný automat spustíme na øetìzec $\iota[1:{}]$ a podle toho,
211 jakými stavy prochází, doplòujeme zpìtné hrany. A~jeliko¾ vyhledávání je lineární,
212 celá konstrukce trvá $\O(J)$.
213
214 Hotový algoritmus mù¾eme zapsat následovnì:
215
216 \algo{KmpKonstrukce}
217 \algin Jehla~$\iota$ délky~$J$.
218 \:$Z[0] \= ?$, $Z[1] \= 0$.
219 \:$I \= 0$.
220 \:Pro $K = 2, \ldots, J-1$:
221 \::$I \= \alg{KmpKrok}(I, \iota[K])$.
222 \::$Z[K] \= I$.
223 \algout Pole zpìtných hran~$Z$.
224 \endalgo
225
226 \>Výsledky mù¾eme shrnout do následující vìty:
227
228 \s{Vìta:} Algoritmus KMP najde v¹echny výskyty v~èase $O(J+S)$.
229
230 \proof
231 Lineární èas s~délkou jehly potøebujeme na~postavení automatu, lineární èas
232 s~délkou sena pak potøebujeme na~samotné vyhledání.
233 \qed
234
235 \h{Hledání více øetìzcù najednou: algoritmus Aho-Corasicková}
236
237 Nyní si zahrajeme tuté¾ hru, ov¹em v~trochu slo¾itìj¹ích kulisách. Tentokrát
238 bude jehel vícero: $\iota_1, \ldots, \iota_N$, jejich délky oznaèíme $J_I = \vert \iota_I \vert $.
239 Opìt dostaneme nìjaké seno~$\sigma$ délky $S=\vert \sigma \vert$ a chceme nalézt
240 v¹echny výskyty jehel v~senì.
241
242 Pøedtím, ne¾ se pustíme do~vlastního vyhledávacího algoritmu, mìli bychom si
243 ujasnit, co bude jeho výstupem. Dokud byla jehla jedna jediná, bylo to jasné --
244 chtìli jsme nalézt mno¾inu v¹ech pozic v~senì, na~kterých zaèínaly výskyty
245 jehly. Jak tomu bude zde? Budeme chtít vìdìt, která jehla se vyskytuje na které
246 pozici. Jinými slovy budeme chtít vypsat v¹echny dvojice $(K,I)$ takové,
247 ¾e $\sigma[K:K+J_I]= \iota_I$.
248
249 Zde se v¹ak skrývá jedna drobná zrada. Budeme se asi muset vzdát nadìje
250 na algoritmus, jeho¾ slo¾itost je lineární v~celkové délce v¹ech jehel
251 a~sena. Výstup toti¾ mù¾e být del¹í ne¾ lineární. Pokud je toti¾ jedna
252 jehla suffixem druhé, na jedné pozici v~senì mohou konèit výskyty obou.
253 Proto budeme hledat algoritmus, který bude lineární v~délce vstupu plus
254 délce výstupu, co¾ je evidentnì to nejlep¹í, èeho mù¾eme dosáhnout.
255
256 Algoritmus, který si nyní uká¾eme, objevili v~roce 1975 pan Aho a~paní
257 Corasicková. Je elegantním zobecnìním Knuthova-Morrisova-Prattova algoritmu pro
258 více øetìzcù.
259
260 \s{Vyhledávací automat:}
261 Opìt se budeme sna¾it sestrojit vyhledávací automat, jeho¾ stavy budou
262 odpovídat prefixùm jehel a dopøedné hrany roz¹iøování prefixù o~jeden znak.
263 Tentokrát navíc nebude jasnì definovaný koncový stav, oznaèíme si proto
264 v¹echny stavy, které odpovídají nìkteré z~jehel (na pøíkladu na obrázku
265 je vidìt, ¾e to nemusí být jen listy).
266
267 \figure{ara_strom_zkr.eps}{Vyhledávací automat pro slova |ara|, |bar|, |arab|, |baraba| a |barbara|.}{1.25in}
268
269 Dále potøebujeme zpìtné hrany (na obrázku èerné ¹ipky).
270 Jejich definice bude úplnì stejná jako u~automatu KMP.
271 Z~ka¾dého stavu pùjde zpìtná hrana do~jeho nejdel¹ího vlastního suffixu, který je také
272 stavem. Èili se budeme sna¾it jméno stavu zkracovat zleva tak dlouho, ne¾ dostaneme
273 opìt jméno stavu. Z~koøene -- prázdného stavu -- pak evidentnì ¾ádná zpìtná hrana nepovede.
274
275 Funkce pro hledání v~senì bude vypadat stejnì jako u~KMP: zaène v~poèáteèním
276 stavu (to je koøen stromu), postupnì bude roz¹iøovat seno o~dal¹í písmenka,
277 poka¾dé zkusí jít dopøednou hranou a pokud to nejde, bude se vracet po~zpìtných
278 hranách tak dlouho, a¾ buïto bude existovat vhodná dopøedná hrana, nebo se vrátí
279 do koøene stromu a tehdy nový znak zahodí.
280
281 Stejnì jako u~KMP nahlédneme, ¾e procházení sena trvá $\O(S)$ a ¾e platí analogický
282 invariant, toti¾ ¾e se v~ka¾dém okam¾iku nacházíme ve~stavu, který odpovídá nejdel¹ímu
283 suffixu zatím pøeèteného sena, který je prefixem nìkteré jehly.
284
285 \s{Hlá¹ení výskytù:}
286 Jediné, co se bude od KMP li¹it, je, kdy ohlásit výskyt. U~KMP to bylo snadné: kdykoliv
287 jsme dospìli do posledního stavu, znamenalo to nalezení jehly. Nabízí se hlásit
288 výskyt, kdykoliv dojdeme do stavu oznaèeného jako koncový. To ale nefunguje:
289 pokud ná¹ ukázkový automat pøeète seno |bara|, skonèí ve stavu~|bara|, a~pøitom
290 by mìl ohlásit výskyt jehly |ara|. Stejnì tak pøeèteme-li |barbara|, nev¹imneme
291 si, ¾e na tém¾e místì konèí i |ara|.
292
293 Platí ale, ¾e v¹echna slova, která bychom mìli v~daném stavu ohlásit, jsou suffixy
294 jména tohoto stavu. Mohli bychom je tedy najít tak, ¾e se vydáme po zpìtných hranách
295 a¾ do koøene a kdykoliv projdeme pøes koncový vrchol, ohlásíme výskyt. To ov¹em
296 trvá pøíli¹ dlouho -- jistì by se stávalo, ¾e bychom podnikli dlouhou cestu do koøene
297 a nena¹li na ní ani jeden výskyt.
298
299 Dal¹í, co se nabízí, je pøedpoèítat si pro ka¾dý stav~$\beta$ mno¾inu slov ${\cal S}(\beta)$,
300 jejich¾ výskyty máme v~tomto stavu hlásit. To by fungovalo, ale existují mno¾iny jehel,
301 pro které bude celková velikost mno¾in ${\cal S}(\beta)$ superlineární. Museli bychom se
302 tedy vzdát lákavé mo¾nosti stavby automatu v~lineárním èase. (Rozmyslete si, jak by
303 takové jehly vypadaly.)
304
305 Jak to tedy vyøe¹íme? Zavedeme zkratky (na obrázku zelenì):
306
307 \s{Definice:}
308 {\I Zkratková hrana} ze~stavu~$\alpha$ vede do nejbli¾¹ího stavu $\zeta(\alpha)$ dosa¾itelného
309 z~$\alpha$ po zpìtných hranách, který je koncový.
310
311 Jinými slovy, $\zeta(\alpha)$ nám øekne, jaký je nejdel¹í vlastní suffix slova~$\alpha$, který
312 je jehlou. Pokud takový suffix neexistuje, ¾ádná zkratková hrana ze~stavu~$\alpha$ nepovede.
313 Pomocí zkratkových hran mù¾eme snadno vyjmenovat v¹echny výskyty. Budeme postupovat stejnì,
314 jako bychom procházeli po v¹ech zpìtných hranách, jen budeme dlouhé úseky zpìtných hran, na~nich¾
315 není nic k~hlá¹ení, pøeskakovat v~konstantním èase.
316
317 \s{Reprezentace automatu:}
318 Vyhledávací automat se tedy sestává ze stromu dopøedných hran, ze zpìtných
319 hran a ze~zkratkových hran. Ne¾ vyslovíme samotný algoritmus AC, rozmysleme si, jak automat
320 ulo¾it do pamìti. Pro ka¾dý stav si budeme pamatovat:
321 \itemize\ibull
322 \:$I$ -- poøadové èíslo stavu (tøeba v~poøadí, jak vrcholy vznikaly),
323 \:$\<Zpìt>(I)$ -- kam z~nìj vede zpìtná hrana (vyu¾íváme toho, ze mù¾e být nejvý¹e jedna, tak¾e si zapamatujeme
324   èíslo stavu, do nìj¾ vede),
325 \:$\<Zkratka>(I)$ -- kam z~nìj vede zkratková hrana (takté¾),
326 \:$\<Slovo>(I)$ -- zda tu konèí nìjaké slovo (a~pokud ano, tak které),
327 \:$\<Dopøedu>(I,x)$ -- kam vede dopøedná hrana oznaèená písmenem~$x$ (pro malé abecedy si to
328   mù¾eme pamatovat v~poli, pro velké tøeba v~he¹ovací tabulce nebo stromu).
329 \endlist
330
331 \>Celý algoritmus pro zpracování sena automatem pak bude vypadat takto:
332
333 \proc{AcKrok} \cmt{Jeden krok automatu}
334 \algin Jsme ve~stavu~$I$, pøeèetli jsme znak~$x$.
335 \:Dokud $\<Dopøedu>(I, x) = \emptyset~\&~I \ne \<koøen>$: $I \= \<Zpìt>(I)$.
336 \:Pokud $\<Dopøedu>(I, x) \ne \emptyset$: $I \= \<Dopøedu>(I,x)$.
337 \algout Nový stav~$I$.
338 \endalgo
339
340 \algo{AcHledej} \cmt{Spu¹tìní automatu na daný øetìzec}
341 \algin Seno~$\sigma$, zkonstruovaný automat.
342 \:$I \= \<koøen>$.
343 \:Pro znaky $x\in\sigma$ postupnì provádíme:
344 \::$I \= \alg{AcKrok}(I, x)$.
345 \::$K \= I$.
346 \::Dokud $K \neq \emptyset$:
347 \:::Je-li $\<Slovo>(K) \neq \emptyset$:
348 \::::Ohlásíme $\<Slovo>(K)$.
349 \:::$K \= \<Zkratka>(K)$.
350 \endalgo
351
352 \>Jak u¾ jsme nahlédli, v¹echny kroky automatu dohromady trvají $\O(S)$.
353 Mimo to je¹tì hlásíme výskyty, co¾ trvá $\O(\<poèet výskytù>)$. Zbývá
354 ukázat, jak automat sestrojit.
355
356 \s{Konstrukce automatu:}
357 Stejnì jako u~KMP, i zde nahlédneme, ¾e zpìtná hrana ze stavu $\beta$ vede tam,
358 kam by se dostal automat pøi hledání slova $\beta$ bez prvního znaku. Opìt bychom
359 tedy chtìli zaèít sestrojením dopøedných hran a pak spu¹tìním je¹tì nehotového
360 automatu doplòovat hrany zpìtné, doufajíce, ¾e si vystaèíme s~u¾ sestrojenou
361 èástí automatu.
362
363 Pøi konstrukci zpìtných hran tedy chceme automatem vyhledávat v¹echny jehly
364 bez prvních znakù. To v¹ak nemù¾eme dìlat jednu jehlu po druhé, proto¾e zpìtné
365 hrany mohou vést køí¾em mezi jednotlivými vìtvemi stromu. Mohlo by se nám tedy
366 stát, ¾e pøi hledání nìjakého slova potøebujeme zpìtnou hranu, která vede
367 do~jiného slova, které jsme je¹tì nezkonstruovali. Proto tento postup sel¾e.
368
369 Mù¾eme v¹ak vyu¾ít toho, ¾e ka¾dá zpìtná hrana vede ve~stromu alespoò o~jednu
370 hladinu vý¹, a strom konstruovat po~hladinách. To si lze pøedstavit tak, ¾e
371 paralelnì spustíme vyhledávání v¹ech slov bez prvních písmenek a~v¾dycky udìláme
372 jeden krok ka¾dého z~tìchto hledání, co¾ nám dá zpìtné hrany v~dal¹ím patøe stromu.
373
374 Kdykoliv vytvoøíme zpìtnou hranu, sestrojíme také zkratkovou hranu z~tého¾
375 vrcholu. Pokud vede zpìtná hrana z~$K$ do~$Q$ a $\<Slovo>(Q) \ne \emptyset$,
376 musí vést zkratka z~$K$ také do~$Q$. Pokud v~$Q$ ¾ádné slovo neskonèí, musí
377 zkratka z~$K$ vést do tého¾ vrcholu, jako zkratka z~$Q$.
378
379 \algo{AcKonstrukce}
380 \algin Slova $\iota_1,\ldots,\iota_N$.
381 \:Zalo¾íme prázdný strom, $R \=$ jeho koøen.
382 \:Vlo¾íme do~stromu slova $\iota_1 \dots \iota_N$, nastavíme $\<Slovo>$ ve~v¹ech stavech.
383 \:$\<Zpìt>(R) \= \emptyset$, $\<Zkratka>(R) \= \emptyset$.
384 \:Zalo¾íme frontu $F$ a~vlo¾íme do~ní syny koøene.
385 \:Pro v¹echny syny~$K$ koøene: $\<Zpìt>(K) \= R$, $\<Zkratka>(K) \= \emptyset$.
386 \:Dokud $F \neq \emptyset$:
387 \::Vybereme $I$ z~fronty $F$.
388 \::Pro v¹echny syny $K$ vrcholu $I$:
389 \:::$Q \= \alg{AcKrok}(\<Zpìt>(I), \hbox{písmeno na~hranì $IK$})$.
390 \:::$\<Zpìt>(K) \= Q$.
391 \:::Pokud $\<Slovo>(Q) \neq \emptyset$: $\<Zkratka>(K) \= Q$.
392 \:::Jinak $\<Zkratka>(K) \= \<Zkratka>(Q)$.
393 \:::Vlo¾íme $K$ do~fronty $F$.
394 \algout Strom, pole \<Slovo>, \<Zpìt> a \<Zkratka>.
395 \endalgo
396
397 Jeliko¾ tento algoritmus pouze napøeskáèku hledá v¹echny jehly, musí být jeho
398 èasová slo¾itost shora omezena souètem slo¾itostí hledání jehel, co¾, jak u¾
399 víme, je pro ka¾dou jehlu lineární s~její délkou. Dokonce mù¾e dobìhnout i
400 rychleji, jeliko¾ jsou-li dva ze simulovaných výpoètù v~tém¾e stavu, poèítáme
401 krok automatu pouze jednou (to je vidìt tøeba na spoleèném zaèátku slov |araba|
402 a |arbara|).
403
404 Chování celého algoritmu shrneme do následující vìty:
405
406 \s{Vìta:} Algoritmus Aho-Corasicková najde v¹echny výskyty v~èase
407 $\O\left(\sum_i J_i + S + V \right)$, kde $J_1,\ldots,J_n$ jsou délky
408 jednotlivých jehel, $S$ je délka sena a $V$ poèet ohlá¹ených výskytù.
409
410 \h{Rabinùv-Karpùv algoritmus}
411
412 Nyní si uká¾eme je¹tì jeden algoritmus na~hledání jedné jehly, tentokrát
413 zalo¾ený na he¹ování. Aèkoliv jeho èasová slo¾itost v~nejhor¹ím pøípadì
414 bude srovnatelná s~hledáním hrubou silou, v~prùmìru bude lineární a v~praxi
415 èasto pobì¾í rychleji ne¾ KMP.
416
417 Pøedstavme si, ¾e máme seno délky $S$ a~jehlu délky $J$. Poøídíme si nìjakou
418 he¹ovací funkci~$H$, které $J$-ticím znakù pøiøazuje èísla z~mno¾iny $\{0,\ldots,N-1\}$
419 pro nìjaké dost velké~$N$. Budeme posouvat okénko délky~$J$ po~senì, pro ka¾dou
420 jeho polohu si spoèteme he¹ znakù uvnitø okénka, porovnáme s~he¹em jehly a pokud
421 se rovnají, porovnáme je znak po~znaku.
422
423 Pokud je he¹ovací funkce \uv{kvalitní}, málokdy se stane, ¾e by se he¹e rovnaly,
424 tak¾e místo èasu $\Theta(J)$ na porovnáváním øetìzcù si vystaèíme s~porovnáním
425 he¹ù v~konstantním èase. Jen¾e ouha, èas $\Theta(J)$ potøebujeme i na vypoètení
426 he¹e pro ka¾dou polohu okénka, tak¾e jsme si nepomohli.
427
428 Poøídíme si proto he¹ovací funkci, kterou lze pøi posunutí okénka o~jednu
429 pozici doprava v~konstantním èase pøepoèítat. Tyto po¾adavky splòuje tøeba
430 polynom
431 $$
432 H(x_1,\ldots,x_J) = (x_1P^{J-1} + x_2P^{J-2} + \ldots + x_{J-1}P^1 + x_JP^0) \bmod N,
433 $$
434 pøièem¾ písmena pova¾ujeme za pøirozená èísla a $P$ je nìjaká vhodná konstanta -- potøebujeme,
435 aby byla nesoudìlná s~$N$ a aby $P^J$ bylo øádovì vìt¹í ne¾~$N$.
436 Posuneme-li nyní okénko z~$x_1,\ldots,x_J$ na $x_2,\ldots,x_{J+1}$, he¹ se zmìní takto:
437 $$\eqalign{
438 H(x_2,\ldots,x_{J+1}) &= (x_2P^{J-1} + x_3P^{J-2} + \ldots + x_JP^1 + x_{J+1}P^0) \bmod N \cr
439 &= (P\cdot H(x_1,\ldots,x_J) - x_1P^J + x_{J+1}) \bmod N. \cr
440 }$$
441 Pokud si mocninu $P^J$ pøepoèítáme, probìhne aktualizace he¹e v~konstantním èase.
442
443 Celý algoritmus pak bude vypadat následovnì:
444
445 \algo{RabinKarp}
446 \algin Jehla $\iota$ délky~$J$, seno~$\sigma$ délky~$S$.
447 \:$X \= H(\iota)$. \cmt{he¹ jehly}
448 \:$Y \= H(\sigma[{}:J])$. \cmt{he¹ první pozice okénka}
449 \:Zvolíme~$P$ a~$N$ a pøedpoèítáme $P^J \bmod N$.
450 \:Pro $I$ od~$0$ do~$S-J$: \cmt{mo¾né pozice okénka}
451 \::Je-li $X=Y$:
452 \:::Pokud $\sigma[I:I+J] = \iota$, ohlásíme výskyt na pozici~$I$.
453 \::Pokud $I<S-J$: \cmt{pøepoèítáme he¹}
454 \:::$X \= (P\cdot X - \sigma[I]\cdot P^J + \sigma[I+J]) \bmod N$.
455 \endalgo
456
457 \s{Analýza:}
458 V~nejhor¹ím pøípadì pro ka¾dou pozici okénka porovnáváme øetìzce a celý
459 algoritmus spotøebuje èas $\Theta(JS)$. Abychom zjistili, jak tomu bude
460 v~prùmìrném pøípadì, odhadnìme pravdìpodobnost porovnání.
461
462 Pøedev¹ím pokud nastane výskyt, urèitì porovnáváme. Nenastane-li, he¹ jehly
463 se shoduje s~he¹em okénka s~pravdìpodobností $1/N$ (za~pøedpokladu dokonale
464 náhodného chování he¹ovací funkce, co¾ té na¹í budeme vìøit, aèkoliv jsme
465 to poøádnì nedokázali).
466
467 V~prùmìru tedy spotøebujeme èas $\O(S + VJ + S/N\cdot J)$, kde $V$ je poèet
468 nalezených výskytù. Pokud nám bude staèit najít první výskyt a zvolíme $N > SJ$,
469 algoritmus pobì¾í v~prùmìrném èase $\O(S)$.
470
471 \exercises
472
473 \ex{Naivní algoritmus, který zkou¹í v¹echny mo¾né zaèátky jehly v~senì a v¾dy
474 porovnává øetìzce, má èasovou slo¾itost $\O(JS)$. Mù¾e být opravdu tak pomalý,
475 uvá¾íme-li, ¾e porovnávání øetìzcù skonèí, jakmile najde první neshodu? Sestrojte
476 vstup, na kterém algoritmus pobì¾í $\Theta(JS)$ krokù, pøesto¾e nic nenajde.}
477
478 \ex{Naleznìte pøíklad jehel a sena, v~nìm¾ se nachází superlineární poèet
479 výskytù vzhledem k~celkové velikosti vstupu (souèet velikostí jehel a délky
480 sena).}
481
482 \ex{Uva¾ujme zjednodu¹ený algoritmus AC, který nepou¾ívá zkratkové hrany
483 a v¾dy projde po zpìtných hranách a¾ do koøene. Uka¾te pøíklad vstupu,
484 na~kterém je tento algoritmus asymptoticky pomalej¹í.}
485
486 \ex{Oznaème $M(S)$ mno¾inu øetìzcù, jejich¾ výskyty algoritmus AC ohlásí
487 ve~stavu~$S$. Uka¾te, ¾e kdybychom si mìli v¹echny mno¾iny $M(S)$ pamatovat
488 explicitnì, budeme pro nìkteré vstupy potøebovat superlineární mno¾ství
489 prostoru vzhledem k~velikosti vstupu, tak¾e automat nepùjde sestrojit
490 v~lineárním èase.}
491
492 \ex{Rozmyslete si, ¾e mno¾iny $M(S)$ z~pøedchozího pøíkladu by bylo mo¾né
493 reprezentovat jako srùstající spojové seznamy -- tedy takové, kde si ka¾dý
494 prvek pamatuje ukazatel na svého následníka, který ov¹em mù¾e le¾et v~jiném
495 seznamu. Uka¾te, ¾e námi zavedené zkratkové hrany lze interpretovat jako
496 v~takových seznamech.}
497
498 \ex{Rozmyslete si, jak algoritmy z~této kapitoly upravit, aby si poradily
499 s~velkými abecedami.}
500
501 \ex{Upravte algoritmus AC, aby pro ka¾dou pozici v~senì vypsal nejdel¹í
502 tam konèící jehlu, a~to efektivnìji ne¾ vyjmenováním v¹ech jehel. Jak se
503 algoritmus zmìní, budeme-li chtít vypsat nejdel¹í jehlu, která na dané
504 pozici zaèíná?}
505
506 \ex{Mìjme seno a jehly. Popi¹te algoritmus, který v~lineárním èase pro ka¾dou
507 jehlu spoèítá, kolikrát se v~senì vyskytuje. Èasová slo¾itost by nemìla záviset
508 na poètu výskytù -- ten, jak u¾ víme, mù¾e být superlineární.}
509
510 \ex{Cenzor dostane mno¾inu zakázaných podøetìzcù a text. V¾dy najde nejlevìj¹í
511 výskyt zakázaného podøetìzce v~textu (s~nejlevìj¹ím koncem; pokud jich je více,
512 tak nejdel¹í takový), vystøihne ho a postup opakuje. Uka¾te, jak text cenzurovat
513 v~lineárním èase.}
514
515 \ex{Rotací øetìzce~$\alpha$ o~$K$ pozic nazýváme øetìzec $\alpha[K:{}]\alpha[{}:K]$.
516 Jak o~dvou øetìzcích zjistit, zda je jeden rotací druhého?}
517
518 \ex{Jak v~lineárním èase zrotovat øetìzec, dostaèuje-li pamì» poèítaèe jen
519 na ulo¾ení jedhoho øetìzce a $\O(1)$ pomocných promìnných?}
520
521 \ex{Navrhnìte algoritmus, který v~lineárním èase nalezne tu z~rotací zadaného
522 øetìzce, je¾ je lexikograficky minimální.}
523
524 \ex{Navrhnìte datovou strukturu pro básníky, která si bude pamatovat slovník
525 a bude umìt hledat rýmy. Tedy pro libovolné zadané slovo najde takové slovo
526 ve~slovníku, které má se zadaným nejdel¹í spoleèný suffix.}
527
528 \exx{Upravte datovou strukturu z~pøedchozího cvièení, aby je-li nejlep¹ích rýmù
529 více, vypsala lexikograficky nejmen¹í z~nich.}
530
531 \ex{Jak reprezentovat slovník, abyste umìli rychle vyhledávat v¹echny
532 pøesmyèky zadaného slova?}
533
534 \exx{Je dán text a èíslo~$K$. Jak zjistit, který podøetìzec délky~$K$
535 se v~textu vyskytuje nejèastìji?}
536
537 \exx{Sestrojte co nejefektivnìj¹í algoritmus, který v~daném øetìzci najde
538 nejdel¹í podøetìzec, který se vyskytuje vícekrát.}
539
540 \exx{Uka¾te, jak pro dané dva øetìzce najít jejich nejdel¹í spoleèný
541 podøetìzec.}
542
543 \ex{Definujme Fibonacciho slova takto: $F_0=|a|$, $F_1=|b|$, $F_{n+2}=F_nF_{n+1}$.
544 Jak pro zadaný øetìzec nad abecedou $\{|a|,|b|\}$ najít nejdel¹í Fibonacciho podslovo?
545 }
546
547 \exx{Pokraèujme v~pøedchozím cvièení. Dostaneme-li øetìzec nad nìjakou obecnou abecedou,
548 jak nalézt jeho nejdel¹í podøetìzec, který je isomorfní s~nìjakým Fibonacciho slovem
549 (li¹í se pouze substitucí jiných znakù za |a| a~|b|)?}
550
551 \ex{Je dáno slovo. Chceme nalézt jeho nejdel¹í prefix, který je souèasnì suffixem.}
552
553 \endexercises
554
555 \bye