]> mj.ucw.cz Git - ga.git/blob - 9-decomp/9-decomp.tex
Opraveno par preklepu a formulacnich nepresnosti.
[ga.git] / 9-decomp / 9-decomp.tex
1 \input ../sgr.tex
2
3 \hyphenation{mikro-strom mikro-stro-mo-vé}
4
5 \prednaska{9}{Dekompozice stromù}{}
6
7 V~této kapitole uká¾eme nìkolik datových struktur zalo¾ených
8 na~my¹lence dekompozice problému na~dostateènì malé podproblémy,
9 které u¾ umíme (obvykle vhodným kódováním èísly) øe¹it v~konstantním
10 èase.
11
12 \h{Union-Find Problem}
13
14 \s{Problém:} Udr¾ování tøíd ekvivalence: na~poèátku máme $N$ jednoprvkových ekvivalenèních
15 tøíd, provádíme operace \<Find> (zji¹tìní, zda dva prvky jsou ekvivalentní) a \<Union>
16 (slouèení dvou tøíd do~jedné). Také na~to lze pohlí¾et jako na~inkrementální udr¾ování
17 komponent souvislosti neorientovaného grafu: \<Union> je pøidání hrany, \<Find> test,
18 zda dva vrcholy le¾í v~té¾e komponentì. To se hodí v~mnoha algoritmech, kupøíkladu
19 v~Kruskalovì algoritmu pro hledání minimální kostry.
20
21 \s{Triviální øe¹ení:} Prvky ka¾dé tøídy obarvíme unikátní barvou (identifikátorem
22 tøídy). Operace \<Find> porovnává barvy, \<Union> prvky jedné ze~sjednocovaných
23 tøíd pøebarvuje.
24
25 Operace \<Find> tak pracuje v~konstantním èase, \<Union> mù¾e zabrat a¾ lineární èas. Mù¾eme si
26 pomoci tím, ¾e v¾dy pøebarvíme {\I men¹í} ze~sluèovaných ekvivalenèních tøíd (budeme
27 si pro ka¾dou tøídu pamatovat seznam jejích prvkù a velikost). Tehdy mù¾e být ka¾dý
28 prvek pøebarven jen $\O(\log n)$-krát, jeliko¾ ka¾dým pøebarvením se alespoò zdvojnásobí
29 velikost tøídy, ve~které prvek le¾í. Posloupnost operací \<Union>, kterou vznikla tøída
30 velikosti~$k$, tak trvá $\O(k\log k)$, tak¾e mù¾eme bezpeènì prohlásit, ¾e amortizovaná
31 slo¾itost operace \<Union> je $\O(\log n)$.
32
33 \s{Chytøej¹í øe¹ení:} Ka¾dou tøídu budeme reprezentovat zakoøenìným stromem s~hranami
34 orientovanými smìrem ke~koøeni (jinými slovy pro ka¾dý prvek si pamatujeme jeho otce
35 nebo ¾e je to koøen). \<Find> nalezne koøeny stromù a porovná je, \<Union> pøipojí koøen
36 jedné tøídy pod koøen druhé. Aby stromy nedegenerovaly, pøidáme dvì pravidla:
37
38 \itemize\ibull
39 \:{\I Union by rank:} ka¾dý koøen $v$ si pamatuje svùj rank $r(v)$. Na~poèátku
40 jsou v¹echny ranky nulové. Pokud spojujeme
41 dva stromy s~koøeny $v$, $w$ a $r(v)<r(w)$, pøipojíme $v$ pod~$w$ a rank zachováme.
42 Pokud $r(v)=r(w)$, pøipojíme libovolnì a nový koøen bude mít rank $r(v)+1$.%
43 \foot{Stejnì by fungovalo pravidlo {\I Union by size,} které pøipojuje men¹í
44 strom pod vìt¹í, ale ranky máme radìji, neb jsou skladnìj¹í a snáze se analyzují.}
45
46 \:{\I Path compression:} pokud z~vrcholu vystoupíme do~koøene (napøíklad
47 bìhem operace \<Find>), pøepojíme v¹echny vrcholy na~cestì, po~které jsme pro¹li,
48 rovnou pod koøen.
49 \endlist
50
51 \s{Pozorování:} Samotné pravidlo Union by rank zajistí, ¾e strom ranku $r$ bude
52 mít hloubku nejvý¹e $r$ a minimálnì $2^r$ vrcholù, tak¾e èasová slo¾itost operací
53 bude omezena $\O(\log n)$ v~nejhor¹ím pøípadì.%
54 \foot{Mimochodem, Path compression samotná by také na~slo¾itost $\O(\log n)$ amortizovanì staèila.}
55
56 Amortizovanì se ale popsaná struktura chová daleko lépe:
57
58 \s{Vìta:} (Tarjan, van Leeuwen \cite{tarjan84setunion}) Kombinace Union by rank a Path compression vede k~amortizované
59 slo¾itosti obou operací $\O(\alpha(n))$, kde $\alpha$ je inverzní Ackermannova funkce.%
60 \foot{Existuje varianta tohoto algoritmu, která dosahuje stejné slo¾itosti i v~nejhor¹ím
61 pøípadì; té¾ je známo, ¾e asymptoticky lep¹í slo¾itosti nelze dosáhnout.}
62
63 \h{Union-Find s~pøedem známými Uniony}
64
65 Dále nás bude zajímat speciální varianta Union-Find problému, v~ní¾ dopøedu známe
66 posloupnost Unionù, èili strom, který spojováním komponent vznikne.\foot{Kdy se to hodí?
67 Tøeba v~Thorupovì lineárním algoritmu \cite{thorup:usssp} na~nejkrat¹í cesty nebo
68 ve~Weiheho takté¾ lineárním algoritmu \cite{weihe:paths} na~hledání hranovì disjunktních
69 cest v~rovinných grafech.}
70 Jiná interpretace tého¾ (jen pozpátku) je dekrementální udr¾ování komponent
71 souvislosti lesa: na~poèátku je dán les, umíme smazat hranu a otestovat, zda jsou
72 dva vrcholy v~tém¾e stromu.
73
74 Popí¹eme algoritmus,
75 který po~poèáteèním pøedzpracování v~èase $\O(n)$ zvládne \<Union> i \<Find> v~amortizovanì
76 konstantním èase. Tento algoritmus je kombinací dekompozic popsaných Alstrupem v~\cite{alstrup97optimal}
77 a \cite{alstrup98marked}.
78
79 \s{Definice:} {\I (Microtree/Macrotree dekompozice)} Pro zakoøenìný strom $T$ o~$n$ vrcholech
80 definujeme:
81 \itemize\ibull
82 \:{\I Koøeny mikrostromù} budou nejvy¹¹í vrcholy v~$T$, pod~nimi¾ je nejvý¹e $\log n$ listù
83 a které nejsou koøenem celého~$T$.
84 \:{\I Mikrostromy} le¾í v~$T$ od~tìchto koøenù ní¾e.
85 \:{\I Spojovací hrany} vedou z~koøenù mikrostromù do~jejich otcù.
86 \:{\I Makrostrom} je tvoøen zbývajícími vrcholy a hranami stromu~$T$.
87 \endlist
88
89 \s{Pozorování:} Ka¾dý mikrostrom má nejvý¹e $\log n$ listù. Pod ka¾dým listem makrostromu le¾í
90 alespoò jeden mikrostrom (mù¾e jich být i více, viz dekompozice hvìzdy na~obrázku), tak¾e
91 listù makrostromu je nejvý¹e $n/\log n$.
92
93 Vnitøních vrcholù makro- i mikrostromù ale mù¾e být ne¹ikovnì mnoho, proto¾e se ve~stromech mohou
94 vyskytovat dlouhé cesty. Pomù¾eme si snadno: ka¾dou cestu si budeme pamatovat zvlá¹» a ve~stromu
95 ji nahradíme hranou, která bude vlo¾ena právì tehdy, kdy¾ budou pøítomny v¹echny hrany cesty.
96
97 \s{Pøíklad:} Následující obrázek ukazuje dekompozici nìkolika stromù za~pøepokladu,
98 ¾e $\log n=4$. Vrcholy mikrostromù jsou èerné, makrostromu bílé. Spojovací hrany kreslíme teèkovanì,
99 hrany komprimovaných cest tuènì.
100
101 \fig{mima.eps}{\epsfxsize}
102
103 \s{Algoritmus pro cesty:} Cestu délky~$l$ rozdìlíme na~úseky délky $\log n$, pro nì¾ si ulo¾íme
104 mno¾iny ji¾ pøítomných hran (po~bitech jako èísla). Pak si je¹tì pamatujeme zkomprimovanou cestu (hrany
105 odpovídají úsekùm a jsou pøítomny právì tehdy, jsou-li pøítomny v¹echny hrany pøíslu¹ného úseku)
106 délky $l/\log n$ a pro ni \uv{pøebarvovací} strukturu pro Union-Find.
107
108 \>$\<Union>(x,y)$ (pøidání hrany $e=xy$ do~cesty):
109 \algo
110 \:Pøidáme $e$ do mno¾iny hran pøítomných v~pøíslu¹ném úseku.
111 \:Pokud se tím úsek naplnil, pøidáme odpovídající hranu do~zkomprimované cesty.
112 \endalgo
113
114 \>$\<Find>(x,y):$
115 \algo
116 \:Pokud $x$ a $y$ jsou v~tém¾e úseku, otestujeme bitovými operacemi, zda
117   jsou v¹echny hrany mezi $x$ a $y$ pøítomny.
118 \:Pokud jsou v~rùzných úsecích, rozdìlíme cestu z~$x$ do~$y$ na~posloupnost celých úsekù,
119   na~které nám odpoví zkomprimovaná cesta, a~dva dotazy v~krajních èásteèných úsecích.
120 \endalgo
121
122 Operace uvnitø úsekù pracují v~èase $\O(1)$, operace na~zkomprimované cestì v~$\O(\log l)$
123 amortizovanì, ale za~dobu ¾ivota struktury je jich $\O(l/\log n)=\O(l/\log l)$, tak¾e celkovì zaberou lineární èas.
124
125 \s{Cestová komprese:} Operace na~mikro/makro-stromech budeme následujícím zpùsobem
126 pøevádìt na~operace s~jejich cestovì komprimovanými podobami a na~operace s~cestovými strukturami:
127
128 \>$\<Union>(x,y)$:
129 \algo
130 \:Pokud $e=xy$ le¾í uvnitø nìjaké cesty, pøidáme ji do~cesty, co¾ buïto zpùsobí
131   pøidávání jiné hrany, a~nebo u¾ jsme hotovi.
132 \:Provedeme \<Union> v~komprimovaném stromu.
133 \endalgo
134
135 \>$\<Find>(x,y)$:
136 \algo
137 \:Pokud $x$ a $y$ le¾í uvnitø jedné cesty, zeptáme se cestové struktury a konèíme.
138 \:Pokud $x$ le¾í uvnitø nìjaké cesty, zjistíme dotazem na~cestovou strukturu,
139   ke~kterému krajnímu vrcholu cesty je pøipojen, a~$x$ nahradíme tímto vrcholem.
140   Není-li pøipojen k~¾ádnému, je~evidentnì odpovìï na~celý \<Find> negativní;
141   pokud k~obìma, vybereme si libovolný, proto¾e jsou stejnì v~cestovì komprimovaném
142   stromu spojeny hranou. Analogicky pro~$y$.
143 \:Zeptáme se struktury pro komprimovaný strom.
144 \endalgo
145
146 \s{Algoritmus pro mikrostromy:} Po~kompresi cest má ka¾dý mikrostrom nejvý¹e $2\log n$
147 vrcholù, èili také nejvý¹e tolik hran. Hrany si oèíslujeme pøirozenými èísly, ka¾dou
148 mno¾inu hran pak mù¾eme reprezentovat $(2\log n)$-bitovým èíslem a mno¾inové operace
149 provádìt pomocí bitových v~konstantním èase.
150
151 Pro ka¾dý mikrostrom si pøedpoèítáme pro v¹echny jeho vrcholy~$v$ mno¾iny~$P_v$ hran le¾ících
152 na~cestì z~koøene mikrostromu do~$v$. Navíc si budeme pro celý mikrostrom pamatovat mno¾inu
153 pøítomných hran~$F$.
154
155 \>$\<Union>(x,y):$
156
157 \algo
158 \:Najdeme poøadové èíslo $i$ hrany $xy$ (máme pøedpoèítané).
159 \:$F \leftarrow F \cup \{i\}$.
160 \endalgo
161
162 \>$\<Find>(x,y):$
163
164 \algo
165 \:$P \leftarrow P_x \mathop{\Delta} P_y$ (mno¾ina hran le¾ících na~cestì z~$x$ do~$y$).
166 \:Pokud $P\setminus F=\emptyset$, le¾í $x$ a $y$ ve~stejnì komponentì, jinak ne.
167 \endalgo
168
169 \s{Algoritmus pro celý problém:} Strom rozlo¾íme na~mikrostromy, makrostrom a spojovací
170 hrany. V~mikrostromech i makrostromu zkomprimujeme cesty. Pro cesty a mikrostromy pou¾ijeme
171 vý¹e popsané struktury, pro ka¾dou spojovací hranu si budeme pamatovat jen znaèku,
172 zda je pøítomna, a pro makrostrom pøebarvovací strukturu.
173
174 \>$\<Union>(x,y)$:
175
176 \algo
177 \:Pokud $e=xy$ je spojovací, poznamenáme si, ¾e je pøítomna, a~konèíme.
178 \:Nyní víme, ¾e $e$ le¾í uvnitø mikrostromu nebo makrostromu, a~tak provedeme \<Union>
179    na~pøíslu¹né struktuøe.
180 \endlist
181
182 \>$\<Find>(x,y)$:
183
184 \algo
185 \:Le¾í-li $x$ a $y$ v~jednom mikrostromu, zeptáme se struktury pro~mikrostrom.
186 \:Je-li $x$ uvnitø mikrostromu, zeptáme se mikrostruktury na~spojení s~koøenem mikrostromu.
187   Není-li, odpovíme {\sc ne}, stejnì jako kdy¾ není pøítomna pøíslu¹ná spojovací hrana.
188   Jinak $x$ nahradíme listem makrostromu, do~kterého spojovací hrana vede. Podobnì pro~$y$.
189 \:Odpovíme podle struktury pro makrostrom.
190 \endalgo
191
192 \s{Analýza:} Operace \<Find> trvá konstantní èas, proto¾e se rozlo¾í na~$\O(1)$ \<Find>ù
193 v~dílèích strukturách a ka¾dý z~nich trvá konstantnì dlouho. V¹ech $n$ operací \<Union>
194 trvá $\O(n)$, jeliko¾ zpùsobí $\O(n)$ amortizovanì konstantních operací s~mikrostromy, spojovacími
195 hranami a cestami a $\O(n/\log n)$ operací s~makrostromem, které trvají $\O(\log n)$ amortizovanì
196 ka¾dá.%
197 \foot{To je v~prùmìru $\O(1)$ na~operaci a dokonce i amortizovanì, pokud necháme inicializaci
198 struktury, která je lineární, naspoøit potenciál $\O(n)$, ze~kterého budeme prùbì¾nì platit
199 sluèování v~makrostromu.}
200
201 \s{Cvièení:} Zkuste pomocí dekompozice vyøe¹it následující problém: je dán strom,
202 jeho¾ ka¾dý vrchol mù¾e být oznaèený. Navrhnìte datovou strukturu, která bude umìt
203 v~èase $\O(\log\log n)$ oznaèit nebo odznaèit vrchol a v~èase $\O(\log n/\log\log n)$ najít
204 nejbli¾¹ího oznaèeného pøedchùdce.
205
206 \h{Fredericksonova clusterizace}
207
208 Mikro/makro-stromová dekompozice není jediný zpùsob, jak stromy rozkládat. Nìkdy
209 se hodí napøíklad následující my¹lenka:
210
211 \s{Definice:} {\I (Fredericksonova clusterizace)} Nech» $G$ je graf s~vrcholy stupòù nejvý¹e~3
212 a $c\ge 1$. Pak $c$-clusterizací grafu $G$ nazveme libovolný rozklad
213 $G$ na~souvislé podgrafy {\I (clustery)} $C_1, C_2, \ldots, C_k$ takový, ¾e platí:
214 \itemize\ibull
215 \:Ka¾dý vrchol se nachází v~právì jednom clusteru (hrany mohou vést i mezi clustery).
216 \:Ka¾dý cluster má nejvý¹e~$c$ vrcholù.
217 \:Vnìj¹í stupeò ka¾dého clusteru (tj. poèet hran, které vedou mezi $C_i$ a ostatními
218 clustery; mezi ka¾dou dvojicí clusterù poèítáme jen jednu hranu) je nejvý¹e~3.
219 Navíc pokud je právì~3, je cluster triviální, èili $\vert C_i \vert = 1$.
220 \:®ádné dva sousední clustery nelze spojit.
221 \endlist
222
223 \s{Vìta:} (Frederickson \cite{frederickson91ambivalent}) Ka¾dá $c$-clusterizace grafu $G$ má $\O(\vert V(G)\vert /c)$ clusterù. Existuje
224 algoritmus, který jednu takovou najde v~lineárním èase.
225
226 \proof První èást rozborem pøípadù, druhá hladovì pomocí DFS. \qed
227
228 \s{Pou¾ití:} Pøedchozí variantu Union-Find problému bychom také mohli vyøe¹it nahrazením
229 vrcholù stupnì $>3$ \uv{kruhovými objezdy bez jedné hrany}\foot{tzv. francouzský trik},
230 nalezením $(\log n)$-clusterizace, pou¾itím bitové reprezentace mno¾in uvnitø clusterù
231 a pøebarvovací struktury na~hrany mezi clustery.
232
233 \h{Stromoví pøedchùdci}
234
235 \s{Problém:} {\I (Least Common Ancestor alias LCA)} Chceme si pøedzpracovat zakoøenìný strom~$T$
236 tak, abychom dokázali pro libovolné dva vrcholy $x,y$ najít co~nejrychleji jejich nejbli¾¹ího
237 spoleèného pøedchùdce.
238
239 \s{Triviální øe¹ení LCA:}
240 \itemize\ibull
241 \:Vystoupáme z~$x$ i $y$ do~koøene, oznaèíme vrcholy na~cestách a kde se poprvé
242   potkají, tam je hledaný pøedchùdce. To je lineární s~hloubkou a nepotøebuje
243   pøedzpracování.
244 \:Vylep¹ení: Budeme stoupat z~$x$ a $y$ støídavì. Tak potøebujeme jen lineárnì mnoho
245   krokù vzhledem ke~vzdálenosti spoleèného pøedchùdce.
246 \:Pøedpoèítáme v¹echny mo¾nosti: pøedzpracování $\O(n^2)$, dotaz $\O(1)$.
247 \:\dots\ co dál?
248 \endlist
249
250 \>Vìrni vtipùm o~matfyzácích a èlánku \cite{bender00lca} pøevedeme radìji tento problém na~jiný.
251
252 \s{Problém:} {\I (Range Minimum Query alias RMQ)} Chceme pøedzpracovat posloupnost èísel
253 $a_1,\ldots a_n$ tak, abychom umìli rychle poèítat $\min_{x\le i\le y} a_i$.%
254 \foot{V¹imnìte si, ¾e pro sumu místo minima je tento problém velmi snadný.}
255
256 \s{Lemma:} LCA lze pøevést na~RMQ s~lineárním èasem na~pøedzpracování a konstantním
257 èasem na~pøevod dotazu.
258
259 \proof Strom projdeme do~hloubky a poka¾dé, kdy¾ vstoupíme do~vrcholu (a» ji¾ poprvé nebo se do~nìj vrátíme),
260 zapí¹eme jeho hloubku. ${\rm LCA}(x,y)$ pak bude nejvy¹¹í vrchol mezi libovolnou
261 náv¹tìvou~$x$ a libovolnou náv¹tìvou~$y$.
262 \qed
263
264 \s{Triviální øe¹ení RMQ:}
265 \itemize\ibull
266 \:Pøedpoèítáme v¹echny mo¾né dotazy: pøedzpracování $\O(n^2)$, dotaz $\O(1)$.
267 \:Pro ka¾dé $i$ a $j\le \log n$ pøedpoèítáme $m_{ij} = \min\{ a_i, a_{i+1}, \ldots, a_{i+2^j-1} \}$,
268 èili minima v¹ech blokù velkých jako nìjaká mocnina dvojky. Kdy¾ se poté nìkdo zeptá
269 na~minimum bloku $a_i,a_{i+1},\ldots,a_{j-1}$, najdeme nejvìt¹í~$k$ takové, ¾e $2^k < j-i$
270 a vrátíme:
271 $$\min( \min\{ a_i, \ldots, a_{i+2^k-1} \}, \min\{ a_{j-2^k}, \ldots, a_{j-1} \} ).$$
272 Tak zvládneme dotazy v~èase $\O(1)$ po~pøedzpracování v~èase $\O(n\log n)$.
273 \endlist
274
275 My si ov¹em v¹imneme, ¾e ná¹ pøevod z~LCA vytváøí dosti speciální instance problému RMQ,
276 toti¾ takové, v~nich¾ je $\vert a_i - a_{i+1} \vert = 1$. Takovým instancím budeme
277 øíkat RMQ${\pm}1$ a budeme je umìt øe¹it ¹ikovnou dekompozicí.
278
279 \s{Dekompozice} pro RMQ${\pm}1$: Vstupní posloupnost rozdìlíme na~bloky velikosti $b=1/2\cdot \log n$,
280 ka¾dý dotaz umíme rozdìlit na~èást týkající se celých blokù a maximálnì dva dotazy na~èásti blokù.
281
282 V¹imneme si, ¾e aèkoliv blokù je mnoho, jejich mo¾ných typù (tj. posloupností klesání
283 a stoupání) je pouze $2^{b-1}\le\sqrt n$ a bloky tého¾ typu se li¹í pouze posunutím
284 o~konstantu. Vybudujeme proto kvadratickou strukturu pro jednotlivé typy a pro ka¾dý
285 blok si zapamatujeme, jakého je typu a jaké má posunutí. Celkem strávíme èas
286 $\O(n + \sqrt n \cdot \log^2 n) = \O(n)$ pøedzpracováním a $\O(1)$ dotazem.
287
288 Mimo to je¹tì vytvoøíme komprimovanou posloupnost, v~ní¾ ka¾dý blok nahradíme
289 jeho minimem. Tuto posloupnost délky $n/b$ budeme pou¾ívat pro èásti dotazù
290 týkající se celých blokù a pøipravíme si pro ni \uv{logaritmickou} variantu
291 triviální struktury. To nás bude stát $\O(n/b\cdot\log (n/b))=\O(n/\log n\cdot\log n)=\O(n)$ na~pøedzpracování
292 a $\O(1)$ na~dotaz.
293
294 Tak jsme získali algoritmus pro RMQ${\pm}1$ s~konstantním èasem na~dotaz po~lineárním
295 pøedzpracování a vý¹e zmínìným pøevodem i algoritmus na~LCA se stejnými parametry.
296 Je¹tì uká¾eme, ¾e pøevod mù¾e fungovat i v~opaèném smìru, a~tak mù¾eme získat
297 i konstantní/lineární algoritmus pro obecné RMQ.
298
299 \s{Definice:} {\I Kartézský strom} pro posloupnost $a_1,\ldots,a_n$ je strom,
300 jeho¾ koøenem je minimum posloupnosti, tj. nìjaké $a_j=\min_i a_i$, jeho levý podstrom je
301 kartézský strom pro $a_1,\ldots,a_{j-1}$ a pravý podstrom kartézský strom pro $a_{j+1},\ldots,a_n$.
302
303 \s{Lemma:} Kartézský strom je mo¾né zkonstruovat v~lineárním èase.
304
305 \proof Pou¾ijeme inkrementální algoritmus. V¾dy si budeme pamatovat
306 kartézský strom pro ji¾ zpracované prvky a pozici posledního zpracovaného
307 prvku v~tomto stromu. Kdy¾ pøidáváme dal¹í prvek, hledáme místo, kam ho
308 pøipojit, od~tohoto oznaèeného prvku nahoru. Pov¹imnìme si, ¾e vzhledem
309 k~potenciálu rovnému hloubce oznaèeného prvku je èasová slo¾itost pøidání
310 prvku amortizovanì konstantní.
311 \qed
312
313 \s{Lemma:} RMQ lze pøevést na~LCA s~lineárním èasem na~pøedzpracování a konstantním
314 èasem na~pøevod dotazu.
315
316 \proof Sestrojíme kartézský strom a RMQ pøevedeme na~LCA v~tomto stromu.
317 \qed
318
319 Výsledky této podkapitoly mù¾eme shrnout do~následující vìty:
320
321 \s{Vìta:} Problémy LCA i RMQ je mo¾né øe¹it v~konstantním èase na~dotaz
322 po~pøedzpracování v~lineárním èase.
323
324 \references
325 \bye