]> mj.ucw.cz Git - ga.git/blob - 10-decomp/10-decomp.tex
Prvni verze.
[ga.git] / 10-decomp / 10-decomp.tex
1 \input ../sgr.tex
2
3 \prednaska{10}{Dekompozice stromù}{zapsal Ale¹ ©nupárek}
4
5 V~této kapitole uká¾eme nìkolik datových struktur zalo¾ených
6 na~my¹lence dekompozice problému na~dostateènì malé podproblémy,
7 které u¾ umíme (obvykle vhodným kódováním èísly) øe¹it v~konstantním
8 èase.
9
10 \h{Union-Find problem}
11
12 \s{Problém:} Udr¾ování tøíd ekvivalence: na~poèátku máme $N$ jednoprvkových ekvivalenèních
13 tøíd, provádíme operace \<Find> (zji¹tìní, zda dva prvky jsou ekvivalentní) a \<Union>
14 (slouèení dvou tøíd do~jedné). Také na~to lze pohlí¾et jako na~inkrementální udr¾ování
15 komponent souvislosti neorientovaného grafu: \<Union> je pøidání hrany, \<Find> test,
16 zda dva vrcholy le¾í v~té¾e komponentì. To se hodí v~mnoha algoritmech, kupøíkladu
17 v~Kruskalovì algoritmu pro hledání minimální kostry.
18
19 \s{Triviální øe¹ení:} Ka¾dé tøídì pøiøadíme unikátní barvu, kterou obarvíme prvky tøídy. Operace \<Find>
20 porovává barvy, operace \<Union> prvky jedné tøídy pøebarví.
21
22 Operace \<Find> tak pracuje v~konstantním èase, \<Union> mù¾e zabrat a¾ lineární. Mù¾eme si ale
23 pomoci tím, ¾e v¾dy pøebarvíme {\I men¹í} ze~sluèovaných ekvivalenèních tøíd (budeme
24 si pro ka¾dou tøídu pamatovat seznam jejích prvkù a velikost). Tehdy mù¾e být ka¾dý
25 prvek pøebarven jen $\O(\log n)$-krát, jeliko¾ ka¾dým pøebarvením se alespoò zdvojnásobí
26 velikost tøídy, ve~které prvek le¾í. Posloupnost operací \<Union>, kterou vznikla tøída
27 velikosti~$k$, tak trvá $\O(k\log k)$, tak¾e mù¾eme bezpeènì prohlásit, ¾e amortizovaná
28 slo¾itost operace \<Union> je $\O(\log n)$.
29
30 \s{Chytøej¹í øe¹ení:} Ka¾dou tøídu budeme reprezentovat zakoøenìným stromem s~hranami
31 orientovanými smìrem ke~koøeni (jinými slovy pro ka¾dý prvek si pamatujeme jeho otce
32 nebo ¾e je to koøen). \<Find> nalezne koøeny stromù a porovná je, \<Union> pøipojí koøen
33 jedné tøídy pod koøen druhé. Aby stromy nedegenerovaly, pøidáme dvì podmínky:
34
35 \itemize\ibull
36 \:{\I Union by rank:} ka¾dý koøen $v$ si pamatuje svùj rank $r(v)$. Pokud spojujeme
37 dva stromy s~koøeny $v$, $w$ a $r(v)<r(w)$, pøipojíme $v$ pod~$w$ a rank zachováme.
38 Pokud $r(v)=r(w)$, pøipojíme libovolnì a nový koøen bude mít rank $r(v)+1$.%
39 \foot{Podobnì by fungovalo pravidlo {\I Union by size,} které pøipojuje men¹í
40 strom pod vìt¹í, ale ranky máme radìji, neb jsou skladnìj¹í.}
41
42 \:{\I Path compression:} pokud z~vrcholu vystoupíme do~koøene (napøíklad
43 bìhem operace \<Find>), pøepojíme v¹echny vrcholy na~cestì, po~které jsme pro¹li,
44 rovnou pod koøen.
45 \endlist
46
47 \s{Pozorování:} Pravidlo Union by rank samotné zajistí, ¾e strom ranku $r$ bude
48 mít hloubku nejvý¹e $r$ a minimálnì $2^r$ vrcholù, tak¾e èasová slo¾itost operací
49 bude omezena $\O(\log n)$.%
50 \foot{Mimochodem, Path compression samotná by také na~slo¾itost $\O(\log n)$ amortizovanì staèila.}
51
52 \s{Vìta:} (Tarjan et al.) Kombinace Union by rank a Path compression vede k~amortizované
53 slo¾itosti obou operací $\O(\alpha(n))$, kde $\alpha$ je inverzní Ackermannova funkce.%
54 \foot{Existuje varianta tohoto algoritmu, která dosahuje stejné slo¾itosti i v~nejhor¹ím
55 pøípadì; té¾ je známo, ¾e asymptoticky lep¹í slo¾itosti nelze dosáhnout.}
56
57 \h{Union-Find s~pøedem známými Uniony}
58
59 Dále nás bude zajímat speciální varianta Union-Find problemu, v~ní¾ dopøedu známe
60 posloupnost unionù, èili strom, který spojováním komponent vznikne. Popí¹eme algoritmus,
61 který po~poèáteèním pøedzpracování v~èase $\O(n)$ zvládne \<Union> i \<Find> v~amortizovanì
62 konstantním èase.
63
64 \s{Definice:} {\I (Microtree/Macrotree dekompozice)} Pro zakoøenìný strom $T$ o~$n$ vrcholech
65 definujeme:
66 \itemize\ibull
67 \:{\I Koøeny mikrostromù} $R$ budou nejvy¹¹í vrcholy, pod~nimi¾ je nejvý¹e $\log n$ listù.
68 \:{\I Mikrostromy} le¾í v~$T$ od~tìchto koøenù ní¾e.
69 \:{\I Spojovací hrany} vedou z~koøenù mikrostromù do~jejich otcù.
70 \:{\I Makrostrom} je tvoøen zbytkem stromu~$T$, který nepatøí ani do~mikrostromù, ani do~spojovacích hran.
71 \endlist
72
73 \s{Pozorování:} Ka¾dý mikrostrom má nejvý¹e $\log n$ listù. Pod ka¾dým listem makrostromu le¾í
74 alespoò jeden makrostrom\foot{Mù¾e jich být i více, pøedstavte si dekompozici hvìzdy.}, tak¾e
75 listù makrostromu je nejvý¹e $n/\log n$.
76
77 Vnitøních vrcholù makro- i mikrostromù ale mù¾e být ne¹ikovnì mnoho, proto¾e se ve~stromech mohou
78 vyskytovat dlouhé cesty. Pomu¾eme si snadno: ka¾dou cestu si budeme pamatovat zvlá¹» a ve~stromu
79 ji nahradíme hranou, která bude existovat právì tehdy, kdy¾ budou pøítomny v¹echny hrany cesty.
80
81 \s{Algoritmus pro cesty:} Cestu délky~$l$ rozdìlíme na~úseky délky $\log n$, pro nì¾ si pamatujeme
82 (jako èísla) mno¾iny ji¾ pøítomných hran. Pak si je¹tì pamatujeme zkomprimovanou cestu (hrany
83 odpovídají úsekùm a jsou pøítomny právì tehdy, jsou-li pøítomny v¹echny hrany pøíslu¹ného úseku)
84 délky $l/\log n$ a pro ni \uv{pøebarvovací} strukturu pro Union-Find.
85
86 \algo
87 \:\<Union>(x,y) (pøidání hrany $e=xy$ na~cestu):
88 \::Pøidáme $e$ do mno¾iny hran pøítomných v~pøíslu¹ném úseku.
89 \::Pokud se tím úsek naplnil, pøidáme odpovídající hranu do~zkomprimované cesty.
90 \:\<Find>(x,y):
91 \::Pokud $x$ a $y$ jsou v~tém¾e úseku, otestujeme bitovými operacemi, zda
92    jsou v¹echny hrany mezi $x$ a $y$ pøítomny.
93 \::Pokud jsou v~rùzných, rozdìlíme cestu z~$x$ do~$y$ na~posloupnost celých úsekù,
94    na~které nám odpoví zkomprimovaná cesta, a~dva dotazy v~krajních èásteèných úsecích.
95 \endalgo
96
97 Operace uvnitø úsekù pracují v~èase $\O(1)$, operace na~zkomprimované cestì v~$\O(\log l)$
98 amortizovanì, ale je jich $\O(l/\log n)=\O(l/\log l)$, tak¾e celkovì zaberou lineární èas.
99
100 \s{Algoritmus pro mikrostromy:} Po~kompresi cest má ka¾dý mikrostrom nejvý¹e $2\log n$
101 vrcholù, èili také nejvý¹e tolik hran. Hrany si oèíslujeme pøirozenými èísly, ka¾dou
102 mno¾inu hran pak mù¾eme reprezentovat $2\log n$-bitovým èíslem a mno¾inové operace
103 provádìt pomocí bitových v~konstatním èase.
104
105 Pro ka¾dý mikrostrom si pøedpoèítáme pro v¹echny jeho vrcholy~$v$ mno¾iny~$P_v$ hran le¾ících
106 na~cestì z~koøene mikrostromu do~$v$. Navíc si budeme pamatovat mno¾inu pøítomných hran~$F$.
107
108 \algo
109 \:\<Union>(x,y)
110 \::Najdeme poøadové èíslo $i$ hrany $xy$ (máme pøedpoèítané).
111 \::$F := F \cup \{i\}$.
112 \:\<Find>(x,y):
113 \::$P := P_x \mathop{\Delta} P_v$ (to je mno¾ina hran le¾ících na~cestì z~$x$ do~$y$)
114 \::Pokud $P\setminus F=\emptyset$, le¾í $x$ a $y$ ve~stejnì komponentì, jinak ne.
115 \endalgo
116
117 \s{Algoritmus pro celý problém:} Zkomprimujeme cesty a výsledný strom rozlo¾íme
118 na~mikrostromy, makrostromy a spojovací hrany. Pro cesty a mikrostromy pou¾ijeme
119 vý¹e popsané struktury, pro ka¾dou spojovací hranu si budeme pamatovat jen znaèku,
120 zda je pøítomna, a pro makrostrom pøebarvovací strukturu.
121
122 \>Operace $\<Union>(x,y)$:
123
124 \algo
125 \:Pokud $e=xy$ le¾í uvnitø cesty, pøidáme ji do~cesty, co¾ buïto zpùsobí
126    pøidávání jiné hrany do~stromu, a~nebo u¾ jsme hotovi.
127 \:Pokud $e$ je spojovací, poznamenáme si, ¾e je pøítomna, a~konèíme.
128 \:Pokud $e$ le¾í uvnitø mikrostromu nebo makrostromu, provedeme \<Union>
129    na~pøíslu¹né struktuøe.
130 \endlist
131
132 \>Operace $\<Find>(x,y)$:
133
134 \algo
135 \:Pokud $x$ a $y$ le¾í uvnitø jedné cesty, zeptáme se cestové struktury a konèíme.
136 \:Pokud $x$ le¾í uvnitø nìjaké cesty, zjistíme dotazem na~cestovou strukturu,
137    ke~kterému krajnímu vrcholu cesty je pøipojen, a~$x$ nahradíme tímto vrcholem.
138    Není-li pøipojen k~¾ádnému, je~evidentnì odpovìï na~celý \<Find> negativní,
139    pokud k~obìma, vybereme si libovolný, proto¾e jsou stejnì v~cestovì komprimovaném
140    stromu spojeny hranou. Analogicky pro~$y$.
141 \:[Nyní jsou $x$ a $y$ vrcholy cestovì zkomprimovaného stromu.]
142 \:Le¾í-li $x$ a $y$ v~jednom mikrostromu, zeptáme se struktury pro~mikrostrom.
143 \:Je-li $x$ uvnitø mikrostromu, zeptáme se mikrostromové struktury na~spojení s~koøenem mikrostromu.
144   Není-li, odpovíme {\sc ne}, stejnì jako kdy¾ není pøítomna pøíslu¹ná spojovací hrana.
145   Jinak $x$ nahradíme listem makrostromu, do~kterého spojovací hrana vede. Podobnì pro~$y$.
146 \:[Nyní jsou $x$ a $y$ vrcholy makrostromu.]
147 \:Odpovíme podle struktury pro makrostrom.
148 \endalgo
149
150 \s{Analýza:} Operace s~mikrostromy, spojovacími hranami a cestami jsou, jak u¾ víme,
151 amortizovanì konstantní. Operace s~makrostromy také, jeliko¾ trvají $\O(\log n)$,
152 ale provede se jich pouze $\O(n/\log n)$. Ka¾dou operaci \<Union> nebo \<Find>
153 rozlo¾íme $\O(1)$ tìchto dílèích operací, tak¾e bude také trvat $\O(1)$ amortizovanì.
154
155 \h{Fredericksonova clusterizace}
156
157 Mikro/makro-stromová dekompozice není jediný zpùsob, jak stromy rozkládat. Nìkdy
158 se hodí napøíklad následující my¹lenka:
159
160 \s{Definice:} (Fredericksonova clusterizace) Nech» $G$ je graf kde $\forall v \in V(G): {\rm deg}(v)\le 3$
161 a $c \in {\bb N}$. Pak $c$-clusterizací grafu $G$ nazveme libovolný rozklad
162 $G$ na~souvislé podgrafy (clustery) $G_1, G_2, \ldots, G_k$ takový, ¾e platí:
163 \itemize\ibull
164 \:$\forall v \in V \exists ! i: v \in C_i$.
165 \:$\forall i: \vert C_i\vert \le c$.
166 \:$\forall i$ je vnìj¹i stupeò $C_i$ (tj. poèet hran, které vedou mezi $C_i$ a zbytkem grafu)
167 nejvý¹e~3. Navíc pokud je právì~3, je cluster triviální, èili $\vert C_i \vert = 1$.
168 \:®ádné dva sousední clustery nelze spojit.
169 \endlist
170
171 \s{Vìta:} (Frederickson) $c$-clusterizace grafu $G$ má $\O(V(G)/c)$ clusterù a lze ji
172 najít v~lineárním èase.
173
174 \s{Dùkaz:} Hladovì pomocí DFS. \qed
175
176 \s{Pou¾ití:} Pøedchozí variantu Union-Find problemu bychom také mohli vyøe¹it nahrazením
177 vrcholù stupnì $>3$ \uv{kruhovými objezdy bez jedné hrany}\foot{tzv. francouzský trik},
178 nalezením $(\log n)$-clusterizace, pou¾itím bitové reprezentace mno¾in uvnitø clusterù
179 a pøebarvovací struktury na~hrany mezi clustery.
180
181 \h{Stromoví pøedchùdci}
182
183 \s{Problém:} {\I (Least Common Ancestor alias LCA)} Chceme si pøedzpracovat zakoøenìný strom~$T$
184 tak, abychom dokázali pro libovolné dva vrcholy $x,y$ najít co~nejrychleji jejich nejbli¾¹ího
185 spoleèného pøedchùdce.
186
187 \s{Triviální øe¹ení LCA:}
188 \itemize\ibull
189 \:Vystoupáme z~$x$ i $y$ do~koøene, oznaèíme vrcholy na~cestách a kde se poprvé
190   potkají, tam je hledaný pøedchùdce. To je lineární s~hloubkou a nepotøebuje
191   pøedzpracování.
192 \:Vylep¹ení: Budeme stoupat z~$x$ a $y$ støídavì. Tak potøebujeme jen lineárnì mnoho
193   krokù vzhledem ke~vzdálenosti spoleèného pøedchùdce.
194 \:Pøedpoèítáme v¹echny mo¾nosti: pøedzpracování $\O(n^2)$, dotaz $\O(1)$.
195 \:\dots\ co dál?
196 \endlist
197
198 Vìrni vtipùm o~matfyzácích pøevedeme radìji tento problém na~jiný:
199
200 \s{Problém:} {\I (Range Minimum Query alias RMQ)} Chceme pøedzpracovat posloupnost èísel
201 $a_1,\ldots a_n$ tak, abychom umìli rychle poèítat $\min_{x\le i\le y} a_i$.%
202 \foot{V¹imnìte si, ¾e pro sèítání místo minima je tento problém velmi snadný.}
203
204 \s{Triviální øe¹ení RMQ:}
205 \itemize\ibull
206 \:Pøedpoèítáme v¹echny mo¾né dotazy: pøedzpracování $\O(n^2)$, dotaz $\O(1)$.
207 \:Pro ka¾dé $i$ a $j\le \log n$ pøedpoèítáme $m_{ij} = \min\{ a_i, a_{i+1}, \ldots, a_{i+2^j-1}$,
208 èili minima v¹ech blokù velkých jako nìjaká mocnina dvojky. Kdy¾ se poté nìkdo zeptá
209 na~minimum bloku délky~$l$, najdeme nejbli¾¹í ni¾¹í mocninu dvojky a spoèteme minimum
210 z~minim blokù této velikost pøira¾ených k~zaèátku a ke~konci dotazovaného bloku.
211 Tak zvládneme dotaz v~èase $\O(1)$ za~cenu pøedzpracování v~èase $\O(n\log n)$.
212 \endlist
213
214 \s{Lemma:} LCA lze pøevést na~RMQ s~lineárním èasem na~pøedzpracování a konstantním
215 èasem na~pøevod dotazu.
216
217 \s{Dùkaz:} Strom projdeme do~hloubky a poka¾dé, kdy¾ nav¹tívíme vrchol (v~inorderu),
218 zapí¹eme jeho hloubku. ${\rm LCA}(x,y)$ pak bude nejhlub¹í vrchol mezi poslední
219 náv¹tìvou~$x$ a první náv¹tìvou~$y$, nebo opaènì.
220 \qed
221
222 My si ov¹em v¹imneme, ¾e tento pøevod vytváøí dosti speciální instance problému RMQ,
223 toti¾ takové, v~nich¾ je $\vert a_i - a_{i+1} \vert = 1$. Takovým instancím budeme
224 øíkat RMQ${\pm}1$ a budeme je umìt øe¹it ¹ikovnou dekompozicí.
225
226 \s{Dekompozice} pro RMQ${\pm}1$: Vstupní posloupnost rozdìlíme na~bloky velikosti $b=1/2\cdot \log n$,
227 ka¾dý dotaz umíme rozdìlit na~èást týkající se celých blokù a maximálnì dva dotazy na~èásteèné bloky.
228
229 V¹imneme si, ¾e aèkoliv blokù je mnoho, jejich mo¾ných typù (tj. posloupností klesání
230 a stoupání) je pouze $2^{b-1}\le\sqrt n$ a bloky tého¾ typu se li¹í pouze posunutím
231 o~konstantu. Vybudujeme proto kvadratickou strukturu pro jednotlivé typy a pro ka¾dý
232 blok si zapamatujeme, jakého je typu a jaké má posunutí. Celkem strávíme èas
233 $\O(n + \sqrt n \cdot \log^2 n) = \O(n)$ pøedzpracování a $\O(1)$ dotazem.
234
235 Mimo to je¹tì vytvoøíme komprimovanou posloupnost v~ní¾ ka¾dý blok nahradíme
236 jeho minimem. Tuto posloupnost délky $n/b$ budeme pou¾ívat pro èásti dotazù
237 týkající se celých blokù a pøipravíme si pro ni \uv{logaritmickou} variantu
238 triviální struktury. To nás bude stát $\O(n/b\cdot\log n)=\O(n)$ na~pøedzpracování
239 a $\O(1)$ na~dotaz.
240
241 To nám tedy dává algoritmus pro RMQ${\pm}1$ s~konstantním èasem na~dotaz po~lineárním
242 pøedzpracováním a vý¹e zmínìným pøevodem i algoritmus na~LCA se stejnými parametry.
243 Je¹tì uká¾eme, ¾e pøevod mù¾e fungovat i v~opaèném smìru, a~tak mù¾eme získat
244 i konstantní/lineární algoritmus pro obecné RMQ.
245
246 \s{Definice:} {\I Kartézský strom} pro posloupnost $a_1,\ldots,a_n$ je strom,
247 jeho¾ koøenem je $a_j=\min_i a_i$, jeho levý syn je kartézský strom pro
248 $a_1,\ldots,a_{j-1}$ a pravý syn kartézský strom pro $a_{j+1},\ldots,a_n$.
249
250 \s{Lemma:} Kartézský strom je mo¾né zkonstruovat v~lineárním èase.
251
252 \s{Dùkaz:} Pou¾ijeme inkrementální algoritmus, v¾dy si budeme pamatovat
253 kartézský strom pro ji¾ zpracované prvky a pozici posledního zpracovaného
254 prvku v~tomto stromu. Kdy¾ pøidáváme dal¹í prvek, hledáme místo, kam ho
255 pøipojit, od~tohoto oznaèeného prvku nahoru. Pov¹imneme si, ¾e vzhledem
256 k~potenciálu urèenému hloubkou oznaèeného prvku je èasová slo¾itost pøidání
257 prvku amortizovanì konstantní.
258 \qed
259
260 \s{Lemma:} RMQ lze pøevést na~LCA s~lineárním èasem na~pøedzpracování a konstantním
261 èasem na~pøevod dotazu.
262
263 \s{Dùkaz:} Sestrojíme kartézský strom a RMQ pøevedeme na~LCA v~tomto stromu.
264 \qed
265
266 Výsledky této podkapitoly mù¾eme shrnout do~následující vìty:
267
268 \s{Vìta:} Problémy LCA i RMQ je mo¾né øe¹it v~konstatním èase na~dotaz
269 po~pøedzpracování v~lineárním èase.
270
271 \bye