CompVis
diff --git a/‎assets/coco_scene_images_training.svg
Lines changed: 2574 additions & 0 deletions b/‎assets/coco_scene_images_training.svg
Lines changed: 2574 additions & 0 deletions
diff --git a/‎configs/coco_cond_stage.yaml
Lines changed: 2 additions & 2 deletions b/‎configs/coco_cond_stage.yaml
Lines changed: 2 additions & 2 deletions
diff --git a/‎configs/coco_scene_images_transformer.yaml
Lines changed: 81 additions & 0 deletions b/‎configs/coco_scene_images_transformer.yaml
Lines changed: 81 additions & 0 deletions
diff --git a/‎data/coco_annotations_100/annotations/instances_train2017.json
Lines changed: 1 addition & 0 deletions b/‎data/coco_annotations_100/annotations/instances_train2017.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎data/coco_annotations_100/annotations/instances_val2017.json
Lines changed: 1 addition & 0 deletions b/‎data/coco_annotations_100/annotations/instances_val2017.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎data/coco_annotations_100/annotations/stuff_train2017.json
Lines changed: 1 addition & 0 deletions b/‎data/coco_annotations_100/annotations/stuff_train2017.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎data/coco_annotations_100/annotations/stuff_val2017.json
Lines changed: 1 addition & 0 deletions b/‎data/coco_annotations_100/annotations/stuff_val2017.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎data/coco_annotations_100/train2017/000000010005.jpg
146 KB b/‎data/coco_annotations_100/train2017/000000010005.jpg
146 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010008.jpg
60.8 KB b/‎data/coco_annotations_100/train2017/000000010008.jpg
60.8 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010012.jpg
80.4 KB b/‎data/coco_annotations_100/train2017/000000010012.jpg
80.4 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010014.jpg
207 KB b/‎data/coco_annotations_100/train2017/000000010014.jpg
207 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010015.jpg
181 KB b/‎data/coco_annotations_100/train2017/000000010015.jpg
181 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010023.jpg
118 KB b/‎data/coco_annotations_100/train2017/000000010023.jpg
118 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010024.jpg
220 KB b/‎data/coco_annotations_100/train2017/000000010024.jpg
220 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010037.jpg
114 KB b/‎data/coco_annotations_100/train2017/000000010037.jpg
114 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010039.jpg
177 KB b/‎data/coco_annotations_100/train2017/000000010039.jpg
177 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010040.jpg
199 KB b/‎data/coco_annotations_100/train2017/000000010040.jpg
199 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010041.jpg
149 KB b/‎data/coco_annotations_100/train2017/000000010041.jpg
149 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010046.jpg
176 KB b/‎data/coco_annotations_100/train2017/000000010046.jpg
176 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010056.jpg
243 KB b/‎data/coco_annotations_100/train2017/000000010056.jpg
243 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010058.jpg
178 KB b/‎data/coco_annotations_100/train2017/000000010058.jpg
178 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010069.jpg
234 KB b/‎data/coco_annotations_100/train2017/000000010069.jpg
234 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010073.jpg
263 KB b/‎data/coco_annotations_100/train2017/000000010073.jpg
263 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010077.jpg
129 KB b/‎data/coco_annotations_100/train2017/000000010077.jpg
129 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010082.jpg
164 KB b/‎data/coco_annotations_100/train2017/000000010082.jpg
164 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010083.jpg
112 KB b/‎data/coco_annotations_100/train2017/000000010083.jpg
112 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010084.jpg
255 KB b/‎data/coco_annotations_100/train2017/000000010084.jpg
255 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010094.jpg
156 KB b/‎data/coco_annotations_100/train2017/000000010094.jpg
156 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010097.jpg
110 KB b/‎data/coco_annotations_100/train2017/000000010097.jpg
110 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010104.jpg
183 KB b/‎data/coco_annotations_100/train2017/000000010104.jpg
183 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010107.jpg
85.6 KB b/‎data/coco_annotations_100/train2017/000000010107.jpg
85.6 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010108.jpg
75.2 KB b/‎data/coco_annotations_100/train2017/000000010108.jpg
75.2 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010114.jpg
206 KB b/‎data/coco_annotations_100/train2017/000000010114.jpg
206 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010115.jpg
120 KB b/‎data/coco_annotations_100/train2017/000000010115.jpg
120 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010123.jpg
140 KB b/‎data/coco_annotations_100/train2017/000000010123.jpg
140 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010125.jpg
126 KB b/‎data/coco_annotations_100/train2017/000000010125.jpg
126 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010130.jpg
182 KB b/‎data/coco_annotations_100/train2017/000000010130.jpg
182 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010136.jpg
112 KB b/‎data/coco_annotations_100/train2017/000000010136.jpg
112 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010138.jpg
157 KB b/‎data/coco_annotations_100/train2017/000000010138.jpg
157 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010142.jpg
264 KB b/‎data/coco_annotations_100/train2017/000000010142.jpg
264 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010145.jpg
159 KB b/‎data/coco_annotations_100/train2017/000000010145.jpg
159 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010149.jpg
199 KB b/‎data/coco_annotations_100/train2017/000000010149.jpg
199 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010161.jpg
162 KB b/‎data/coco_annotations_100/train2017/000000010161.jpg
162 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010166.jpg
118 KB b/‎data/coco_annotations_100/train2017/000000010166.jpg
118 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010175.jpg
186 KB b/‎data/coco_annotations_100/train2017/000000010175.jpg
186 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010176.jpg
99.5 KB b/‎data/coco_annotations_100/train2017/000000010176.jpg
99.5 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010179.jpg
183 KB b/‎data/coco_annotations_100/train2017/000000010179.jpg
183 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010192.jpg
133 KB b/‎data/coco_annotations_100/train2017/000000010192.jpg
133 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010196.jpg
208 KB b/‎data/coco_annotations_100/train2017/000000010196.jpg
208 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010205.jpg
86 KB b/‎data/coco_annotations_100/train2017/000000010205.jpg
86 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010211.jpg
163 KB b/‎data/coco_annotations_100/train2017/000000010211.jpg
163 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010216.jpg
150 KB b/‎data/coco_annotations_100/train2017/000000010216.jpg
150 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010217.jpg
163 KB b/‎data/coco_annotations_100/train2017/000000010217.jpg
163 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010219.jpg
163 KB b/‎data/coco_annotations_100/train2017/000000010219.jpg
163 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010222.jpg
77.5 KB b/‎data/coco_annotations_100/train2017/000000010222.jpg
77.5 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010229.jpg
139 KB b/‎data/coco_annotations_100/train2017/000000010229.jpg
139 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010230.jpg
225 KB b/‎data/coco_annotations_100/train2017/000000010230.jpg
225 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010232.jpg
107 KB b/‎data/coco_annotations_100/train2017/000000010232.jpg
107 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010239.jpg
111 KB b/‎data/coco_annotations_100/train2017/000000010239.jpg
111 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010241.jpg
128 KB b/‎data/coco_annotations_100/train2017/000000010241.jpg
128 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010243.jpg
94.7 KB b/‎data/coco_annotations_100/train2017/000000010243.jpg
94.7 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010244.jpg
229 KB b/‎data/coco_annotations_100/train2017/000000010244.jpg
229 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010245.jpg
113 KB b/‎data/coco_annotations_100/train2017/000000010245.jpg
113 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010248.jpg
202 KB b/‎data/coco_annotations_100/train2017/000000010248.jpg
202 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010249.jpg
195 KB b/‎data/coco_annotations_100/train2017/000000010249.jpg
195 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010256.jpg
310 KB b/‎data/coco_annotations_100/train2017/000000010256.jpg
310 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010263.jpg
147 KB b/‎data/coco_annotations_100/train2017/000000010263.jpg
147 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010265.jpg
62 KB b/‎data/coco_annotations_100/train2017/000000010265.jpg
62 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010275.jpg
163 KB b/‎data/coco_annotations_100/train2017/000000010275.jpg
163 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010276.jpg
288 KB b/‎data/coco_annotations_100/train2017/000000010276.jpg
288 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010281.jpg
166 KB b/‎data/coco_annotations_100/train2017/000000010281.jpg
166 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010290.jpg
167 KB b/‎data/coco_annotations_100/train2017/000000010290.jpg
167 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010303.jpg
139 KB b/‎data/coco_annotations_100/train2017/000000010303.jpg
139 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010309.jpg
85.1 KB b/‎data/coco_annotations_100/train2017/000000010309.jpg
85.1 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010313.jpg
76.3 KB b/‎data/coco_annotations_100/train2017/000000010313.jpg
76.3 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010318.jpg
230 KB b/‎data/coco_annotations_100/train2017/000000010318.jpg
230 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010319.jpg
131 KB b/‎data/coco_annotations_100/train2017/000000010319.jpg
131 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010321.jpg
244 KB b/‎data/coco_annotations_100/train2017/000000010321.jpg
244 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010324.jpg
154 KB b/‎data/coco_annotations_100/train2017/000000010324.jpg
154 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010327.jpg
198 KB b/‎data/coco_annotations_100/train2017/000000010327.jpg
198 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010337.jpg
179 KB b/‎data/coco_annotations_100/train2017/000000010337.jpg
179 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010342.jpg
230 KB b/‎data/coco_annotations_100/train2017/000000010342.jpg
230 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010343.jpg
232 KB b/‎data/coco_annotations_100/train2017/000000010343.jpg
232 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010346.jpg
147 KB b/‎data/coco_annotations_100/train2017/000000010346.jpg
147 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010358.jpg
310 KB b/‎data/coco_annotations_100/train2017/000000010358.jpg
310 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010369.jpg
200 KB b/‎data/coco_annotations_100/train2017/000000010369.jpg
200 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010386.jpg
133 KB b/‎data/coco_annotations_100/train2017/000000010386.jpg
133 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010388.jpg
81.1 KB b/‎data/coco_annotations_100/train2017/000000010388.jpg
81.1 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010393.jpg
119 KB b/‎data/coco_annotations_100/train2017/000000010393.jpg
119 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010395.jpg
147 KB b/‎data/coco_annotations_100/train2017/000000010395.jpg
147 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010400.jpg
195 KB b/‎data/coco_annotations_100/train2017/000000010400.jpg
195 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010403.jpg
169 KB b/‎data/coco_annotations_100/train2017/000000010403.jpg
169 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010405.jpg
308 KB b/‎data/coco_annotations_100/train2017/000000010405.jpg
308 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010407.jpg
107 KB b/‎data/coco_annotations_100/train2017/000000010407.jpg
107 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010414.jpg
169 KB b/‎data/coco_annotations_100/train2017/000000010414.jpg
169 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010420.jpg
180 KB b/‎data/coco_annotations_100/train2017/000000010420.jpg
180 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010421.jpg
167 KB b/‎data/coco_annotations_100/train2017/000000010421.jpg
167 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010428.jpg
154 KB b/‎data/coco_annotations_100/train2017/000000010428.jpg
154 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010430.jpg
219 KB b/‎data/coco_annotations_100/train2017/000000010430.jpg
219 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010432.jpg
291 KB b/‎data/coco_annotations_100/train2017/000000010432.jpg
291 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010434.jpg
116 KB b/‎data/coco_annotations_100/train2017/000000010434.jpg
116 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010440.jpg
69.3 KB b/‎data/coco_annotations_100/train2017/000000010440.jpg
69.3 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010442.jpg
110 KB b/‎data/coco_annotations_100/train2017/000000010442.jpg
110 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010444.jpg
90.2 KB b/‎data/coco_annotations_100/train2017/000000010444.jpg
90.2 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010445.jpg
141 KB b/‎data/coco_annotations_100/train2017/000000010445.jpg
141 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010449.jpg
249 KB b/‎data/coco_annotations_100/train2017/000000010449.jpg
249 KB
diff --git a/‎data/coco_annotations_100/train2017/000000010463.jpg
174 KB b/‎data/coco_annotations_100/train2017/000000010463.jpg
174 KB
diff --git a/‎data/coco_annotations_100/val2017/000000010092.jpg
147 KB b/‎data/coco_annotations_100/val2017/000000010092.jpg
147 KB
diff --git a/‎data/coco_annotations_100/val2017/000000010363.jpg
93.9 KB b/‎data/coco_annotations_100/val2017/000000010363.jpg
93.9 KB
diff --git a/‎data/coco_annotations_100/val2017/000000010583.jpg
219 KB b/‎data/coco_annotations_100/val2017/000000010583.jpg
219 KB
diff --git a/‎data/coco_annotations_100/val2017/000000010707.jpg
118 KB b/‎data/coco_annotations_100/val2017/000000010707.jpg
118 KB
diff --git a/‎data/coco_annotations_100/val2017/000000010764.jpg
198 KB b/‎data/coco_annotations_100/val2017/000000010764.jpg
198 KB
diff --git a/‎data/coco_annotations_100/val2017/000000010977.jpg
53.6 KB b/‎data/coco_annotations_100/val2017/000000010977.jpg
53.6 KB
diff --git a/‎data/coco_annotations_100/val2017/000000010995.jpg
71.6 KB b/‎data/coco_annotations_100/val2017/000000010995.jpg
71.6 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011051.jpg
78.8 KB b/‎data/coco_annotations_100/val2017/000000011051.jpg
78.8 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011122.jpg
234 KB b/‎data/coco_annotations_100/val2017/000000011122.jpg
234 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011149.jpg
173 KB b/‎data/coco_annotations_100/val2017/000000011149.jpg
173 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011197.jpg
173 KB b/‎data/coco_annotations_100/val2017/000000011197.jpg
173 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011511.jpg
184 KB b/‎data/coco_annotations_100/val2017/000000011511.jpg
184 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011615.jpg
108 KB b/‎data/coco_annotations_100/val2017/000000011615.jpg
108 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011699.jpg
225 KB b/‎data/coco_annotations_100/val2017/000000011699.jpg
225 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011760.jpg
278 KB b/‎data/coco_annotations_100/val2017/000000011760.jpg
278 KB
diff --git a/‎data/coco_annotations_100/val2017/000000011813.jpg
73 KB b/‎data/coco_annotations_100/val2017/000000011813.jpg
73 KB
diff --git a/‎data/coco_annotations_100/val2017/000000012062.jpg
222 KB b/‎data/coco_annotations_100/val2017/000000012062.jpg
222 KB
diff --git a/‎data/coco_annotations_100/val2017/000000012120.jpg
135 KB b/‎data/coco_annotations_100/val2017/000000012120.jpg
135 KB
diff --git a/‎data/coco_annotations_100/val2017/000000012280.jpg
165 KB b/‎data/coco_annotations_100/val2017/000000012280.jpg
165 KB
diff --git a/‎data/coco_annotations_100/val2017/000000012576.jpg
239 KB b/‎data/coco_annotations_100/val2017/000000012576.jpg
239 KB
diff --git a/‎data/coco_annotations_100/val2017/000000012639.jpg
270 KB b/‎data/coco_annotations_100/val2017/000000012639.jpg
270 KB
diff --git a/‎data/coco_annotations_100/val2017/000000012667.jpg
79.8 KB b/‎data/coco_annotations_100/val2017/000000012667.jpg
79.8 KB
diff --git a/‎data/coco_annotations_100/val2017/000000012670.jpg
183 KB b/‎data/coco_annotations_100/val2017/000000012670.jpg
183 KB
diff --git a/‎data/coco_annotations_100/val2017/000000012748.jpg
188 KB b/‎data/coco_annotations_100/val2017/000000012748.jpg
188 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013004.jpg
126 KB b/‎data/coco_annotations_100/val2017/000000013004.jpg
126 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013177.jpg
200 KB b/‎data/coco_annotations_100/val2017/000000013177.jpg
200 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013201.jpg
148 KB b/‎data/coco_annotations_100/val2017/000000013201.jpg
148 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013291.jpg
122 KB b/‎data/coco_annotations_100/val2017/000000013291.jpg
122 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013348.jpg
161 KB b/‎data/coco_annotations_100/val2017/000000013348.jpg
161 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013546.jpg
127 KB b/‎data/coco_annotations_100/val2017/000000013546.jpg
127 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013597.jpg
84.9 KB b/‎data/coco_annotations_100/val2017/000000013597.jpg
84.9 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013659.jpg
210 KB b/‎data/coco_annotations_100/val2017/000000013659.jpg
210 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013729.jpg
113 KB b/‎data/coco_annotations_100/val2017/000000013729.jpg
113 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013774.jpg
169 KB b/‎data/coco_annotations_100/val2017/000000013774.jpg
169 KB
diff --git a/‎data/coco_annotations_100/val2017/000000013923.jpg
180 KB b/‎data/coco_annotations_100/val2017/000000013923.jpg
180 KB
diff --git a/‎data/coco_annotations_100/val2017/000000014007.jpg
113 KB b/‎data/coco_annotations_100/val2017/000000014007.jpg
113 KB
diff --git a/‎data/coco_annotations_100/val2017/000000014038.jpg
174 KB b/‎data/coco_annotations_100/val2017/000000014038.jpg
174 KB
diff --git a/‎data/coco_annotations_100/val2017/000000014226.jpg
103 KB b/‎data/coco_annotations_100/val2017/000000014226.jpg
103 KB
diff --git a/‎data/coco_annotations_100/val2017/000000014380.jpg
198 KB b/‎data/coco_annotations_100/val2017/000000014380.jpg
198 KB
diff --git a/‎data/coco_annotations_100/val2017/000000014439.jpg
191 KB b/‎data/coco_annotations_100/val2017/000000014439.jpg
191 KB
diff --git a/‎data/coco_annotations_100/val2017/000000014473.jpg
163 KB b/‎data/coco_annotations_100/val2017/000000014473.jpg
163 KB
diff --git a/‎data/coco_annotations_100/val2017/000000014831.jpg
205 KB b/‎data/coco_annotations_100/val2017/000000014831.jpg
205 KB
diff --git a/‎data/coco_annotations_100/val2017/000000014888.jpg
195 KB b/‎data/coco_annotations_100/val2017/000000014888.jpg
195 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015079.jpg
104 KB b/‎data/coco_annotations_100/val2017/000000015079.jpg
104 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015254.jpg
118 KB b/‎data/coco_annotations_100/val2017/000000015254.jpg
118 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015272.jpg
336 KB b/‎data/coco_annotations_100/val2017/000000015272.jpg
336 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015278.jpg
167 KB b/‎data/coco_annotations_100/val2017/000000015278.jpg
167 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015335.jpg
222 KB b/‎data/coco_annotations_100/val2017/000000015335.jpg
222 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015338.jpg
209 KB b/‎data/coco_annotations_100/val2017/000000015338.jpg
209 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015440.jpg
126 KB b/‎data/coco_annotations_100/val2017/000000015440.jpg
126 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015497.jpg
70.9 KB b/‎data/coco_annotations_100/val2017/000000015497.jpg
70.9 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015517.jpg
190 KB b/‎data/coco_annotations_100/val2017/000000015517.jpg
190 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015597.jpg
144 KB b/‎data/coco_annotations_100/val2017/000000015597.jpg
144 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015660.jpg
125 KB b/‎data/coco_annotations_100/val2017/000000015660.jpg
125 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015746.jpg
191 KB b/‎data/coco_annotations_100/val2017/000000015746.jpg
191 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015751.jpg
114 KB b/‎data/coco_annotations_100/val2017/000000015751.jpg
114 KB
diff --git a/‎data/coco_annotations_100/val2017/000000015956.jpg
187 KB b/‎data/coco_annotations_100/val2017/000000015956.jpg
187 KB
diff --git a/‎data/coco_annotations_100/val2017/000000016010.jpg
165 KB b/‎data/coco_annotations_100/val2017/000000016010.jpg
165 KB
diff --git a/‎data/coco_annotations_100/val2017/000000016228.jpg
183 KB b/‎data/coco_annotations_100/val2017/000000016228.jpg
183 KB
diff --git a/‎data/coco_annotations_100/val2017/000000016249.jpg
114 KB b/‎data/coco_annotations_100/val2017/000000016249.jpg
114 KB
diff --git a/‎data/coco_annotations_100/val2017/000000016439.jpg
99.6 KB b/‎data/coco_annotations_100/val2017/000000016439.jpg
99.6 KB
diff --git a/‎data/coco_annotations_100/val2017/000000016451.jpg
225 KB b/‎data/coco_annotations_100/val2017/000000016451.jpg
225 KB
diff --git a/‎data/coco_annotations_100/val2017/000000016502.jpg
87.7 KB b/‎data/coco_annotations_100/val2017/000000016502.jpg
87.7 KB
diff --git a/‎data/coco_annotations_100/val2017/000000016598.jpg
208 KB b/‎data/coco_annotations_100/val2017/000000016598.jpg
208 KB
diff --git a/‎data/coco_annotations_100/val2017/000000016958.jpg
152 KB b/‎data/coco_annotations_100/val2017/000000016958.jpg
152 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017029.jpg
342 KB b/‎data/coco_annotations_100/val2017/000000017029.jpg
342 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017031.jpg
110 KB b/‎data/coco_annotations_100/val2017/000000017031.jpg
110 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017115.jpg
343 KB b/‎data/coco_annotations_100/val2017/000000017115.jpg
343 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017178.jpg
163 KB b/‎data/coco_annotations_100/val2017/000000017178.jpg
163 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017182.jpg
103 KB b/‎data/coco_annotations_100/val2017/000000017182.jpg
103 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017207.jpg
132 KB b/‎data/coco_annotations_100/val2017/000000017207.jpg
132 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017379.jpg
176 KB b/‎data/coco_annotations_100/val2017/000000017379.jpg
176 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017436.jpg
127 KB b/‎data/coco_annotations_100/val2017/000000017436.jpg
127 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017627.jpg
183 KB b/‎data/coco_annotations_100/val2017/000000017627.jpg
183 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017714.jpg
165 KB b/‎data/coco_annotations_100/val2017/000000017714.jpg
165 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017899.jpg
278 KB b/‎data/coco_annotations_100/val2017/000000017899.jpg
278 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017905.jpg
181 KB b/‎data/coco_annotations_100/val2017/000000017905.jpg
181 KB
diff --git a/‎data/coco_annotations_100/val2017/000000017959.jpg
119 KB b/‎data/coco_annotations_100/val2017/000000017959.jpg
119 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018150.jpg
201 KB b/‎data/coco_annotations_100/val2017/000000018150.jpg
201 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018193.jpg
100 KB b/‎data/coco_annotations_100/val2017/000000018193.jpg
100 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018380.jpg
273 KB b/‎data/coco_annotations_100/val2017/000000018380.jpg
273 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018491.jpg
107 KB b/‎data/coco_annotations_100/val2017/000000018491.jpg
107 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018519.jpg
180 KB b/‎data/coco_annotations_100/val2017/000000018519.jpg
180 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018575.jpg
148 KB b/‎data/coco_annotations_100/val2017/000000018575.jpg
148 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018737.jpg
169 KB b/‎data/coco_annotations_100/val2017/000000018737.jpg
169 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018770.jpg
85.5 KB b/‎data/coco_annotations_100/val2017/000000018770.jpg
85.5 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018833.jpg
83.2 KB b/‎data/coco_annotations_100/val2017/000000018833.jpg
83.2 KB
diff --git a/‎data/coco_annotations_100/val2017/000000018837.jpg
219 KB b/‎data/coco_annotations_100/val2017/000000018837.jpg
219 KB
diff --git a/‎data/coco_annotations_100/val2017/000000019042.jpg
193 KB b/‎data/coco_annotations_100/val2017/000000019042.jpg
193 KB
diff --git a/‎data/coco_annotations_100/val2017/000000019109.jpg
260 KB b/‎data/coco_annotations_100/val2017/000000019109.jpg
260 KB
diff --git a/‎data/coco_annotations_100/val2017/000000019221.jpg
110 KB b/‎data/coco_annotations_100/val2017/000000019221.jpg
110 KB
diff --git a/‎data/coco_annotations_100/val2017/000000019402.jpg
170 KB b/‎data/coco_annotations_100/val2017/000000019402.jpg
170 KB
diff --git a/‎data/coco_annotations_100/val2017/000000019432.jpg
218 KB b/‎data/coco_annotations_100/val2017/000000019432.jpg
218 KB
diff --git a/‎data/coco_annotations_100/val2017/000000019742.jpg
89.2 KB b/‎data/coco_annotations_100/val2017/000000019742.jpg
89.2 KB
diff --git a/‎data/coco_annotations_100/val2017/000000019786.jpg
77.4 KB b/‎data/coco_annotations_100/val2017/000000019786.jpg
77.4 KB
diff --git a/‎data/coco_annotations_100/val2017/000000019924.jpg
100 KB b/‎data/coco_annotations_100/val2017/000000019924.jpg
100 KB
diff --git a/‎data/coco_annotations_100/val2017/000000020059.jpg
205 KB b/‎data/coco_annotations_100/val2017/000000020059.jpg
205 KB
diff --git a/‎data/coco_annotations_100/val2017/000000020107.jpg
104 KB b/‎data/coco_annotations_100/val2017/000000020107.jpg
104 KB
diff --git a/‎data/coco_annotations_100/val2017/000000020247.jpg
155 KB b/‎data/coco_annotations_100/val2017/000000020247.jpg
155 KB
diff --git a/‎data/coco_annotations_100/val2017/000000020333.jpg
146 KB b/‎data/coco_annotations_100/val2017/000000020333.jpg
146 KB
diff --git a/‎environment.yaml
Lines changed: 1 addition & 0 deletions b/‎environment.yaml
Lines changed: 1 addition & 0 deletions
diff --git a/‎main.py
Lines changed: 7 additions & 4 deletions b/‎main.py
Lines changed: 7 additions & 4 deletions
diff --git a/‎scripts/make_scene_samples.py
Lines changed: 198 additions & 0 deletions b/‎scripts/make_scene_samples.py
Lines changed: 198 additions & 0 deletions
@@ -30,7 +30,7 @@ model:
         codebook_weight: 1.0
 
 data:
-  target: cutlit.DataModuleFromConfig
+  target: main.DataModuleFromConfig
   params:
     batch_size: 12
     train:
@@ -41,7 +41,7 @@ data:
         onehot_segmentation: true
         use_stuffthing: true
     validation:
-      target: taming.data.coco.CocoImagesAndCaptionsTrain
+      target: taming.data.coco.CocoImagesAndCaptionsValidation
       params:
         size: 256
         crop_size: 256
 
@@ -0,0 +1,81 @@
+model:
+  base_learning_rate: 4.5e-06
+  target: taming.models.cond_transformer.Net2NetTransformer
+  params:
+    cond_stage_key: objects_bbox
+    transformer_config:
+      target: taming.modules.transformer.mingpt.GPT
+      params:
+        vocab_size: 8192
+        block_size: 348  # = 256 + 92 = dim(vqgan_latent_space,16x16) + dim(conditional_builder.embedding_dim)
+        n_layer: 40
+        n_head: 16
+        n_embd: 1408
+        embd_pdrop: 0.1
+        resid_pdrop: 0.1
+        attn_pdrop: 0.1
+    first_stage_config:
+      target: taming.models.vqgan.VQModel
+      params:
+        ckpt_path: /path/to/coco_epoch117.ckpt  # https://heibox.uni-heidelberg.de/f/78dea9589974474c97c1/
+        embed_dim: 256
+        n_embed: 8192
+        ddconfig:
+          double_z: false
+          z_channels: 256
+          resolution: 256
+          in_channels: 3
+          out_ch: 3
+          ch: 128
+          ch_mult:
+          - 1
+          - 1
+          - 2
+          - 2
+          - 4
+          num_res_blocks: 2
+          attn_resolutions:
+          - 16
+          dropout: 0.0
+        lossconfig:
+          target: taming.modules.losses.DummyLoss
+    cond_stage_config:
+      target: taming.models.dummy_cond_stage.DummyCondStage
+      params:
+        conditional_key: objects_bbox
+
+data:
+  target: main.DataModuleFromConfig
+  params:
+    batch_size: 6
+    num_workers: 12
+    train:
+      target: taming.data.annotated_objects_coco.AnnotatedObjectsCoco
+      params:
+        data_path: data/coco_annotations_100
+        split: train
+        keys: [image, objects_bbox, file_name]
+        no_tokens: 8192
+        target_image_size: 256
+        min_object_area: 0.00001
+        min_objects_per_image: 2
+        max_objects_per_image: 30
+        crop_method: random-1d
+        random_flip: true
+        use_group_parameter: true
+        encode_crop: true
+    validation:
+      target: taming.data.annotated_objects_coco.AnnotatedObjectsCoco
+      params:
+        data_path: data/coco_annotations_100
+        split: validation
+        keys: [image, objects_bbox, file_name]
+        no_tokens: 8192
+        target_image_size: 256
+        min_object_area: 0.00001
+        min_objects_per_image: 2
+        max_objects_per_image: 30
+        crop_method: center
+        random_flip: false
+        use_group_parameter: true
+        encode_crop: true
@@ -20,5 +20,6 @@ dependencies:
     - test-tube>=0.7.5
     - streamlit>=0.73.1
     - einops==0.3.0
+    - more-itertools>=8.0.0
     - transformers==4.3.1
     - -e .
@@ -11,6 +11,9 @@
 from pytorch_lightning.callbacks import ModelCheckpoint, Callback, LearningRateMonitor
 from pytorch_lightning.utilities.distributed import rank_zero_only
 
+from taming.data.utils import custom_collate
+
+
 def get_obj_from_str(string, reload=False):
     module, cls = string.rsplit(".", 1)
     if reload:
@@ -160,16 +163,16 @@ def setup(self, stage=None):
 
     def _train_dataloader(self):
         return DataLoader(self.datasets["train"], batch_size=self.batch_size,
-                          num_workers=self.num_workers, shuffle=True)
+                          num_workers=self.num_workers, shuffle=True, collate_fn=custom_collate)
 
     def _val_dataloader(self):
         return DataLoader(self.datasets["validation"],
                           batch_size=self.batch_size,
-                          num_workers=self.num_workers)
+                          num_workers=self.num_workers, collate_fn=custom_collate)
 
     def _test_dataloader(self):
         return DataLoader(self.datasets["test"], batch_size=self.batch_size,
-                          num_workers=self.num_workers)
+                          num_workers=self.num_workers, collate_fn=custom_collate)
 
 
 class SetupCallback(Callback):
@@ -278,7 +281,7 @@ def log_img(self, pl_module, batch, batch_idx, split="train"):
                 pl_module.eval()
 
             with torch.no_grad():
-                images = pl_module.log_images(batch, split=split)
+                images = pl_module.log_images(batch, split=split, pl_module=pl_module)
 
             for k in images:
                 N = min(images[k].shape[0], self.max_images)
 
@@ -0,0 +1,198 @@
+import glob
+import os
+import sys
+from itertools import product
+from pathlib import Path
+from typing import Literal, List, Optional, Tuple
+
+import numpy as np
+import torch
+from omegaconf import OmegaConf
+from pytorch_lightning import seed_everything
+from torch import Tensor
+from torchvision.utils import save_image
+from tqdm import tqdm
+
+from scripts.make_samples import get_parser, load_model_and_dset
+from taming.data.conditional_builder.object_center_points_builder import CoordinatesCenterPointsConditionalBuilder
+from taming.data.helper_types import BoundingBox, Annotation
+from taming.data.annotated_objects_dataset import AnnotatedObjectsDataset
+from taming.models.cond_transformer import Net2NetTransformer
+
+seed_everything(42424242)
+device: Literal['cuda', 'cpu'] = 'cuda'
+first_stage_factor = 16
+trained_on_res = 256
+
+
+def _helper(coord: int, coord_max: int, coord_window: int) -> (int, int):
+    assert 0 <= coord < coord_max
+    coord_desired_center = (coord_window - 1) // 2
+    return np.clip(coord - coord_desired_center, 0, coord_max - coord_window)
+
+
+def get_crop_coordinates(x: int, y: int) -> BoundingBox:
+    WIDTH, HEIGHT = desired_z_shape[1], desired_z_shape[0]
+    x0 = _helper(x, WIDTH, first_stage_factor) / WIDTH
+    y0 = _helper(y, HEIGHT, first_stage_factor) / HEIGHT
+    w = first_stage_factor / WIDTH
+    h = first_stage_factor / HEIGHT
+    return x0, y0, w, h
+
+
+def get_z_indices_crop_out(z_indices: Tensor, predict_x: int, predict_y: int) -> Tensor:
+    WIDTH, HEIGHT = desired_z_shape[1], desired_z_shape[0]
+    x0 = _helper(predict_x, WIDTH, first_stage_factor)
+    y0 = _helper(predict_y, HEIGHT, first_stage_factor)
+    no_images = z_indices.shape[0]
+    cut_out_1 = z_indices[:, y0:predict_y, x0:x0+first_stage_factor].reshape((no_images, -1))
+    cut_out_2 = z_indices[:, predict_y, x0:predict_x]
+    return torch.cat((cut_out_1, cut_out_2), dim=1)
+
+
+@torch.no_grad()
+def sample(model: Net2NetTransformer, annotations: List[Annotation], dataset: AnnotatedObjectsDataset,
+           conditional_builder: CoordinatesCenterPointsConditionalBuilder, no_samples: int,
+           temperature: float, top_k: int) -> Tensor:
+    x_max, y_max = desired_z_shape[1], desired_z_shape[0]
+
+    annotations = [a._replace(category_no=dataset.get_category_number(a.category_id)) for a in annotations]
+
+    recompute_conditional = any((desired_resolution[0] > trained_on_res, desired_resolution[1] > trained_on_res))
+    if not recompute_conditional:
+        crop_coordinates = get_crop_coordinates(0, 0)
+        conditional_indices = conditional_builder.build(annotations, crop_coordinates)
+        c_indices = conditional_indices.to(device).repeat(no_samples, 1)
+        z_indices = torch.zeros((no_samples, 0), device=device).long()
+        output_indices = model.sample(z_indices, c_indices, steps=x_max*y_max, temperature=temperature,
+                                      sample=True, top_k=top_k)
+    else:
+        output_indices = torch.zeros((no_samples, y_max, x_max), device=device).long()
+        for predict_y, predict_x in tqdm(product(range(y_max), range(x_max)), desc='sampling_image', total=x_max*y_max):
+            crop_coordinates = get_crop_coordinates(predict_x, predict_y)
+            z_indices = get_z_indices_crop_out(output_indices, predict_x, predict_y)
+            conditional_indices = conditional_builder.build(annotations, crop_coordinates)
+            c_indices = conditional_indices.to(device).repeat(no_samples, 1)
+            new_index = model.sample(z_indices, c_indices, steps=1, temperature=temperature, sample=True, top_k=top_k)
+            output_indices[:, predict_y, predict_x] = new_index[:, -1]
+    z_shape = (
+        no_samples,
+        model.first_stage_model.quantize.e_dim,  # codebook embed_dim
+        desired_z_shape[0],  # z_height
+        desired_z_shape[1]  # z_width
+    )
+    x_sample = model.decode_to_img(output_indices, z_shape) * 0.5 + 0.5
+    x_sample = x_sample.to('cpu')
+
+    plotter = conditional_builder.plot
+    figure_size = (x_sample.shape[2], x_sample.shape[3])
+    scene_graph = conditional_builder.build(annotations, (0., 0., 1., 1.))
+    plot = plotter(scene_graph, dataset.get_textual_label_for_category_no, figure_size)
+    return torch.cat((x_sample, plot.unsqueeze(0)))
+
+
+def get_resolution(resolution_str: str) -> (Tuple[int, int], Tuple[int, int]):
+    if not resolution_str.count(',') == 1:
+        raise ValueError("Give resolution as in 'height,width'")
+    res_h, res_w = resolution_str.split(',')
+    res_h = max(int(res_h), trained_on_res)
+    res_w = max(int(res_w), trained_on_res)
+    z_h = int(round(res_h/first_stage_factor))
+    z_w = int(round(res_w/first_stage_factor))
+    return (z_h, z_w), (z_h*first_stage_factor, z_w*first_stage_factor)
+
+
+def add_arg_to_parser(parser):
+    parser.add_argument(
+        "-R",
+        "--resolution",
+        type=str,
+        default='256,256',
+        help=f"give resolution in multiples of {first_stage_factor}, default is '256,256'",
+    )
+    parser.add_argument(
+        "-C",
+        "--conditional",
+        type=str,
+        default='objects_bbox',
+        help=f"objects_bbox or objects_center_points",
+    )
+    parser.add_argument(
+        "-N",
+        "--n_samples_per_layout",
+        type=int,
+        default=4,
+        help=f"how many samples to generate per layout",
+    )
+    return parser
+
+
+if __name__ == "__main__":
+    sys.path.append(os.getcwd())
+
+    parser = get_parser()
+    parser = add_arg_to_parser(parser)
+
+    opt, unknown = parser.parse_known_args()
+
+    ckpt = None
+    if opt.resume:
+        if not os.path.exists(opt.resume):
+            raise ValueError("Cannot find {}".format(opt.resume))
+        if os.path.isfile(opt.resume):
+            paths = opt.resume.split("/")
+            try:
+                idx = len(paths)-paths[::-1].index("logs")+1
+            except ValueError:
+                idx = -2  # take a guess: path/to/logdir/checkpoints/model.ckpt
+            logdir = "/".join(paths[:idx])
+            ckpt = opt.resume
+        else:
+            assert os.path.isdir(opt.resume), opt.resume
+            logdir = opt.resume.rstrip("/")
+            ckpt = os.path.join(logdir, "checkpoints", "last.ckpt")
+        print(f"logdir:{logdir}")
+        base_configs = sorted(glob.glob(os.path.join(logdir, "configs/*-project.yaml")))
+        opt.base = base_configs+opt.base
+
+    if opt.config:
+        if type(opt.config) == str:
+            opt.base = [opt.config]
+        else:
+            opt.base = [opt.base[-1]]
+
+    configs = [OmegaConf.load(cfg) for cfg in opt.base]
+    cli = OmegaConf.from_dotlist(unknown)
+    if opt.ignore_base_data:
+        for config in configs:
+            if hasattr(config, "data"):
+                del config["data"]
+    config = OmegaConf.merge(*configs, cli)
+    desired_z_shape, desired_resolution = get_resolution(opt.resolution)
+    conditional = opt.conditional
+
+    print(ckpt)
+    gpu = True
+    eval_mode = True
+    show_config = False
+    if show_config:
+        print(OmegaConf.to_container(config))
+
+    dsets, model, global_step = load_model_and_dset(config, ckpt, gpu, eval_mode)
+    print(f"Global step: {global_step}")
+
+    data_loader = dsets.val_dataloader()
+    print(dsets.datasets["validation"].conditional_builders)
+    conditional_builder = dsets.datasets["validation"].conditional_builders[conditional]
+
+    outdir = Path(opt.outdir).joinpath(f"{global_step:06}_{opt.top_k}_{opt.temperature}")
+    outdir.mkdir(exist_ok=True, parents=True)
+    print("Writing samples to ", outdir)
+
+    p_bar_1 = tqdm(enumerate(iter(data_loader)), desc='batch', total=len(data_loader))
+    for batch_no, batch in p_bar_1:
+        save_img: Optional[Tensor] = None
+        for i, annotations in tqdm(enumerate(batch['annotations']), desc='within_batch', total=data_loader.batch_size):
+            imgs = sample(model, annotations, dsets.datasets["validation"], conditional_builder,
+                          opt.n_samples_per_layout, opt.temperature, opt.top_k)
+            save_image(imgs, outdir.joinpath(f'{batch_no:04}_{i:02}.png'), n_row=opt.n_samples_per_layout+1)