WIP

messa · messa · commit 65012ceb5712 · 2020-03-18T14:27:45.000+01:00
diff --git a/lessons/pydata/databases/index.ipynb b/lessons/pydata/databases/index.ipynb
@@ -394,6 +394,15 @@
     "Na prozkoumání struktury a obsahu databáze můžete použít nějaký specializovaný program - [DB Browser](https://sqlitebrowser.org/), [DBeaver](https://dbeaver.io/), [MySQL Workbench](https://www.mysql.com/products/workbench/), ... je jich hodně, typicky se specializují na konkrétní druh databáze, některé programy jsou zdarma a některé placené. Existují i webové aplikace, nejznámější asi český [Adminer](https://www.adminer.org/). Zde jsem vám chtěl ukázat, že toho samého se dá dosáhnout i takto z Pythonu."
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "Poznámka: struktura této databáze je trochu jiná, než byl motivační příklad na začátku. Nem"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -1912,9 +1921,84 @@
     "    ''', engine)"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "To GROUP BY je potřeba, protože bez toho se bude *celá* tabulka považovat za jedinou *skupinu* a použití agregačních funkcí způsobí to, že se vám vrátí jen jeden řádek výsledků:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 59,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>COUNT(*)</th>\n",
+       "      <th>MIN(birth_date)</th>\n",
+       "      <th>MAX(birth_date)</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>7527</td>\n",
+       "      <td>1857-11-11</td>\n",
+       "      <td>2008-06-02</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "   COUNT(*) MIN(birth_date) MAX(birth_date)\n",
+       "0      7527      1857-11-11      2008-06-02"
+      ]
+     },
+     "execution_count": 59,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "pd.read_sql_query('''\n",
+    "    SELECT COUNT(*), MIN(birth_date), MAX(birth_date)\n",
+    "    FROM actors \n",
+    "    ''', engine)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Jaký je rozdíl mezi `COUNT(*)`, `COUNT(id)` a `COUNT(něco)`?\n",
+    "\n",
+    "`COUNT(*)` vrací počet řádků. `COUNT(sloupec)` vrací počet řádků, ve kterých je v daném sloupci nějaká hodnota (tj. není tam NULL). Pokud tím sloupcem je `id`, který je téměř vždy NON-NULL, tak je `COUNT(id)` a `COUNT(*)` vlastně to samé :)\n"
+   ]
+  },
   {
    "cell_type": "code",
-   "execution_count": 32,
+   "execution_count": 60,
    "metadata": {},
    "outputs": [
     {
@@ -1959,7 +2043,7 @@
        "0      7527       7527               5753"
       ]
      },
-     "execution_count": 32,
+     "execution_count": 60,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -1971,6 +2055,13 @@
     "    ''', engine)"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Jak je vidět, u některých herců není vyplněno `birth_date`."
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -1979,13 +2070,13 @@
     "\n",
     "Ještě rekapitulace, jak se probíhá provádění SQL dotazu :)\n",
     "\n",
-    "1. databáze vezme tabulky vyjmenované ve FROM a JOIN\n",
-    "2. databáze čte řádky (jeden po druhém) z těch tabulek (už spojené podle příslušných JOIN výrazů)\n",
+    "1. databáze vezme tabulky vyjmenované ve FROM\n",
+    "2. databáze čte řádky (jeden po druhém)\n",
     "3. ty řádky se filtrují podle uvedených WHERE výrazů\n",
     "4. přefiltrované řádky se seskupí podle GROUP BY výrazů do skupin\n",
     "5. ty skupiny se filtrují pode uvedených HAVING výrazů\n",
-    "6. to,\n",
-    "\n",
+    "6. výsledek se seřadí podle ORDER BY\n",
+    "7. výsledek se ořízne podle LIMIT\n",
     "\n",
     "Probrali jsme jen to nejdůležitější. Pro představu, jaké jsou možnosti zápisu SELECT dotazu\n",
     "(převzato z [dokumentace SQLite](https://www.sqlite.org/lang_select.html)):\n",
@@ -2014,14 +2105,14 @@
    "source": [
     "## JOIN\n",
     "\n",
-    "TODO: tady bude ukázka JOIN v SQL vs. merge v DataFrame\n",
+    "JOIN je v SQL to samé, co je merge v DataFrame (viz některá předchozí hodina).\n",
     "\n",
     "<div><img src=\"https://naucse.python.cz/2020/pydata-praha-jaro/pydata/pandas_correlations/static/joins.svg\" width=400></div>"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 33,
+   "execution_count": 61,
    "metadata": {},
    "outputs": [
     {
@@ -2188,15 +2279,15 @@
        "[9811 rows x 6 columns]"
       ]
      },
-     "execution_count": 33,
+     "execution_count": 61,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
     "pd.read_sql_query('''\n",
     "    SELECT movie_id, title, actor_id, name, a.id, m.id AS idecko_filmu\n",
-    "    FROM actors         AS a\n",
+    "    FROM actors              AS a\n",
     "    LEFT JOIN movie_to_actor AS ma ON a.id = ma.actor_id\n",
     "    LEFT JOIN movies         AS m  ON m.id = ma.movie_id\n",
     "''', engine)"
@@ -2206,7 +2297,24 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## CREATE TABLE"
+    "## CREATE TABLE\n",
+    "\n",
+    "Pokud budeme chtít vytvořit novou tabulku, používá se k tomu příkaz CREATE TABLE.\n",
+    "Musíme vyjmenovat názvy a typy sloupců, které v tabulce chceme mít."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "pd.read_sql_query('''\n",
+    "    CREATE TABLE pokus (\n",
+    "      id INT PRIMARY KEY,\n",
+    "      \n",
+    "    ) \n",
+    "''', engine)"
    ]
   },
   {