Překlepy, nadpisy, úpravy výstupů

ZelenyMartin · ZelenyMartin · commit 3b654148e946 · 2024-01-16T21:48:29.000+01:00
diff --git a/python-pro-data-1/nacteni-dat/excs/titanic/exercise.md b/python-pro-data-1/nacteni-dat/excs/titanic/exercise.md
@@ -8,5 +8,4 @@ Každý tutoriál datové analýzy začíná zpracováváním data setu pasažé
 1. Načti data do `DataFrame`, který si pojmenuj `titanic`.
 1. Nech si zobrazit názvy sloupců, které jsou v souboru uloženy.
 1. Podívej se, kolik má soubor řádků.
-1. Zjisti, jaký byl průměrný věk pasažérů.
-1. Kolik bylo nejstaršímu pasažérovi?
+1. Zjisti, v jakých sloupcích nějaké hodnoty chybí
diff --git a/python-pro-data-1/nacteni-dat/formaty-souboru.md b/python-pro-data-1/nacteni-dat/formaty-souboru.md
@@ -1,6 +1,6 @@
 ## Odkud data bereme
 
-Data se nejčastěji nachází v databázích nebo v souborech. V rámci tohoto kurzu budeme pracovat se soubory, proto si o nich řekneme něco víc. Budeme zabývat textovými daty, protože ty jsou pro zpracování nejjednodušší.
+Data se nejčastěji nachází v databázích nebo v souborech. V rámci tohoto kurzu budeme pracovat se soubory, proto si o nich řekneme něco víc. Budeme se zabývat textovými daty, protože ty jsou pro zpracování nejjednodušší.
 
 V rámci kurzu budeme používat data o potravinách, která [zveřejňuje americké ministerstvo zemědělství](https://fdc.nal.usda.gov/download-datasets.html).
 
@@ -26,6 +26,9 @@ Význam sloupců je následující:
 
 S tabulkami pracujeme v software Microsoft Excel (soubory mají příponu `.xlsx`), případně v alternativách jako Google Spreadsheet, Libre Office Calc atd. Python umí pracovat přímo se soubory XLSX, slouží k tomu modul `openpyxl` (můžete ho stáhnout [zde](https://openpyxl.readthedocs.io/en/stable/)), případně s nimi lze pracovat i v `pandas`. Práce s nimi je ale poměrně komplexní, proto budeme používat soubory CSV.
 
+
+### CSV
+
 Soubor CSV obsahuje data v textové podobě ve struktuře podobné tabulce. Jednotlivé buňky jsou odděleny **středníky** nebo **čárkami**. V rámci České republiky se častěji setkáváme se středníkem, protože čárky používáme pro zápis desetinných míst. Celosvětově je oblíbenější spíše čárka.
 
 ```
@@ -38,6 +41,8 @@ fdc_id,data_type,description,food_category_id,publication_date
 ```
 
 
+### JSON
+
 Formát JSON ti bude povědomý, pokud už jsi v Pythonu pracoval(a) se slovníky (`dict`). Na první pohled vypadají téměř stejně. Python ti navíc jednoduše umožní data ve formátu JSON převést na slovníky a seznamy. K tomu slouží modul příhodně pojmenovaný `json`. S tímto formátem si ale hravě poradí i `pandas`.
 
 ```json
@@ -80,7 +85,10 @@ Formát JSON ti bude povědomý, pokud už jsi v Pythonu pracoval(a) se slovník
 ]
 ```
 
-Dalším používaným formátem je XML. XML je velmi podobné HTML, tedy jazyku, kterým určujeme, jak má vypadat webová stránka.
+
+### XML
+
+Dalším používaným formátem je XML. XML je velmi podobné HTML, tedy jazyku, kterým určujeme obsah webové stránky.
 
 ```xml
 <?xml version='1.0' encoding='utf-8'?>
@@ -118,7 +126,7 @@ Protože data zapisujeme jako hodnoty a atributy, můžeme jednu tabulku zapsat
 
 U obou formátů musíme dodržovat základní pravidla, jinak bude soubor pro počítač nečitelný.
 
-### Čtení na doma - formát YAML
+### YAML
 
 Nejnovějším z formátů je YAML (YAML Ain't Markup Language), který vznikl v roce 2011. Byl vyvinut s ohledem pro snadnou čtenost člověkem.
 
diff --git a/python-pro-data-1/nacteni-dat/nacteni-dat.md b/python-pro-data-1/nacteni-dat/nacteni-dat.md
@@ -41,21 +41,20 @@ Jakmile máme tabulku načtenou, budeme o ní chtít vědět nějaké úplně z
 food.info()
 ```
 
-Výsledek je vidět níže. Takto vypadá výsledek v případě, že nenastavíme sloupec `fdc_id` jako index. Pokud bychom to udělali, v seznamu sloupců `fdc_id` neuvidíme.
+Výsledek je vidět níže.
 
-```shell
+```
 <class 'pandas.core.frame.DataFrame'>
-Index: 100 entries, 0 to 7858
-Data columns (total 5 columns):
- #   Column            Non-Null Count  Dtype  
----  ------            --------------  -----  
- 0   fdc_id            100 non-null    int64  
- 1   data_type         100 non-null    object 
- 2   description       100 non-null    object 
- 3   food_category_id  99 non-null     float64
- 4   publication_date  100 non-null    object 
-dtypes: float64(1), int64(1), object(3)
-memory usage: 4.7+ KB
+Index: 100 entries, 2644829 to 328565
+Data columns (total 4 columns):
+ #   Column            Non-Null Count  Dtype
+---  ------            --------------  -----
+ 0   data_type         100 non-null    object
+ 1   description       100 non-null    object
+ 2   food_category_id  99 non-null     float64
+ 3   publication_date  100 non-null    object
+dtypes: float64(1), object(3)
+memory usage: 3.9+ KB
 ```
 
 **Poznámka:** Pokud znáš základy objektově orientovaného programování, pak věz, že `info` je ve skutečnosti metoda třídy `DataFrame`.
@@ -68,8 +67,8 @@ print(food.shape)
 
 Výsledek je opět níže.
 
-```shell
-(100, 5)
+```
+(100, 4)
 ```
 
 `pandas` nám vrací výsledky v sekvenci, která se jmenuje `tuple`. Nám stačí vědět, že si z ní data můžeme načíst stejně jako ze seznamu. Na prvním místě je vždy počet řádků a na druhém počet sloupců. Pokud by nás třeba zajímal jen počet řádků, napíšeme:
@@ -90,10 +89,10 @@ Názvy všech sloupců pak z vlastnosti `columns`:
 print(food.columns)
 ```
 
-Níže je výstup příkazu. Opět platí, že kdybychom nastavili sloupec `fdc_id` jako index, tak tímto příkazem vypsán nebude.
+Níže je výstup příkazu.
 
-```shell
-Index(['fdc_id', 'data_type', 'description', 'food_category_id', 'publication_date'], dtype='object')
+```
+Index(['data_type', 'description', 'food_category_id', 'publication_date'], dtype='object')
 ```
 
 ### Začátek a konec
@@ -104,13 +103,14 @@ Na prvních a posledních několik řádků se chceme podívat často, hlavně v
 print(food.head())
 ```
 
-```shell
-    fdc_id        data_type    description  food_category_id publication_date
-0  2644829  sub_sample_food   lentils, dry              16.0       2023-10-19
-1  2347263  sub_sample_food    heavy cream               1.0       2022-10-28
-2  2261954  sub_sample_food  Flour, potato              11.0       2022-04-28
-3   321470  sub_sample_food  Salt, Iodized               2.0       2019-04-01
-4   322951  sub_sample_food  Hot dogs beef               7.0       2019-04-01
+```
+               data_type    description  food_category_id publication_date
+fdc_id
+2644829  sub_sample_food   lentils, dry              16.0       2023-10-19
+2347263  sub_sample_food    heavy cream               1.0       2022-10-28
+2261954  sub_sample_food  Flour, potato              11.0       2022-04-28
+321470   sub_sample_food  Salt, Iodized               2.0       2019-04-01
+322951   sub_sample_food  Hot dogs beef               7.0       2019-04-01
 ```
 
 Metoda `head` má parametr `n`, což je počet řádků, které mají být vypsány. Tento parametr je ale *nepovinný*. Nepovinné parametry mají vždy nějakou výchozí hodnotu, v případě parametru `n` metody `head` je tato výchozí hodnota 5. Můžem ale zvolit libovolnou vlastní, například 20.
diff --git a/python-pro-data-1/nacteni-dat/vyber-sloupcu.md b/python-pro-data-1/nacteni-dat/vyber-sloupcu.md
@@ -8,18 +8,19 @@ K tomu použijeme výběr sloupců pomocí hranatých závorek. Zápis připomí
 food['description']
 ```
 
-```shell
-0                                             lentils, dry
-1                                              heavy cream
-2                                            Flour, potato
-3                                            Salt, Iodized
-4                                            Hot dogs beef
-                               ...                        
-38914                            Yogurt, whole milk, plain
-58027                  chicken, breast, boneless, skinless
-58591                                 pork, loin, boneless
-46593             Oats, whole grain, rolled, old fashioned
-7858     Cheese, cheddar, mild, block/chunk, store bran...
+```
+fdc_id
+2644829                                         lentils, dry
+2347263                                          heavy cream
+2261954                                        Flour, potato
+321470                                         Salt, Iodized
+322951                                         Hot dogs beef
+                                 ...
+2260615                            Yogurt, whole milk, plain
+2646468                  chicken, breast, boneless, skinless
+2647032                                 pork, loin, boneless
+2349564             Oats, whole grain, rolled, old fashioned
+328565     Cheese, cheddar, mild, block/chunk, store bran...
 Name: description, Length: 100, dtype: object
 ```
 
@@ -28,22 +29,23 @@ Zde je důležité říct, že pokud vybíráme pouze jeden sloupec, vrátí se
 Pro výběr více sloupců musíme do indexace DataFrame vložit seznam s názvy sloupců.
 
 ```py
-food[["fdc_id", "description"]]
+food[['description', 'publication_date']]
 ```
 
-```shell
-        fdc_id                                        description
-0      2644829                                       lentils, dry
-1      2347263                                        heavy cream
-2      2261954                                      Flour, potato
-3       321470                                      Salt, Iodized
-4       322951                                      Hot dogs beef
-...        ...                                                ...
-38914  2260615                          Yogurt, whole milk, plain
-58027  2646468                chicken, breast, boneless, skinless
-58591  2647032                               pork, loin, boneless
-46593  2349564           Oats, whole grain, rolled, old fashioned
-7858    328565  Cheese, cheddar, mild, block/chunk, store bran...
+```
+                                               description publication_date
+fdc_id
+2644829                                       lentils, dry       2023-10-19
+2347263                                        heavy cream       2022-10-28
+2261954                                      Flour, potato       2022-04-28
+321470                                       Salt, Iodized       2019-04-01
+322951                                       Hot dogs beef       2019-04-01
+...                                                    ...              ...
+2260615                          Yogurt, whole milk, plain       2022-04-28
+2646468                chicken, breast, boneless, skinless       2023-10-19
+2647032                               pork, loin, boneless       2023-10-19
+2349564           Oats, whole grain, rolled, old fashioned       2022-10-28
+328565   Cheese, cheddar, mild, block/chunk, store bran...       2019-04-01
 
 [100 rows x 2 columns]
 ```
@@ -54,19 +56,20 @@ Tady se nám již vrátil datový typ DataFrame. Tohoto triku můžeme využít,
 food[['description']]
 ```
 
-```shell
-                                             description
-0                                           lentils, dry
-1                                            heavy cream
-2                                          Flour, potato
-3                                          Salt, Iodized
-4                                          Hot dogs beef
-...                                                  ...
-38914                          Yogurt, whole milk, plain
-58027                chicken, breast, boneless, skinless
-58591                               pork, loin, boneless
-46593           Oats, whole grain, rolled, old fashioned
-7858   Cheese, cheddar, mild, block/chunk, store bran...
+```
+                                               description
+fdc_id
+2644829                                       lentils, dry
+2347263                                        heavy cream
+2261954                                      Flour, potato
+321470                                       Salt, Iodized
+322951                                       Hot dogs beef
+...                                                    ...
+2260615                          Yogurt, whole milk, plain
+2646468                chicken, breast, boneless, skinless
+2647032                               pork, loin, boneless
+2349564           Oats, whole grain, rolled, old fashioned
+328565   Cheese, cheddar, mild, block/chunk, store bran...
 
 [100 rows x 1 columns]
 ```