GitHub - DataRozhlas/stenoprotokoly: scrapování stenoprotokolů do r. 1918

Pokud chcete rychle stáhnout a oscrapovat sněmovní stenoprotokoly z posledních let, rovnou vás odkážu na dílo Ondřeje Kokeše. Zde nás čeká větší a složitější dobrodružství, ambicí je převést do jakž takž čistých dat vše, co visí ve Společné česko-slovenské digitální parlamentní knihovně. Prioritu mají federální a české dolní komory zasedající po roce 1918.

Stažení surových souborů HTML obstarává poměrně neefektivní skript z větší části vygenerovaný v LLMs; optimalizace mi nedává velký smysl, pro většinu use cases stačí spustit ho jedenkrát (již stažené soubory nepřepisuje, což nemusí a může být problematické, na každý pád je dobré o tom vědět). Následné scrapování do parquetů se samotnými projevy a CSVček s daty o schůzích průběžně ladím – během let se mění formáty přepisu, někde jde mluvčí (a tedy začátek nového projevu) identifikovat snadno skrz hledání tučných odkazů, někde je zapotřebí nasadit delikátní filtry rozpoznávající, zda je v prostém textu před dvojtečkou něco, co připomíná jméno. Posledí dílek v pipeline, skript/sešit 003, spojuje tyto malé soubory do jednoho.

Poslední věc, o které je dobré vědět: projevy rozdělené do více stránek v digitálním repozitáři zůstávají i v očištěných datech rozdělené do více řádků, mohou se tedy v různých operacích chovat jako samostatné projevy. Ono beztak není moudré počítat celkové počty projevů, některé jsou krátce přerušeny apod.; lepší metriky jsou souhrnné počty slov např. za jeden den.

To do

Brute force stahování souborů (ani skript pro scrapování dat) si neporadí s url Národního výboru 1918.
Chybí Senát.
Projevy rozdělené na více stránek v digitálním repozitáři zůstávají rozdělené do více řádků.
U společných chůzi Senátu a PSP se při scrapování ukládají špatná data, ref.: 1996ps_psse_stenprot_001schuz_s001003.htm.
Ještě neprocházejí všechny testy scrapování, viz sešit 004.
- Dopsat další testy: délka polí s mluvčími, počet vystoupení v dokumentu atd.

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
data/drahota		data/drahota
src		src
testy		testy
.gitignore		.gitignore
001_download.py		001_download.py
002_scrapovani.ipynb		002_scrapovani.ipynb
003_spojeni.ipynb		003_spojeni.ipynb
003b_troubleshoot_spojeni.ipynb		003b_troubleshoot_spojeni.ipynb
004_testy_a_statistiky.ipynb		004_testy_a_statistiky.ipynb
005_rozpoznani_jazyku.ipynb		005_rozpoznani_jazyku.ipynb
010_download_mluvcich.ipynb		010_download_mluvcich.ipynb
011_scrapovani_mluvcich.ipynb		011_scrapovani_mluvcich.ipynb
012_cisteni_mluvcich.ipynb		012_cisteni_mluvcich.ipynb
100_explorace.ipynb		100_explorace.ipynb
101_jazyky.ipynb		101_jazyky.ipynb
101_slova.py		101_slova.py
103_mesta_a_regiony.ipynb		103_mesta_a_regiony.ipynb
104_embeddings.ipynb		104_embeddings.ipynb
105_embeddings_2nd_take.ipynb		105_embeddings_2nd_take.ipynb
106_odpocinek.ipynb		106_odpocinek.ipynb
107_rodina.ipynb		107_rodina.ipynb
108_drahota.ipynb		108_drahota.ipynb
110_embeddings_3rd_take.ipynb		110_embeddings_3rd_take.ipynb
111_emb4.ipynb		111_emb4.ipynb
112_doplnovani_mluvcich.ipynb		112_doplnovani_mluvcich.ipynb
113_zeny.ipynb		113_zeny.ipynb
114_kdy_naposledy.ipynb		114_kdy_naposledy.ipynb
115_linkedin.ipynb		115_linkedin.ipynb
116_slova_snemoven_agregace.ipynb		116_slova_snemoven_agregace.ipynb
117_slova_snemoven_explorace.ipynb		117_slova_snemoven_explorace.ipynb
121_povolani.ipynb		121_povolani.ipynb
122_stvo_vypocet.ipynb		122_stvo_vypocet.ipynb
123_stvo_hledani.ipynb		123_stvo_hledani.ipynb
124_predzvesti.ipynb		124_predzvesti.ipynb
125_snim_o.ipynb		125_snim_o.ipynb
126_pripadam_si_jako.ipynb		126_pripadam_si_jako.ipynb
127_barvy.ipynb		127_barvy.ipynb
128_cetnost_behem_roku.ipynb		128_cetnost_behem_roku.ipynb
129_kolegove_kolegyne.ipynb		129_kolegove_kolegyne.ipynb
130_duvera_neduvera.ipynb		130_duvera_neduvera.ipynb
901a_kolik_se_toho_namluvilo.ipynb		901a_kolik_se_toho_namluvilo.ipynb
901b_mluvci.ipynb		901b_mluvci.ipynb
901c_slova_skokani.ipynb		901c_slova_skokani.ipynb
901d_skokani_graf.ipynb		901d_skokani_graf.ipynb
901e_lex.ipynb		901e_lex.ipynb
901f_smich_potlesk_buceni.ipynb		901f_smich_potlesk_buceni.ipynb
902a_smich_1918.ipynb		902a_smich_1918.ipynb
902b_media.ipynb		902b_media.ipynb
902c_minulost_budoucnost.ipynb		902c_minulost_budoucnost.ipynb
902d_poprve_naposledy.ipynb		902d_poprve_naposledy.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

To do

About

Uh oh!

Releases

Packages

Languages

DataRozhlas/stenoprotokoly

Folders and files

Latest commit

History

Repository files navigation

To do

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages