Skip to content

DataRozhlas/stenoprotokoly

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Pokud chcete rychle stáhnout a oscrapovat sněmovní stenoprotokoly z posledních let, rovnou vás odkážu na dílo Ondřeje Kokeše. Zde nás čeká větší a složitější dobrodružství, ambicí je převést do jakž takž čistých dat vše, co visí ve Společné česko-slovenské digitální parlamentní knihovně. Prioritu mají federální a české dolní komory zasedající po roce 1918.

Stažení surových souborů HTML obstarává poměrně neefektivní skript z větší části vygenerovaný v LLMs; optimalizace mi nedává velký smysl, pro většinu use cases stačí spustit ho jedenkrát (již stažené soubory nepřepisuje, což nemusí a může být problematické, na každý pád je dobré o tom vědět). Následné scrapování do parquetů se samotnými projevy a CSVček s daty o schůzích průběžně ladím – během let se mění formáty přepisu, někde jde mluvčí (a tedy začátek nového projevu) identifikovat snadno skrz hledání tučných odkazů, někde je zapotřebí nasadit delikátní filtry rozpoznávající, zda je v prostém textu před dvojtečkou něco, co připomíná jméno. Posledí dílek v pipeline, skript/sešit 003, spojuje tyto malé soubory do jednoho.

Poslední věc, o které je dobré vědět: projevy rozdělené do více stránek v digitálním repozitáři zůstávají i v očištěných datech rozdělené do více řádků, mohou se tedy v různých operacích chovat jako samostatné projevy. Ono beztak není moudré počítat celkové počty projevů, některé jsou krátce přerušeny apod.; lepší metriky jsou souhrnné počty slov např. za jeden den.

To do

  • Brute force stahování souborů (ani skript pro scrapování dat) si neporadí s url Národního výboru 1918.
  • Chybí Senát.
  • Projevy rozdělené na více stránek v digitálním repozitáři zůstávají rozdělené do více řádků.
  • U společných chůzi Senátu a PSP se při scrapování ukládají špatná data, ref.: 1996ps_psse_stenprot_001schuz_s001003.htm.
  • Ještě neprocházejí všechny testy scrapování, viz sešit 004.
    • Dopsat další testy: délka polí s mluvčími, počet vystoupení v dokumentu atd.

About

scrapování stenoprotokolů do r. 1918

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published