Fix xml with pre year and absent elements (#1048)

robertatakenaka · web-flow · commit 1508c588e767 · 2025-10-26T16:13:51.000-03:00
* Aplica black

* fix: adiciona tratamento para TypeError em propriedades de datas

- Trata TypeError além de KeyError em article_year e collection_year
- Previne erros quando article_date ou collection_date são None

* feat: adiciona normalização de valores zero em campos de paginação e issue

- Implementa função zero_to_none() para normalizar campos numéricos
- Remove zeros não significativos de volume, number, fpage e lpage
- Melhora lógica de order com fallback para últimos 5 dígitos do pid v2
- Adiciona tratamento robusto quando order não está disponível

* feat: implementa geração de PID v2 e métodos auxiliares

- Adiciona generated_pid_v2() para criar PIDs programaticamente
- Implementa get_article_pid_suffix() e generate_issue_pid_suffix()
- Adiciona lógica para gerar order baseado em supplement e number
- Cria funções auxiliares: string_to_5_digits() usando CRC32 e extract_number()
- Melhora alternative_sps_pkg_name_suffix usando order como fallback
- Corrige comparação de fpage zero (!= ao invés de 'not ==')
diff --git a/packtools/sps/pid_provider/models/dates.py b/packtools/sps/pid_provider/models/dates.py
@@ -125,14 +125,14 @@ def article_date_isoformat(self):
     def article_year(self):
         try:
             return self.article_date["year"]
-        except KeyError:
+        except (TypeError, KeyError):
             return None
 
     @cached_property
     def collection_year(self):
         try:
             return self.collection_date["year"]
-        except KeyError:
+        except (TypeError, KeyError):
             return None
 
     @cached_property
diff --git a/packtools/sps/pid_provider/models/front_articlemeta_issue.py b/packtools/sps/pid_provider/models/front_articlemeta_issue.py
@@ -1,3 +1,18 @@
+"""<article>
+<front>
+    <article-meta>
+      <pub-date publication-format="electronic" date-type="collection">
+        <year>2003</year>
+      </pub-date>
+      <volume>4</volume>
+      <issue>1</issue>
+      <fpage>108</fpage>
+      <lpage>123</lpage>
+    </article-meta>
+  </front>
+</article>
+"""
+
 """<article>
 <front>
     <article-meta>
@@ -30,10 +45,7 @@ def _extract_number_and_supplment_from_issue_element(issue):
     issue = issue.strip().replace(".", "")
     splitted = [s for s in issue.split() if s]
 
-    splitted = ["spe"
-                if "spe" in s.lower() and s.isalpha() else s
-                for s in splitted
-                ]
+    splitted = ["spe" if "spe" in s.lower() and s.isalpha() else s for s in splitted]
     if len(splitted) == 1:
         issue = splitted[0]
         if issue.isdigit():
@@ -62,6 +74,31 @@ def _extract_number_and_supplment_from_issue_element(issue):
     return "".join(splitted), None
 
 
+def zero_to_none(value):
+    """
+    Normaliza valores de campos numéricos de paginação e volume/número,
+    removendo zeros não significativos.
+
+    Usado para: volume, number, fpage, lpage
+
+    Args:
+        value: Valor a ser normalizado (string ou None)
+
+    Returns:
+        String normalizada ou None se o valor for vazio ou zero
+    """
+    if not value:
+        return None
+
+    try:
+        if int(value) == 0:
+            return None
+        return value
+    except (TypeError, ValueError):
+        # Valor não é numérico, retorna como está
+        return value
+
+
 class ArticleMetaIssue:
 
     def __init__(self, xmltree):
@@ -70,8 +107,12 @@ def __init__(self, xmltree):
     @property
     def data(self):
         attr_names = (
-            "volume", "number", "suppl",
-            "fpage", "fpage_seq", "lpage",
+            "volume",
+            "number",
+            "suppl",
+            "fpage",
+            "fpage_seq",
+            "lpage",
             "elocation_id",
         )
         _data = {}
@@ -96,7 +137,8 @@ def collection_date(self):
 
     @property
     def volume(self):
-        return self.xmltree.findtext(".//front/article-meta/volume")
+        volume = self.xmltree.findtext(".//front/article-meta/volume")
+        return zero_to_none(volume)
 
     @property
     def issue(self):
@@ -107,7 +149,7 @@ def number(self):
         _issue = self.issue
         if _issue:
             n, s = _extract_number_and_supplment_from_issue_element(_issue)
-            return n
+            return zero_to_none(n)
 
     @property
     def suppl(self):
@@ -126,7 +168,8 @@ def elocation_id(self):
 
     @property
     def fpage(self):
-        return self.xmltree.findtext(".//front/article-meta/fpage")
+        fpage = self.xmltree.findtext(".//front/article-meta/fpage")
+        return zero_to_none(fpage)
 
     @property
     def fpage_seq(self):
@@ -137,11 +180,24 @@ def fpage_seq(self):
 
     @property
     def lpage(self):
-        return self.xmltree.findtext(".//front/article-meta/lpage")
+        lpage = self.xmltree.findtext(".//front/article-meta/lpage")
+        return zero_to_none(lpage)
 
     @property
     def order(self):
+        """
+        Obtém o order do artigo, primeiro tentando article-id[@pub-id-type="other"],
+        depois usando os últimos 5 dígitos do pid v2 como fallback.
+
+        Returns:
+            int: Order do artigo ou 0 se não for possível obter um valor válido
+        """
         _order = self.xmltree.findtext('.//article-id[@pub-id-type="other"]')
-        if _order is None:
+
+        if not _order:
+            # Fallback: usa os últimos 5 dígitos do pid v2
             _order = ArticleIds(self.xmltree).v2
-        return int(_order)
+            if _order:
+                _order = _order[-5:]
+
+        return int(_order or 0)
diff --git a/packtools/sps/pid_provider/xml_loader.py b/packtools/sps/pid_provider/xml_loader.py
@@ -9,7 +9,7 @@
 def load_xml(xml):
     """
     Carrega e processa XML, corrigindo entidades na entrada.
-    
+
     Análise:
     - sucesso
     - Exemplo de saída:
@@ -34,14 +34,14 @@ def load_xml(xml):
     </article>
     """
     return etree.tostring(
-        etree.fromstring(fix_pre_loading(xml)),
-        method="xml", encoding="utf-8").decode("utf-8")
+        etree.fromstring(fix_pre_loading(xml)), method="xml", encoding="utf-8"
+    ).decode("utf-8")
 
 
 def fix_entities(xml):
     """
     Corrige entidades usando parser HTML e formatação de saída.
-    
+
     Análise:
     - Usa html_parser_ent2char internamente
     - Aplica format_output para corrigir entidades finais
@@ -54,7 +54,7 @@ def fix_entities(xml):
 def xml_parser_ent2char(xml):
     """
     Usa parser XML do lxml com modo recover para processar entidades.
-    
+
     Análise:
     - PERDE OS CARACTERES
     - Remove completamente as entidades não reconhecidas
@@ -78,7 +78,7 @@ def xml_parser_ent2char(xml):
       </content>
       </body>
       </article>
-    
+
     Problema: Entidades como &rsquo;, &ldquo;, &mdash; são completamente removidas
     ao invés de convertidas para seus caracteres correspondentes.
     """
@@ -94,14 +94,14 @@ def xml_parser_ent2char(xml):
 def html_unescape_ent2char(xml):
     """
     Usa html.unescape para converter entidades HTML.
-    
+
     Análise:
     - NÃO CONSEGUE LER O XML
     - Falha com erro: Entity 'lquo' not defined
     - Exemplo de erro:
       ERROR:root:Entity 'lquo' not defined, line 5, column 38
       lxml.etree.XMLSyntaxError: Entity 'lquo' not defined
-    
+
     Problema: html.unescape converte as entidades, mas o XML resultante
     não é válido porque algumas entidades HTML não são reconhecidas
     pelo parser XML padrão.
@@ -118,7 +118,7 @@ def html_unescape_ent2char(xml):
 def html_parser_ent2char(xml):
     """
     Usa parser HTML do lxml para processar entidades.
-    
+
     Análise:
     - PERDE O ARTICLE/BODY, MAS PERDE O ; APÓS LQUO E RQUO
     - Converte a maioria das entidades corretamente
@@ -140,7 +140,7 @@ def html_parser_ent2char(xml):
           <p>187 : »</p>
       </content>
       </article>
-    
+
     Problemas:
     1. Parser HTML adiciona estrutura <html><body> que precisa ser removida
     2. Entidades &lquo; e &rquo; perdem o ponto-e-vírgula final
@@ -149,7 +149,9 @@ def html_parser_ent2char(xml):
     try:
         parser = etree.HTMLParser()
         root = etree.fromstring(xml, parser)
-        return etree.tostring(root.find(".").find("body").find("*"), method="xml", encoding="utf-8").decode("utf-8")
+        return etree.tostring(
+            root.find(".").find("body").find("*"), method="xml", encoding="utf-8"
+        ).decode("utf-8")
     except Exception as e:
         logging.info("opção 3")
         logging.exception(e)
@@ -158,24 +160,24 @@ def html_parser_ent2char(xml):
 def bs_ent2char_(xml):
     """
     Testa diferentes parsers do BeautifulSoup.
-    
+
     Análises por parser:
-    
+
     1. "xml" (Alias para lxml-xml):
        - PERDE OS CARACTERES
        - Similar ao xml_parser_ent2char
-    
+
     2. "lxml" (Parser HTML com lxml):
        - PERDE O ARTICLE/BODY se usado direto
        - MANTÉM O ARTICLE/BODY via bs_ent2char
        - PERDE O ; APÓS LQUO E RQUO
        - Exemplo: &amp;lquoapostrophes&amp;rquo (sem ;)
-    
+
     3. "html.parser" (Built-in do Python):
        - MANTÉM O ARTICLE/BODY
        - PERDE O ; APÓS LQUO E RQUO
        - Similar ao lxml mas mantém estrutura melhor
-    
+
     4. "html5lib" (Parser HTML5):
        - ADICIONA <html><head></head><body>
        - Mantém entidades problemáticas como &amp;lquo; e &amp;rquo;
@@ -196,7 +198,7 @@ def bs_ent2char_(xml):
 def bs_ent2char(xml):
     """
     Usa BeautifulSoup com parser lxml para converter entidades.
-    
+
     Análise:
     - MANTÉM O ARTICLE/BODY, MAS PERDE O ; APÓS LQUO E RQUO
     - Converte a maioria das entidades HTML corretamente
@@ -220,11 +222,11 @@ def bs_ent2char(xml):
       </content>
       </body>
       </article>
-    
+
     Vantagens:
     - Mantém estrutura XML original
     - Converte maioria das entidades HTML para caracteres Unicode
-    
+
     Problemas:
     - Entidades &lquo; e &rquo; não são reconhecidas e perdem o ;
     - Tag <break/> é convertida para <break></break>
@@ -236,15 +238,15 @@ def bs_ent2char(xml):
 def main():
     """
     Função principal para testar diferentes métodos de conversão de entidades.
-    
+
     XML de entrada contém várias entidades HTML problemáticas:
     - &rsquo; &ldquo; &rdquo; &lquo; &rquo; (quotes)
     - &mdash; (travessão)
     - &nbsp; (espaço não quebrável)
     - &copy; &euro; &pound; (símbolos)
     - &frac12; &times; (matemáticos)
     - &#180; &#191; &#187; &#x02019; (numéricos)
-    
+
     Resumo dos resultados:
     - xml_parser_ent2char: Remove entidades não reconhecidas
     - html_unescape_ent2char: Falha ao processar XML
@@ -298,7 +300,7 @@ def main():
     print("\n---\nload_xml")
     print(load_xml(xml))
 
-    
+
 if __name__ == "__main__":
     main()
 
@@ -423,7 +425,7 @@ def main():
 ---
 """
 
-# PERDE OS CARACTERES 
+# PERDE OS CARACTERES
 """
 xml
 
diff --git a/packtools/sps/pid_provider/xml_sps_adapter.py b/packtools/sps/pid_provider/xml_sps_adapter.py
@@ -306,4 +306,3 @@ def _str_with_64_char(text):
     if not text:
         return None
     return hashlib.sha256(_standardize(text).encode("utf-8")).hexdigest()
-
diff --git a/packtools/sps/pid_provider/xml_sps_lib.py b/packtools/sps/pid_provider/xml_sps_lib.py