Merge pull request #114 from J-CPelletier/fix-supported-comics

J-CPelletier · web-flow · commit 2d204efd165a · 2025-10-21T21:54:55.000-04:00
Fix Supported Comics
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "webcomix"
-version = "3.11.5"
+version = "3.12.0"
 description = "Webcomic downloader"
 authors = ["Jean-Christophe Pelletier <pelletierj97@gmail.com>"]
 readme = "README.md"
@@ -33,6 +33,7 @@ scrapy-splash = "^0.10.0"
 scrapy-fake-useragent = "^1.4.4"
 pytest-rerunfailures = "^11.1.2"
 docker = "^7.1.0"
+cloudscraper = "^1.2.71"
 
 [tool.poetry.dev-dependencies]
 pytest = "^7.4.4"
diff --git a/webcomix/comic.py b/webcomix/comic.py
@@ -26,15 +26,16 @@
     "DOWNLOADER_MIDDLEWARES": {
         "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": None,
         "scrapy.downloadermiddlewares.retry.RetryMiddleware": None,
-        "scrapy_fake_useragent.middleware.RandomUserAgentMiddleware": 400,
-        "scrapy_fake_useragent.middleware.RetryUserAgentMiddleware": 401,
+        "scrapy_fake_useragent.middleware.RandomUserAgentMiddleware": 500,
+        "scrapy_fake_useragent.middleware.RetryUserAgentMiddleware": 501,
+        "webcomix.scrapy.custom_cloudflare_middleware.CustomCloudflareMiddleware": 543,
     },
     "FAKEUSERAGENT_PROVIDERS": [
         "scrapy_fake_useragent.providers.FakeUserAgentProvider",
         "scrapy_fake_useragent.providers.FakerProvider",
         "scrapy_fake_useragent.providers.FixedUserAgentProvider",
     ],
-    "FAKEUSERAGENT_FALLBACK": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36",
+    "FAKEUSERAGENT_FALLBACK": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
 }
 
 
diff --git a/webcomix/scrapy/custom_cloudflare_middleware.py b/webcomix/scrapy/custom_cloudflare_middleware.py
@@ -0,0 +1,22 @@
+import cloudscraper
+from scrapy.http import HtmlResponse
+
+
+class CustomCloudflareMiddleware:
+
+    cloudflare_scraper = cloudscraper.create_scraper()
+
+    def process_response(self, request, response, spider):
+        request_url = request.url
+        response_status = response.status
+        if response_status not in (403, 503):
+            return response
+
+        spider.logger.info(
+            "Cloudflare detected. Using cloudscraper on URL: %s", request_url
+        )
+        cflare_response = self.cloudflare_scraper.get(request_url)
+        cflare_res_transformed = HtmlResponse(
+            url=request_url, body=cflare_response.text, encoding="utf-8"
+        )
+        return cflare_res_transformed
diff --git a/webcomix/scrapy/tests/test_custom_cloudflare_middleware.py b/webcomix/scrapy/tests/test_custom_cloudflare_middleware.py
@@ -0,0 +1,120 @@
+import pytest
+from scrapy.http import HtmlResponse, Request
+from webcomix.scrapy.custom_cloudflare_middleware import CustomCloudflareMiddleware
+
+
+AN_URL = "https://example.com/comic"
+CLOUDFLARE_HTML = "<html><body>Cloudflare protected content</body></html>"
+
+
+@pytest.fixture
+def middleware():
+    return CustomCloudflareMiddleware()
+
+
+@pytest.fixture
+def spider(mocker):
+    spider = mocker.Mock()
+    spider.logger = mocker.Mock()
+    return spider
+
+
+@pytest.fixture
+def test_request():
+    return Request(AN_URL)
+
+
+def test_middleware_returns_response_when_status_200(middleware, test_request, spider):
+    response = HtmlResponse(AN_URL, status=200, body=b"<html></html>")
+
+    result = middleware.process_response(test_request, response, spider)
+
+    assert result is response
+    spider.logger.info.assert_not_called()
+
+
+def test_middleware_returns_response_when_status_404(middleware, test_request, spider):
+    response = HtmlResponse(AN_URL, status=404, body=b"<html></html>")
+
+    result = middleware.process_response(test_request, response, spider)
+
+    assert result is response
+    spider.logger.info.assert_not_called()
+
+
+def test_middleware_uses_cloudscraper_when_status_403(
+    mocker, middleware, test_request, spider
+):
+    response = HtmlResponse(AN_URL, status=403, body=b"<html></html>")
+    mock_cf_response = mocker.Mock()
+    mock_cf_response.text = CLOUDFLARE_HTML
+    mock_scraper = mocker.patch.object(CustomCloudflareMiddleware, "cloudflare_scraper")
+    mock_scraper.get.return_value = mock_cf_response
+
+    result = middleware.process_response(test_request, response, spider)
+
+    mock_scraper.get.assert_called_once_with(AN_URL)
+    assert isinstance(result, HtmlResponse)
+    assert result.url == AN_URL
+    assert CLOUDFLARE_HTML in result.text
+    spider.logger.info.assert_called_once()
+
+
+def test_middleware_uses_cloudscraper_when_status_503(
+    mocker, middleware, test_request, spider
+):
+    response = HtmlResponse(AN_URL, status=503, body=b"<html></html>")
+    mock_cf_response = mocker.Mock()
+    mock_cf_response.text = CLOUDFLARE_HTML
+    mock_scraper = mocker.patch.object(CustomCloudflareMiddleware, "cloudflare_scraper")
+    mock_scraper.get.return_value = mock_cf_response
+
+    result = middleware.process_response(test_request, response, spider)
+
+    mock_scraper.get.assert_called_once_with(AN_URL)
+    assert isinstance(result, HtmlResponse)
+    assert result.url == AN_URL
+    spider.logger.info.assert_called_once()
+
+
+def test_middleware_logs_cloudflare_detection(mocker, middleware, test_request, spider):
+    response = HtmlResponse(AN_URL, status=403, body=b"<html></html>")
+    mock_cf_response = mocker.Mock()
+    mock_cf_response.text = CLOUDFLARE_HTML
+    mock_scraper = mocker.patch.object(CustomCloudflareMiddleware, "cloudflare_scraper")
+    mock_scraper.get.return_value = mock_cf_response
+
+    middleware.process_response(test_request, response, spider)
+
+    spider.logger.info.assert_called_once_with(
+        "Cloudflare detected. Using cloudscraper on URL: %s", AN_URL
+    )
+
+
+def test_middleware_returns_htmlresponse_with_utf8_encoding(
+    mocker, middleware, test_request, spider
+):
+    response = HtmlResponse(AN_URL, status=503, body=b"<html></html>")
+    mock_cf_response = mocker.Mock()
+    mock_cf_response.text = CLOUDFLARE_HTML
+    mock_scraper = mocker.patch.object(CustomCloudflareMiddleware, "cloudflare_scraper")
+    mock_scraper.get.return_value = mock_cf_response
+
+    result = middleware.process_response(test_request, response, spider)
+
+    assert result.encoding == "utf-8"
+
+
+def test_middleware_handles_different_urls(mocker, middleware, spider):
+    different_url = "https://different-site.com/page"
+    test_request = Request(different_url)
+    response = HtmlResponse(different_url, status=403, body=b"<html></html>")
+    mock_cf_response = mocker.Mock()
+    mock_cf_response.text = CLOUDFLARE_HTML
+    mock_scraper = mocker.patch.object(CustomCloudflareMiddleware, "cloudflare_scraper")
+    mock_scraper.get.return_value = mock_cf_response
+
+    result = middleware.process_response(test_request, response, spider)
+
+    mock_scraper.get.assert_called_once_with(different_url)
+    assert result.url == different_url
diff --git a/webcomix/supported_comics.py b/webcomix/supported_comics.py
@@ -21,7 +21,7 @@
     "Nedroid": {
         "name": "Nedroid",
         "start_url": "https://nedroid.com/?1",
-        "comic_image_selector": "//img[@class='comic']/@src",
+        "comic_image_selector": "//img[@class='comic_img']/@src",
         "next_page_selector": "//a[text()='NEXT>']/@href",
     },
     "JL8": {
@@ -121,12 +121,6 @@
         "next_page_selector": "//a[@class='cc-next']/@href",
         "single_page": True,
     },
-    "MissingMonday": {
-        "name": "MissingMonday",
-        "start_url": "https://www.missingmondaycomic.com/comic/chapter-01-page-01",
-        "comic_image_selector": "//img[@id='cc-comic']/@src",
-        "next_page_selector": "//a[@class='cc-next']/@href",
-    },
     "StarTrip": {
         "name": "StarTrip",
         "start_url": "https://www.startripcomic.com/comic/chapter-1-cover",
diff --git a/webcomix/tests/test_comic_availability.py b/webcomix/tests/test_comic_availability.py
@@ -7,19 +7,19 @@
 
 
 # TODO: Handle 403 errors
-supported_comics_ignored = {
-    k: v
-    for k, v in supported_comics.items()
-    if not (
-        (k == "TheAbominableCharlesChristopher" or k == "Lackadaisy")
-        and os.environ.get("CI", False)
-    )
-}
+#  supported_comics_ignored = {
+    #  k: v
+    #  for k, v in supported_comics.items()
+    #  if not (
+        #  (k == "TheAbominableCharlesChristopher" or k == "Lackadaisy")
+        #  and os.environ.get("CI", False)
+    #  )
+#  }
 
 
 @pytest.mark.flaky(reruns=5, reruns_delay=60)
 @pytest.mark.slow
-@pytest.mark.parametrize("comic_name", supported_comics_ignored.keys())
+@pytest.mark.parametrize("comic_name", supported_comics.keys())
 def test_supported_comics(comic_name):
     comic = Comic(**supported_comics[comic_name], debug=True)
     first_pages = comic.verify_xpath()