minor fixes to API

martingarridorc · martingarridorc · commit dcff49c59b4b · 2025-09-04T17:03:33.000+02:00
diff --git a/.github/workflows/test.yml b/.github/workflows/test.yml
@@ -0,0 +1,45 @@
+name: Run ScAPE Tests
+
+on:
+  push:
+    branches: [main]
+  pull_request:
+    branches: [main]
+
+jobs:
+  test:
+    runs-on: ubuntu-latest
+
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Set up Python
+        uses: actions/setup-python@v5
+        with:
+          python-version: '3.10'
+
+      - name: Cache _data directory
+        uses: actions/cache@v4
+        with:
+          path: _data
+          key: scape-data-${{ runner.os }}-${{ hashFiles('**/pyproject.toml') }}
+          restore-keys: |
+            scape-data-${{ runner.os }}-
+
+      - name: Install package
+        run: pip install .
+
+      - name: Run test code
+        run: |
+          python -c "
+import scape
+scape.io.download_from_zenodo(target_dir = '.')
+result = scape.api.train(
+    de_file='_data/de_train.parquet',
+    lfc_file='_data/lfc_train.parquet',
+    cv_drug='Belinostat',
+    n_genes=64
+)
+scape.util.plot_result(result._last_train_results)
+"
diff --git a/.gitignore b/.gitignore
@@ -184,3 +184,4 @@ Thumbs.db
 
 # Project-specific
 CLAUDE.md
+scape-data.zip
diff --git a/README.md b/README.md
@@ -32,16 +32,19 @@ pip install git+https://github.com/scapeML/scape.git
 ```python
 import scape
 
+# data from zenodo can be downloaded via
+scape.io.download_from_zenodo(target_dir = ".")
+
 # Train model with drug cross-validation
-result = scape.train(
-    de_file="de_train.parquet",
-    lfc_file="lfc_train.parquet", 
+result = scape.api.train(
+    de_file="_data/de_train.parquet",
+    lfc_file="_data/lfc_train.parquet", 
     cv_drug="Belinostat",
     n_genes=64
 )
 
 # Visualize performance vs baselines
-scape.plot_result(result)
+scape.util.plot_result(result._last_train_results)
 ```
 
 ## 📋 Overview
@@ -75,7 +78,7 @@ Key design choices:
 
 ```bash
 # Command line
-python -m scape train --n-genes 64 --cv-drug Belinostat de_train.parquet lfc_train.parquet
+python -m scape train --n-genes 64 --cv-drug Belinostat _data/de_train.parquet _data/lfc_train.parquet
 
 # Python API
 import scape
diff --git a/pyproject.toml b/pyproject.toml
@@ -31,6 +31,8 @@ dependencies = [
     "scikit-learn>=1.2.2",
     "fastparquet>=2023.10.1",
     "keras>=3.6",
+    "matplotlib",
+    "requests"
 ]
 
 [project.scripts]
diff --git a/scape/__init__.py b/scape/__init__.py
@@ -2,6 +2,7 @@
 # Set JAX backend for Keras before any imports
 os.environ.setdefault('KERAS_BACKEND', 'jax')
 
+import scape._api as api
 import scape._model as model
 import scape._losses as losses
 import scape._io as io
diff --git a/scape/__main__.py b/scape/__main__.py
@@ -105,37 +105,18 @@ def main():
 
     # If the command was train, train the model
     if parser.parse_args().command == "train":
-        train(args)
-
-
-def train(args):
-    # Read the files
-    df_de = scape.io.load_slogpvals(args.slogpval)
-    print(f"DE shape: {df_de.shape}")
-    df_lfc = scape.io.load_lfc(args.lfc)
-    print(f"LFC shape: {df_lfc.shape}")
-    val_cells = [args.cv_cell] if args.cv_cell else None
-    val_drugs = [args.cv_drug] if args.cv_drug else None
-    print(f"Training model with {args.n_genes} genes")
-    print(f"Validation cell(s): {val_cells}")
-    print(f"Validation drug(s): {val_drugs}")
-    # Create a default model
-    model = scape.model.create_default_model(args.n_genes, df_de, df_lfc)
-    top_genes = top_genes = scape.util.select_top_variable([df_de], k=args.n_genes)
-    model.train(
-        val_cells=val_cells,
-        val_drugs=val_drugs,
-        output_data="slogpval",
-        callbacks="default",
-        input_columns=top_genes,
-        optimizer=None,
-        epochs=args.epochs,
-        batch_size=args.batch_size,
-        output_folder=args.output_dir,
-        config_file_name=f"{args.config_name}.pkl",
-        model_file_name=f"{args.model_name}.keras",
-        baselines=["zero", "slogpval_drug"]
-    )
+        scape.api.train(
+            de_file=args.slogpval,
+            lfc_file=args.lfc,
+            n_genes=args.n_genes,
+            output_dir=args.output_dir,
+            cv_cell=args.cv_cell,
+            cv_drug=args.cv_drug,
+            epochs=args.epochs,
+            batch_size=args.batch_size,
+            config_name=args.config_name,
+            model_name=args.model_name
+        )
 
 
 if __name__ == "__main__":
diff --git a/scape/_api.py b/scape/_api.py
@@ -0,0 +1,42 @@
+import scape
+
+def train(
+    de_file,
+    lfc_file,
+    n_genes=64,
+    output_dir=None,
+    cv_cell="NK cells",
+    cv_drug=None,
+    epochs=600,
+    batch_size=128,
+    config_name="config",
+    model_name="model"
+):
+    # Read the files
+    df_de = scape.io.load_slogpvals(de_file)
+    print(f"DE shape: {df_de.shape}")
+    df_lfc = scape.io.load_lfc(lfc_file)
+    print(f"LFC shape: {df_lfc.shape}")
+    val_cells = [cv_cell] if cv_cell else None
+    val_drugs = [cv_drug] if cv_drug else None
+    print(f"Training model with {n_genes} genes")
+    print(f"Validation cell(s): {val_cells}")
+    print(f"Validation drug(s): {val_drugs}")
+    # Create a default model
+    model = scape.model.create_default_model(n_genes, df_de, df_lfc)
+    top_genes = scape.util.select_top_variable([df_de], k=n_genes)
+    model.train(
+        val_cells=val_cells,
+        val_drugs=val_drugs,
+        output_data="slogpval",
+        callbacks="default",
+        input_columns=top_genes,
+        optimizer=None,
+        epochs=epochs,
+        batch_size=batch_size,
+        output_folder=output_dir,
+        config_file_name=f"{config_name}.pkl",
+        model_file_name=f"{model_name}.keras",
+        baselines=["zero", "slogpval_drug"]
+    )
+    return model
diff --git a/scape/_io.py b/scape/_io.py
@@ -4,6 +4,21 @@
 import zipfile
 import lzma
 import tempfile
+import requests
+
+def download_from_zenodo(target_dir, cache_dir = '_data'):
+    if os.path.exists(target_dir):
+        print(f"Target directory {target_dir} already exists. Skipping download.")
+        return
+    url = 'https://zenodo.org/records/10617221/files/scape-data.zip?download=1'
+    response = requests.get(url)
+    if response.status_code == 200:
+        with open(os.path.join(target_dir, "scape-data.zip"), "wb") as f:
+            f.write(response.content)
+        with zipfile.ZipFile(os.path.join(target_dir, "scape-data.zip"), 'r') as zip_ref:
+            zip_ref.extractall(target_dir)
+    else:
+        raise ValueError(f"Failed to download file from Zenodo: {response.status_code}")
 
 
 def compress(file_path, zip_file_path=None, delete=False):

Original file line number	Diff line number	Diff line change
`@@ -184,3 +184,4 @@ Thumbs.db`
`184`	`184`
`185`	`185`	`# Project-specific`
`186`	`186`	`CLAUDE.md`
	`187`	`+scape-data.zip`
Original file line number	Diff line number	Diff line change
`@@ -31,6 +31,8 @@ dependencies = [`
`31`	`31`	`"scikit-learn>=1.2.2",`
`32`	`32`	`"fastparquet>=2023.10.1",`
`33`	`33`	`"keras>=3.6",`
	`34`	`+ "matplotlib",`
	`35`	`+ "requests"`
`34`	`36`	`]`
`35`	`37`
`36`	`38`	`[project.scripts]`