rybakov-ks
diff --git a/‎particleanalyzer/core/LLMAnalysis.py‎
Lines changed: 122 additions & 70 deletions b/‎particleanalyzer/core/LLMAnalysis.py‎
Lines changed: 122 additions & 70 deletions
diff --git a/‎particleanalyzer/core/ParticleAnalyzer.py‎
Lines changed: 10 additions & 10 deletions b/‎particleanalyzer/core/ParticleAnalyzer.py‎
Lines changed: 10 additions & 10 deletions
@@ -1,6 +1,7 @@
 import json
-from typing import Dict, List, Tuple, Literal
+from typing import Dict, List, Tuple, Literal, Optional
 import pandas as pd
+import numpy as np
 from openai import OpenAI
 from huggingface_hub import InferenceClient
 from particleanalyzer.core.language_context import LanguageContext
@@ -17,8 +18,7 @@ def __init__(
     ):
         self.provider = provider
         self.api_key = api_key
-        self.stats: Dict[str, Dict[str, float]] = {}
-
+        
         if provider == "openrouter":
             self.client = OpenAI(
                 base_url="https://openrouter.ai/api/v1",
@@ -30,83 +30,138 @@ def __init__(
             self.model = huggingface_model
         else:
             raise ValueError("Неизвестный провайдер. Доступные варианты: 'openrouter', 'huggingface'")
-
-    def load_data(self, df: pd.DataFrame) -> None:
-        required_columns = {
-            self._get_translation("Параметр"),
-            self._get_translation("Среднее"),
-            self._get_translation("Медиана"),
-            self._get_translation("Максимум"),
-            self._get_translation("Минимум"),
-            self._get_translation("Среднее"),
+        
+    def _calculate_stats(self, df: pd.DataFrame, num_bins: int = 5) -> Dict[str, Dict]:
+        """Вычисляет статистику, сохраняя оригинальные названия столбцов"""
+        stats = {
+            "particles_count": len(df),
+            "parameters": {}
         }
-        if not required_columns.issubset(df.columns):
-            raise ValueError(f"DataFrame должен содержать колонки: {required_columns}")
-
-        self.stats = {
-            row[self._get_translation("Параметр")]: {
-                self._get_translation("Среднее"): row[self._get_translation("Среднее")],
-                self._get_translation("Медиана"): row[self._get_translation("Медиана")],
-                self._get_translation("Максимум"): row[self._get_translation("Максимум")],
-                self._get_translation("Минимум"): row[self._get_translation("Минимум")],
-                self._get_translation("Среднее"): row[self._get_translation("Среднее")],
+        
+        numeric_cols = df.select_dtypes(include=[np.number]).columns
+        
+        for col in numeric_cols:
+            # Базовые статистики
+            stats["parameters"][col] = {
+                "mean": float(df[col].mean()),
+                "median": float(df[col].median()),
+                "std": float(df[col].std()),
+                "min": float(df[col].min()),
+                "max": float(df[col].max()),
+                "q1": df[col].quantile(0.25),
+                "q3": df[col].quantile(0.75),
+                "skewness": df[col].skew(),
+                "kurtosis": df[col].kurtosis(),
+                "histogram": self._create_histogram(df[col], num_bins)
             }
-            for _, row in df.iterrows()
+            
+            # Специальные расчеты (по оригинальным названиям)
+            if "Dₘₐₓ" in col and any("Dₘᵢₙ" in c for c in df.columns):
+                stats["parameters"]["aspect_ratio"] = self._calc_aspect_ratio(df, num_bins)
+                
+            if "P [" in col and any("S [" in c for c in df.columns):
+                stats["parameters"]["circularity"] = self._calc_circularity(df, num_bins)
+        return stats
+
+    def _create_histogram(self, data, num_bins):
+        """Создает гистограмму"""
+        counts, bins = np.histogram(data, bins=num_bins)
+        return {
+            "bins": [float(x) for x in bins],
+            "counts": [int(x) for x in counts]
         }
 
-    def analyze(self, df: pd.DataFrame, count_particles: int) -> List[Tuple[None, str]]:
-        self.count_particles = count_particles
-        if df.empty:
-            return [(None, None)]
+    def _calc_aspect_ratio(self, df, num_bins):
+        """Вычисляет аспектное соотношение"""
+        dmax_col = [c for c in df.columns if "Dₘₐₓ" in c][0]
+        dmin_col = [c for c in df.columns if "Dₘᵢₙ" in c][0]
+        ar = df[dmax_col] / df[dmin_col]
+        return {
+            "mean": float(ar.mean()),
+            "median": float(ar.median()),
+            "histogram": self._create_histogram(ar, num_bins)
+        }
+
+    def _calc_circularity(self, df, num_bins):
+        """Вычисляет округлость"""
+        p_col = [c for c in df.columns if "P [" in c][0]
+        s_col = [c for c in df.columns if "S [" in c][0]
+        circ = 4 * np.pi * df[s_col] / (df[p_col] ** 2)
+        return {
+            "mean": float(circ.mean()),
+            "median": float(circ.median()),
+            "histogram": self._create_histogram(circ, num_bins)
+        }
+
+    def analyze(self, df: pd.DataFrame) -> List[Tuple[None, str]]:
+        """Анализирует DataFrame с частицами и возвращает результаты LLM"""
         self.lang = LanguageContext.get_language()
-        self.load_data(df)
+        
+        if df.empty:
+            return [(None, "No particles detected")]
+            
+        # Вычисляем статистику
+        stats = self._calculate_stats(df)
+        count_particles = len(df)
+        
         try:
-            prompt = self._build_prompt()
+            prompt = self._build_prompt(stats, count_particles)
             response = self._get_llm_response(prompt)
             return self._format_response(response)
         except Exception as e:
             print(f"LLM analysis failed: {str(e)}")
-            return [(None, None)]
+            return [(None, f"Analysis error: {str(e)}")]
 
-    def _build_prompt(self) -> str:
+    def _build_prompt(self, stats, count_particles) -> str:
         return f"""
-        Ты — эксперт в области материаловедения и сканирующей электронной микроскопии с 10 летним опытом.
-        Проведи интерпретацию изображения СЭМ на основе статистических данных о размерных характеристиках частиц.
-        В таблице представлены следующие характеристики:
-        - Геометрические параметры: площадь, периметр, эквивалентный диаметр, диаметр Ферета (min, max, mean)
-        - Морфологические параметры: эксцентриситет
-        - Ориентация: максимальный/минимальный угол диаметра Ферета
-        - Средняя интенсивность пикселей частиц
-        При анализе больше обращай внимание на среднее и медианное значение, а не на максимальное и минимальное значение, так туда могут попасть обрезанные частицы.
-
-        🔍 **Сфокусируйся на следующих аспектах:**
-        1. **Размерное распределение** — структура распределения, наличие преобладающих фракций, разброс (SD), соотношение Max/Min.
-        Обрати внимания что результаты могут быть представлены как в мкм так и в пикселях.
-        2. **Морфология** — эксцентриситет, округлость, вытянутость (Dₘₐₓ / Dₘᵢₙ)
-        3. **Ориентация частиц** — есть ли выраженное предпочтение в ориентации.
-
-        📋 **Полная таблица данных:**
-        Всего на изображении обнаружено {self.count_particles} частиц. Со следующими характеристиками:
-        {json.dumps(self.stats, indent=2)}
-
-        ✍️ **Сформулируй анализ в следующем формате:**
-
-        🔬 **Микроструктурный анализ**:
-        - Размер частиц: <анализ по D, SD, разброс, количество частиц>
-        - Форма: <анализ по e, аспектному отношению>
-        - Ориентация: <анализ распределения углов>
-
-        🧪 **Материаловедческие выводы**:
-        - <влияние морфологии и распределения на свойства материала, возможное происхождение>
-
-        💡 **Рекомендации**:
-        - <предложения по улучшению технологии, методы контроля качества, возможные причины аномалий>
-
-        Отвечай на следующем языке {self.lang}
+        Ты — ведущий эксперт в материаловедении и сканирующей электронной микроскопии (СЭМ) с 15-летним стажем. 
+        Твоя задача — подготовить развёрнутый экспертный отчёт по характеристикам {count_particles} частиц.
+
+        📌 **Контекст**:
+        - Данные представлены в агрегированном виде (средние значения, медианы, стандартные отклонения и др.).
+        - Размеры могут быть в микрометрах или пикселях.
+        - Возможны аномально низкие значения из-за обрезки частиц по краям изображения. 
+        - **Важно**: Крупные частицы считаются достоверными — **не упоминай влияние обрезки в их отношении**.
+        - Не пересказывай входные данные — **только интерпретируй**
+        - Опирайся на количественные показатели и сравнение между параметрами. Избегай общих фраз без числовой поддержки. Анализ должен быть научно обоснованным и лаконичным.
+
+        🔬 **Задачи анализа**:
+        1. **Распределение размеров** — тип, фракции, аномалии, полидисперсность  
+        2. **Морфология** — форма, вытянутость, однородность  
+        3. **Ориентация** — направленность
+        4. **Проблемные зоны** — участки с сомнительными измерениями
+
+        ✍️ **Формат отчёта (язык: {self.lang})** — без лишних отступов, используй маркированные списки и смайлики-иконки:
+        
+        🌡️ **Размерные характеристики**:
+        - **Размер**: <диаметр, диапазоны, преобладающие фракции>  
+        - **Тип распределения**: <нормальное / бимодальное / асимметричное>  
+        - **Аномалии**: <выбросы, артефакты, влияние обрезки>  
+        - **Полидисперсность**: <низкая / умеренная / высока
+
+        🔵 **Морфология**:
+        - **Преобладающая форма**: <основано на circularity, aspect_ratio, эксцентриситете e>  
+        - **Однородность**: <оценка схожести форм>  
+        - **Особенности**: <необычные формы, группы, дефекты>  
+
+        🧭 **Ориентация**:
+        - **Тип распределения углов**: <равномерное / направленное>  
+        - **Предпочтительные направления**: <если есть>  
+
+        ⚠️ **Проблемные зоны**:
+        - <опиши участки с сомнительными или недостоверными измерениями>  
+        
+        📊 Выводы:
+        - Используй числовые значения с точностью до 2 знаков после запятой  
+        - Выводы должны быть лаконичными и научно обоснованными  
+        - Рекомендации не требуются
+
+        📁 **Данные для анализа** (агрегированные показатели):
+        {json.dumps(stats, indent=2)}
         """
 
     def _get_llm_response(self, prompt: str):
-        """Отправка запроса в зависимости от провайдера"""
+        """Отправка запроса в LLM"""
         if self.provider == "openrouter":
             completion = self.client.chat.completions.create(
                 extra_headers={
@@ -126,12 +181,9 @@ def _get_llm_response(self, prompt: str):
             )
 
     def _format_response(self, response) -> List[Tuple[None, str]]:
-        """Форматирование ответа для обоих провайдеров"""
+        """Форматирование ответа LLM"""
         if self.provider == "openrouter":
             analysis = response.choices[0].message.content
         elif self.provider == "huggingface":
             analysis = response.choices[0].message.content
-        return [(None, analysis)]
-
-    def _get_translation(self, text):
-        return translations.get(self.lang, {}).get(text, text)
+        return [(None, analysis)]
@@ -613,16 +613,6 @@ def get_feret(contour, angles=np.arange(0, 180, 1)):
                 "№": round(particle_counter, round_value),
                 "centroid_x": round(centroid_x, round_value),
                 "centroid_y": round(centroid_y, round_value),
-                (
-                    self._get_translation("S [мкм²]")
-                    if scale_selector == self._get_translation("Instrument scale in µm")
-                    else self._get_translation("S [пикс²]")
-                ): round(area * scale_area, round_value),
-                (
-                    self._get_translation("P [мкм]")
-                    if scale_selector == self._get_translation("Instrument scale in µm")
-                    else self._get_translation("P [пикс]")
-                ): round(perimeter * scale_factor, round_value),
                 (
                     self._get_translation("D [мкм]")
                     if scale_selector == self._get_translation("Instrument scale in µm")
@@ -653,6 +643,16 @@ def get_feret(contour, angles=np.arange(0, 180, 1)):
                     if scale_selector == self._get_translation("Instrument scale in µm")
                     else self._get_translation("θₘᵢₙ [°]")
                 ): round(angle_min, round_value),
+                (
+                    self._get_translation("S [мкм²]")
+                    if scale_selector == self._get_translation("Instrument scale in µm")
+                    else self._get_translation("S [пикс²]")
+                ): round(area * scale_area, round_value),
+                (
+                    self._get_translation("P [мкм]")
+                    if scale_selector == self._get_translation("Instrument scale in µm")
+                    else self._get_translation("P [пикс]")
+                ): round(perimeter * scale_factor, round_value),
                 "e": round(eccentricity, round_value),
                 self._get_translation("I [ед.]"): round(mean_intensity, round_value),
             }