"""
模型比较器模块 - 用于比较不同猫叫声意图分类模型的性能

该模块提供了比较DAG-HMM、深度学习、SVM和随机森林等不同分类方法的功能，
帮助用户选择最适合其数据集的模型。
"""

import os
import numpy as np
import json
import matplotlib.pyplot as plt
from typing import Dict, Any, List, Optional, Tuple
import time
from datetime import datetime

from src.cat_intent_classifier_v2 import CatIntentClassifier
from src.dag_hmm_classifier import DAGHMMClassifier

class ModelComparator:
    """模型比较器类，用于比较不同猫叫声意图分类模型的性能"""
    
    def __init__(self, results_dir: str = "./comparison_results"):
        """
        初始化模型比较器
        
        参数:
            results_dir: 结果保存目录
        """
        self.results_dir = results_dir
        os.makedirs(results_dir, exist_ok=True)
        
        # 支持的模型类型
        self.model_types = {
            "dag_hmm": {
                "name": "DAG-HMM",
                "class": DAGHMMClassifier,
                "params": {"n_states": 5, "n_mix": 3}
            },
            "dl": {
                "name": "深度学习",
                "class": CatIntentClassifier,
                "params": {}
            }
        }
    
    def compare_models(self, features: List[np.ndarray], labels: List[str], 
                      model_types: List[str] = None, test_size: float = 0.2,
                      cat_name: Optional[str] = None) -> Dict[str, Any]:
        """
        比较不同模型的性能
        
        参数:
            features: 特征序列列表
            labels: 标签列表
            model_types: 要比较的模型类型列表，默认为所有支持的模型
            test_size: 测试集比例
            cat_name: 猫咪名称，默认为None（通用模型）
            
        返回:
            results: 比较结果
        """
        if model_types is None:
            model_types = list(self.model_types.keys())
        
        # 验证模型类型
        for model_type in model_types:
            if model_type not in self.model_types:
                raise ValueError(f"不支持的模型类型: {model_type}")
        
        # 划分训练集和测试集
        from sklearn.model_selection import train_test_split
        _, test_features, _, test_labels = train_test_split(
            features, labels, test_size=test_size, random_state=42, stratify=labels
        )
        train_features, train_labels = features, labels
        print(f"训练集大小: {len(train_features)}, 测试集大小: {len(test_features)}")
        
        # 比较结果
        results = {
            "models": {},
            "best_model": None,
            "comparison_time": datetime.now().isoformat(),
            "dataset_info": {
                "total_samples": len(features),
                "train_samples": len(train_features),
                "test_samples": len(test_features),
                "classes": sorted(list(set(labels))),
                "class_distribution": {label: labels.count(label) for label in set(labels)}
            }
        }
        
        # 训练和评估每个模型
        for model_type in model_types:
            model_info = self.model_types[model_type]
            model_name = model_info["name"]
            model_class = model_info["class"]
            model_params = model_info["params"]
            
            print(f"\n开始训练和评估 {model_name} 模型...")
            
            try:
                # 创建模型
                model = model_class(**model_params)
                
                # 记录训练开始时间
                train_start_time = time.time()
                
                # 训练模型
                train_metrics = model.train(train_features, train_labels)
                
                # 记录训练结束时间
                train_end_time = time.time()
                train_time = train_end_time - train_start_time
                
                # 记录评估开始时间
                eval_start_time = time.time()
                
                # 评估模型
                eval_metrics = model.evaluate(test_features, test_labels)
                
                # 记录评估结束时间
                eval_end_time = time.time()
                eval_time = eval_end_time - eval_start_time
                
                # 保存模型
                model_dir = os.path.join(self.results_dir, "models")
                os.makedirs(model_dir, exist_ok=True)
                model_paths = model.save_model(model_dir, cat_name)
                
                # 记录结果
                results["models"][model_type] = {
                    "name": model_name,
                    "train_metrics": train_metrics,
                    "eval_metrics": eval_metrics,
                    "train_time": train_time,
                    "eval_time": eval_time,
                    "model_paths": model_paths
                }
                
                print(f"{model_name} 模型训练完成，评估指标: {eval_metrics}")
                
            except Exception as e:
                print(f"{model_name} 模型训练或评估失败: {e}")
                results["models"][model_type] = {
                    "name": model_name,
                    "error": str(e)
                }
        
        # 确定最佳模型
        best_model = None
        best_accuracy = -1
        
        for model_type, model_result in results["models"].items():
            if "eval_metrics" in model_result and "accuracy" in model_result["eval_metrics"]:
                accuracy = model_result["eval_metrics"]["accuracy"]
                if accuracy > best_accuracy:
                    best_accuracy = accuracy
                    best_model = model_type
        
        results["best_model"] = best_model
        
        # 保存比较结果
        result_path = os.path.join(
            self.results_dir, 
            f"comparison_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json"
        )
        
        with open(result_path, 'w') as f:
            # 将numpy值转换为Python原生类型
            def convert_numpy(obj):
                if isinstance(obj, np.integer):
                    return int(obj)
                elif isinstance(obj, np.floating):
                    return float(obj)
                elif isinstance(obj, np.ndarray):
                    return obj.tolist()
                return obj
            
            json_results = {k: convert_numpy(v) for k, v in results.items()}
            json.dump(json_results, f, indent=2)
        
        print(f"\n比较结果已保存到: {result_path}")
        
        # 可视化比较结果
        self.visualize_comparison(results)
        
        return results
    
    def visualize_comparison(self, results: Dict[str, Any]) -> str:
        """
        可视化比较结果
        
        参数:
            results: 比较结果
            
        返回:
            plot_path: 图表保存路径
        """
        # 准备数据
        model_names = []
        accuracies = []
        precisions = []
        recalls = []
        f1_scores = []
        train_times = []
        
        for model_type, model_result in results["models"].items():
            if "eval_metrics" in model_result:
                model_names.append(model_result["name"])
                
                metrics = model_result["eval_metrics"]
                accuracies.append(metrics.get("accuracy", 0))
                precisions.append(metrics.get("precision", 0))
                recalls.append(metrics.get("recall", 0))
                f1_scores.append(metrics.get("f1", 0))
                
                train_times.append(model_result.get("train_time", 0))
        
        # 创建图表
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 7))
        
        # 性能指标图
        x = np.arange(len(model_names))
        width = 0.2
        
        ax1.bar(x - width*1.5, accuracies, width, label='准确率')
        ax1.bar(x - width/2, precisions, width, label='精确率')
        ax1.bar(x + width/2, recalls, width, label='召回率')
        ax1.bar(x + width*1.5, f1_scores, width, label='F1分数')
        
        ax1.set_ylabel('得分')
        ax1.set_title('模型性能比较')
        ax1.set_xticks(x)
        ax1.set_xticklabels(model_names)
        ax1.legend()
        ax1.set_ylim(0, 1.1)
        
        # 为每个柱子添加数值标签
        for i, v in enumerate(accuracies):
            ax1.text(i - width*1.5, v + 0.02, f'{v:.2f}', ha='center', va='bottom', fontsize=8)
        for i, v in enumerate(precisions):
            ax1.text(i - width/2, v + 0.02, f'{v:.2f}', ha='center', va='bottom', fontsize=8)
        for i, v in enumerate(recalls):
            ax1.text(i + width/2, v + 0.02, f'{v:.2f}', ha='center', va='bottom', fontsize=8)
        for i, v in enumerate(f1_scores):
            ax1.text(i + width*1.5, v + 0.02, f'{v:.2f}', ha='center', va='bottom', fontsize=8)
        
        # 训练时间图
        ax2.bar(model_names, train_times, color='skyblue')
        ax2.set_ylabel('时间 (秒)')
        ax2.set_title('模型训练时间比较')
        
        # 为每个柱子添加数值标签
        for i, v in enumerate(train_times):
            ax2.text(i, v + 0.1, f'{v:.1f}s', ha='center', va='bottom')
        
        # 标记最佳模型
        best_model = results.get("best_model")
        if best_model and best_model in results["models"]:
            best_model_name = results["models"][best_model]["name"]
            best_index = model_names.index(best_model_name)
            
            ax1.get_xticklabels()[best_index].set_color('red')
            ax1.get_xticklabels()[best_index].set_weight('bold')
            
            ax2.get_xticklabels()[best_index].set_color('red')
            ax2.get_xticklabels()[best_index].set_weight('bold')
        
        # 添加总标题
        plt.suptitle('猫叫声意图分类模型比较', fontsize=16)
        
        # 保存图表
        plot_path = os.path.join(
            self.results_dir, 
            f"comparison_plot_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
        )
        plt.tight_layout()
        plt.subplots_adjust(top=0.9)
        plt.savefig(plot_path, dpi=300)
        plt.close()
        
        print(f"比较图表已保存到: {plot_path}")
        
        return plot_path
    
    def load_best_model(self, comparison_result_path: str, cat_name: Optional[str] = None) -> Any:
        """
        加载比较结果中的最佳模型
        
        参数:
            comparison_result_path: 比较结果文件路径
            cat_name: 猫咪名称，默认为None（通用模型）
            
        返回:
            model: 加载的模型
        """
        # 加载比较结果
        with open(comparison_result_path, 'r') as f:
            results = json.load(f)
        
        # 获取最佳模型类型
        best_model_type = results.get("best_model")
        if not best_model_type:
            raise ValueError("比较结果中没有最佳模型")
        
        # 获取最佳模型信息
        best_model_info = results["models"].get(best_model_type)
        if not best_model_info or "model_paths" not in best_model_info:
            raise ValueError(f"无法获取最佳模型 {best_model_type} 的路径信息")
        
        # 获取模型类
        model_class = self.model_types[best_model_type]["class"]
        model_params = self.model_types[best_model_type]["params"]
        
        # 创建模型
        model = model_class(**model_params)
        
        # 确定模型目录
        model_dir = os.path.dirname(best_model_info["model_paths"]["model"])
        
        # 加载模型
        model.load_model(model_dir, cat_name)
        
        return model


# 示例用法
if __name__ == "__main__":
    # 创建一些模拟数据
    np.random.seed(42)
    n_samples = 50
    n_features = 1024
    n_timesteps = 10
    
    # 生成特征序列
    features = []
    labels = []
    
    for i in range(n_samples):
        # 生成一个随机特征序列
        feature = np.random.randn(n_timesteps, n_features)
        features.append(feature)
        
        # 生成标签
        if i < n_samples / 3:
            labels.append("快乐")
        elif i < 2 * n_samples / 3:
            labels.append("愤怒")
        else:
            labels.append("饥饿")
    
    # 创建比较器
    comparator = ModelComparator()
    
    # 比较模型
    results = comparator.compare_models(features, labels)
    
    # 加载最佳模型
    best_model = comparator.load_best_model(
        os.path.join(comparator.results_dir, 
                    f"comparison_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json")
    )
    
    # 使用最佳模型进行预测
    prediction = best_model.predict(features[0])
    print(f"最佳模型预测结果: {prediction}")