malware_dtc

Typer | Posted on 2025-07-05 | No Comments |
import pandas as pd
import numpy as np
from sklearn import *
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

# Load the dataset
malware_dataset = pd.read_csv('/.../MalwareArtifacts.csv')

samples = malware_dataset.iloc[:, [0, 4]].values
targets = malware_dataset.iloc[:, 8].values

from sklearn.model_selection import train_test_split

training_samples, testing_samples, training_targets, testing_targets = train_test_split(samples, targets, test_size=0.2, random_state=0)

from sklearn import tree

tree_classifier = tree.DecisionTreeClassifier()
tree_classifier.fit(training_samples, training_targets)

predictions = tree_classifier.predict(testing_samples)
tree_accuracy = accuracy_score(testing_targets, predictions)

from sklearn import ensemble

rfc = ensemble.RandomForestClassifier(n_estimators=50)
rfc.fit(training_samples, training_targets)

rfc_accuracy = rfc.score(testing_samples, testing_targets)

models = ['Decision Tree', 'Random Forest']
accuracies = [tree_accuracy, rfc_accuracy]

plt.figure(figsize=(8, 6))
plt.bar(models, accuracies, color=['blue', 'green'])
plt.xlabel('Models')
plt.ylabel('Accuracy (%)')
plt.title('Malware Classifier Model Comparison')

print("Decision Tree accuracy:", tree_accuracy)
print("Random Forest accuracy:", rfc_accuracy)