import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches

fig, axes = plt.subplots(1, 2, figsize=(13, 4))

# ── Diagram 1: Bag of Words ───────────────────────────────────────────────────
ax = axes[0]
ax.axis('off')
doc = "The rocket launched into space orbit"
words = doc.split()
word_counts = {w: words.count(w) for w in set(words)}
ax.text(0.5, 0.95, 'Bag of Words representation', ha='center', va='top',
        fontsize=12, fontweight='bold', transform=ax.transAxes)
ax.text(0.5, 0.82, f'Document: "{doc}"', ha='center', va='top',
        fontsize=10, style='italic', transform=ax.transAxes)
ax.text(0.5, 0.68, 'Word order ignored — only counts matter:', ha='center', va='top',
        fontsize=10, transform=ax.transAxes)
for k, (word, count) in enumerate(word_counts.items()):
    col = k % 3
    row = k // 3
    ax.text(0.1 + col*0.3, 0.5 - row*0.15, f'"{word}": {count}',
            ha='left', va='top', fontsize=11, transform=ax.transAxes,
            bbox=dict(boxstyle='round', facecolor='steelblue', alpha=0.2))

# ── Diagram 2: Naive Bayes as linear classifier ───────────────────────────────
ax = axes[1]
ax.axis('off')
ax.text(0.5, 0.95, 'Naive Bayes = Linear Classifier in word space', ha='center',
        va='top', fontsize=12, fontweight='bold', transform=ax.transAxes)
rows = [
    ('Word', 'θ_sports', 'θ_politics', 'weight'),
    ('goal',   '0.08',    '0.001',    '+high  (→ Sports)'),
    ('election','0.001',  '0.06',     '−high  (→ Politics)'),
    ('the',    '0.05',    '0.05',     '≈ 0    (neutral)'),
    ('score',  '0.04',    '0.002',    '+med   (→ Sports)'),
]
for i, row in enumerate(rows):
    bold = (i == 0)
    for j, val in enumerate(row):
        ax.text(0.05+j*0.23, 0.75-i*0.14, val, ha='left', va='top',
                fontsize=9 if not bold else 10,
                fontweight='bold' if bold else 'normal',
                transform=ax.transAxes,
                color='black' if not bold else 'navy')

plt.suptitle('Figure 1 — Multinomial Naive Bayes', fontsize=13, y=1.02)
plt.tight_layout(); plt.show()

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

categories = ['sci.space','rec.sport.hockey','talk.politics.guns','comp.graphics']
train_data = fetch_20newsgroups(subset='train', categories=categories,
                                 remove=('headers','footers','quotes'))
test_data  = fetch_20newsgroups(subset='test',  categories=categories,
                                 remove=('headers','footers','quotes'))

vectorizer = CountVectorizer(max_features=5000, stop_words='english', min_df=3)
X_train = vectorizer.fit_transform(train_data.data).toarray()
X_test  = vectorizer.transform(test_data.data).toarray()
y_train, y_test = train_data.target, test_data.target

print(f'Train: {X_train.shape[0]} docs, {X_train.shape[1]} features')
print(f'Test : {X_test.shape[0]} docs')
print(f'Classes: {categories}')
print(f'Class sizes (train): {np.bincount(y_train)}')

Train: 2323 docs, 5000 features
Test : 1546 docs
Classes: ['sci.space', 'rec.sport.hockey', 'talk.politics.guns', 'comp.graphics']
Class sizes (train): [584 600 593 546]

def train_naive_bayes(X, y, alpha=1.0):
    classes = np.unique(y)
    log_priors = np.log(np.array([(y==c).mean() for c in classes]))
    log_likelihoods = []
    for c in classes:
        counts = X[y==c].sum(axis=0) + alpha
        log_likelihoods.append(np.log(counts / counts.sum()))
    return np.array(log_likelihoods), log_priors

def predict_naive_bayes(X, log_likelihoods, log_priors):
    scores = X @ log_likelihoods.T + log_priors
    return np.argmax(scores, axis=1)

log_ll, log_prior = train_naive_bayes(X_train, y_train, alpha=1.0)
y_pred_train = predict_naive_bayes(X_train, log_ll, log_prior)
y_pred_test  = predict_naive_bayes(X_test,  log_ll, log_prior)

print(f'Train accuracy: {(y_pred_train == y_train).mean():.2%}')
print(f'Test  accuracy: {(y_pred_test  == y_test ).mean():.2%}')

Train accuracy: 91.82%
Test  accuracy: 88.36%

fig, ax = plt.subplots(figsize=(7, 6))
short_names = ['sci.space','hockey','politics','comp.graphics']
cm = confusion_matrix(y_test, y_pred_test)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=short_names, yticklabels=short_names,
            ax=ax, linewidths=0.5)
ax.set_title('Naive Bayes — Confusion Matrix (Test Set)', fontsize=12, fontweight='bold')
ax.set_ylabel('Actual'); ax.set_xlabel('Predicted')
plt.tight_layout(); plt.show()

per_class_acc = cm.diagonal() / cm.sum(axis=1)
for name, acc in zip(short_names, per_class_acc):
    print(f'  {name:20s}: {acc:.1%}')

  sci.space           : 90.7%
  hockey              : 90.5%
  politics            : 80.7%
  comp.graphics       : 91.8%

vocab = np.array(vectorizer.get_feature_names_out())
fig, axes = plt.subplots(2, 2, figsize=(14, 8))
for i, (ax, name) in enumerate(zip(axes.flatten(), categories)):
    weights = log_ll[i] - np.mean([log_ll[j] for j in range(4) if j!=i], axis=0)
    top_idx = np.argsort(weights)[-15:][::-1]
    colors = plt.cm.Blues(np.linspace(0.4, 0.9, 15))[::-1]
    ax.barh(range(15), weights[top_idx][::-1], color=colors[::-1], edgecolor='k', linewidth=0.4)
    ax.set_yticks(range(15))
    ax.set_yticklabels(vocab[top_idx][::-1], fontsize=9)
    ax.set_title(f'Top words: {name}', fontsize=10, fontweight='bold')
    ax.set_xlabel('Log-likelihood ratio vs other classes')
    ax.grid(True, linestyle='--', alpha=0.4, axis='x')
plt.suptitle('Most Discriminative Words per Class', fontsize=13, y=1.01)
plt.tight_layout(); plt.show()

Multinomial Naive Bayes¶

1. Introduction¶

2. The Math¶

Likelihood of a document¶

Maximum Likelihood Estimate¶

Classification via Bayes rule¶

Laplace Smoothing¶

3. Problem Class¶

4. Implementation¶

Dataset: 20 Newsgroups (4 categories)¶

4.1 Train Naive Bayes from Scratch¶

4.2 Confusion Matrix¶

4.3 Most Discriminative Words¶

5. Results¶

6. Limitations¶

Class	Test accuracy
sci.space	90.7%
rec.sport.hockey	90.5%
talk.politics.guns	80.7%
comp.graphics	91.8%
Overall	88.36%