Bootstrap

算法学习10——机器学习算法(2)

上一章对机器学习以及几个具体算法进行了介绍,但是机器学习的涵盖范围过于宽泛,因此本文是对上一章内容的补充,将介绍几种常见的机器学习算法,包括朴素贝叶斯、支持向量机、K-means聚类、随机森林和梯度提升树,并提供每种算法的Python代码示例。

1. 朴素贝叶斯(Naive Bayes)

朴素贝叶斯是一种基于贝叶斯定理的分类方法。它假设特征之间相互独立,从而简化计算过程。朴素贝叶斯常用于文本分类和垃圾邮件过滤等任务。

实现过程

  1. 计算每个类别的先验概率。
  2. 对于每个特征,计算其在各类别下的条件概率。
  3. 使用贝叶斯定理计算样本属于每个类别的后验概率。
  4. 选择后验概率最大的类别作为预测结果。

Python代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# 载入示例数据集
data = load_iris()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建朴素贝叶斯模型并拟合数据
model = GaussianNB()
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

2. 支持向量机(Support Vector Machine, SVM)

支持向量机是一种用于分类和回归的监督学习算法。它通过找到一个最佳的超平面来最大化不同类别之间的间隔,从而进行分类。

实现过程

  1. 选择一组特征和目标变量。
  2. 使用优化算法找到最大化间隔的超平面。
  3. 通过超平面将数据点分为不同类别。

Python代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 载入示例数据集
data = load_iris()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建支持向量机模型并拟合数据
model = SVC(kernel='linear')
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

3. K-means聚类(K-means Clustering)

K-means聚类是一种无监督学习算法,用于将数据集划分为k个簇。它通过迭代地更新簇中心和分配样本,使得样本到簇中心的距离最小。

实现过程

  1. 随机初始化k个簇中心。
  2. 分配每个样本到最近的簇中心。
  3. 重新计算簇中心。
  4. 重复步骤2和3,直到簇中心不再变化或达到最大迭代次数。

Python代码

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 载入示例数据集
data = load_iris()
X = data.data

# 创建K-means模型并拟合数据
model = KMeans(n_clusters=3, random_state=42)
model.fit(X)

# 获取簇标签和簇中心
labels = model.labels_
centers = model.cluster_centers_

# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centers[:, 0], centers[:, 1], c='red', marker='x')
plt.title('K-means Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

4. 随机森林(Random Forest)

随机森林是一种集成学习方法,通过构建多个决策树并结合它们的预测结果来提高模型的准确性和鲁棒性。随机森林常用于分类和回归任务。

实现过程

  1. 通过自助法(bootstrap)从训练集中随机采样,生成多个子集。
  2. 对每个子集训练一棵决策树。
  3. 集成所有决策树的预测结果,通过多数投票或平均得到最终结果。

Python代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 载入示例数据集
data = load_iris()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建随机森林模型并拟合数据
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

5. 梯度提升树(Gradient Boosting Trees)

梯度提升树是一种集成学习方法,通过逐步添加决策树来减少模型的误差。每棵树在前一棵树的基础上进行改进,使得模型性能逐渐提升。梯度提升树常用于分类和回归任务。

实现过程

  1. 初始化模型,通常为常数值。
  2. 计算模型的残差。
  3. 训练一棵新树来拟合残差。
  4. 更新模型,结合新树的预测结果。
  5. 重复步骤2-4,直到达到指定的树的数量或误差不再显著减少。

Python代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# 载入示例数据集
data = load_iris()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建梯度提升树模型并拟合数据
model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

结论

在如今大数据盛行的时代,机器学习算法愈发的受到人们的关注与学习。其通过机器对大量数据进行训练并寻找规律的方式,不仅大大节省了人们日常工作的时间,也能完成许多通过人工所无法完成的任务。因此机器学习可以说是在极大程度上实现了靠数据说话。 

;