理解t-SNE算法原理并使用Python代码实现t分布随机邻域嵌入（t-SNE）算法

　　发布于2024-11-13　阅读（0）

扫一扫，手机访问

T分布随机邻域嵌入(t-SNE)算法原理及Python代码实现t-SNE算法

T分布随机邻域嵌入(t-SNE)，是一种用于可视化的无监督机器学习算法，使用非线性降维技术，根据数据点与特征的相似性，试图最小化高维和低维空间中这些条件概率(或相似性)之间的差异，以在低维空间中完美表示数据点。

因此，t-SNE擅长在二维或三维的低维空间中嵌入高维数据以进行可视化。需要注意的是，t-SNE使用重尾分布来计算低维空间中两点之间的相似度，而不是高斯分布，这有助于解决拥挤和优化问题。而且离群值不影响t-SNE。

t-SNE算法步骤

1.找出高维空间中相邻点之间的成对相似性。

2.根据高维空间中点的成对相似性，将高维空间中的每个点映射到低维映射。

3.使用基于Kullback-Leibler散度(KL散度)的梯度下降找到最小化条件概率分布之间的不匹配的低维数据表示。

4.使用Student-t分布计算低维空间中两点之间的相似度。

MNIST数据集上实现t-SNE的Python代码

导入模块

# Importing Necessary Modules.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler

读取数据

# Reading the data using pandas
df = pd.read_csv('mnist_train.csv')

# print first five rows of df
print(df.head(4))

# save the labels into a variable l.
l = df['label']

# Drop the label feature and store the pixel data in d.
d = df.drop("label", axis = 1)

数据预处理

# Data-preprocessing: Standardizing the data
from sklearn.preprocessing import StandardScaler

standardized_data = StandardScaler().fit_transform(data)
print(standardized_data.shape)

输出

# TSNE
# Picking the top 1000 points as TSNE
# takes a lot of time for 15K points
data_1000 = standardized_data[0:1000, :]
labels_1000 = labels[0:1000]

model = TSNE(n_components = 2, random_state = 0)
# configuring the parameters
# the number of components = 2
# default perplexity = 30
# default learning rate = 200
# default Maximum number of iterations
# for the optimization = 1000

tsne_data = model.fit_transform(data_1000)

# creating a new data frame which
# help us in plotting the result data
tsne_data = np.vstack((tsne_data.T, labels_1000)).T
tsne_df = pd.DataFrame(data = tsne_data,
columns =("Dim_1", "Dim_2", "label"))

# Plotting the result of tsne
sn.FacetGrid(tsne_df, hue ="label", size = 6).map(
plt.scatter, 'Dim_1', 'Dim_2').add_legend()

plt.show()

本文转载于：https://fuxi.163.com/database/445 如有侵犯，请联系admin@zhengruan.com删除

上一篇：用 PHP 开发知识问答网站中的用户积分排名和排行功能

下一篇：最佳实践：对PHP函数库进行单元测试

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

分享PyCharm插件安装技巧，助你事半功倍！

PyCharm是一款功能强大的Python集成开发环境，通过安装插件可以进一步提高开发效率和方便开发者的工作。本文将分享一些PyCharm插件安装的技巧，让你事半功倍，同时提供具体的代码示例来演示插件的使用方法。第一步：打开PyCharm，点击菜单栏中的“File”（文件），然后选择“Settings”（设置）。第二步：在Settings窗口中，点击左侧的“

15分钟前插件技巧 Pycharm 0
正版软件

介绍Golang编程语言中的度量单位转换功能

Golang编程语言中的单位转换功能介绍在Golang编程语言中，经常会遇到需要进行单位转换的情况，例如将温度从摄氏度转换为华氏度，将长度从米转换为英尺等。Golang提供了方便且灵活的方式来进行单位转换，使得处理这类需求变得简单和高效。1.温度单位转换packagemainimport("fmt")funcc

30分钟前 Golang 功能介绍单位转换 0
正版软件

简化PHP代码重复：设计模式的实用指南

工厂方法模式工厂方法模式定义了一个接口，用于创建产品对象，而将创建实际对象的逻辑委派给子类。这样做可以将产品类的创建分离，使其更易于扩展，而不破坏客户端代码。interfaceProduct{publicfunctionoperation();}classConcreteProductAimplementsProduct{publicfunctionoperation(){//...}}classConcreteProductBimplementsProduct{publicfunctionoperati

45分钟前 0
正版软件

探秘Java Iterator与 Iterable：解码迭代器和可迭代对象

在Java编程中，Iterator和Iterable接口是用于处理集合中元素的重要工具。Iterator接口提供了对集合元素进行迭代访问的方法，而Iterable接口则定义了集合的可迭代性，使集合中的元素可以通过Iterator访问。这两者的紧密配合，为我们提供了遍历集合元素的通用方法。Iterator接口Iterator接口定义了以下方法：booleanhasNext()：检查集合中是否还有元素。Enext()：返回集合中的下一个元素。voidremove()：移除当前元素。Iterable接口Iter

1小时前 17:15 Java iterable iterator 0
正版软件

Go语言中协程与线程的比较

Go语言是一门开源编程语言，它独特的特性之一就是支持协程（goroutine），CSP并发模型使得在Go中使用协程变得非常方便。相比之下，线程则是更传统的并发编程方式。在本文中，我们将探究Go语言协程与线程的差异，并通过具体的代码示例来加以说明。1.协程与线程的基本定义在编程中，协程是一种比线程更加轻量级的并发策略。在Go语言中，通过go关键字可以很方便地

1小时前 17:00 Go语言线程协程 0