从Udacity的深度学习课程中,y_i的softmax仅仅是指数除以整个Y向量的指数之和:

其中S(y_i)是y_i的软最大函数e是指数函数j是no。输入向量Y中的列。

我试过以下几种方法:

import numpy as np

def softmax(x):
    """Compute softmax values for each sets of scores in x."""
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum()

scores = [3.0, 1.0, 0.2]
print(softmax(scores))

返回:

[ 0.8360188   0.11314284  0.05083836]

但建议的解决方案是:

def softmax(x):
    """Compute softmax values for each sets of scores in x."""
    return np.exp(x) / np.sum(np.exp(x), axis=0)

它产生与第一个实现相同的输出,尽管第一个实现显式地取每列与Max的差值,然后除以和。

有人能用数学方法解释一下吗?一个是对的,另一个是错的?

实现在代码和时间复杂度方面是否相似?哪个更有效率?

给定一个一维下标数组:

a = array([1, 0, 3])

我想把它编码成一个2D数组:

b = array([[0,1,0,0], [1,0,0,0], [0,0,0,1]])

ANN(人工神经网络)和SVM(支持向量机)是监督机器学习和分类的两种流行策略。对于一个特定的项目,通常不清楚哪种方法更好,我确定答案总是“视情况而定”。通常,两者结合使用贝叶斯分类。

这些关于Stackoverflow的问题已经被问到关于ANN和SVM的问题:

神经网络与支持向量机分类

在我的分类问题中,ANN, SVM和KNN有什么区别

支持向量机或人工神经网络的文本处理?

在这个问题中,我想具体知道人工神经网络(特别是多层感知器)的哪些方面可能比支持向量机更可取?我问这个问题的原因是很容易回答相反的问题:支持向量机通常优于ann,因为它们避免了ann的两个主要弱点:

(1)人工神经网络通常收敛于局部极小值,而不是全局极小值,这意味着它们有时本质上“看不到大局”(或只见树不见林)。

(2)如果训练时间过长,人工神经网络通常会过拟合,这意味着对于任何给定的模式,人工神经网络可能会开始考虑噪声作为模式的一部分。

支持向量机不会遭受这两个问题中的任何一个。然而,目前还不清楚svm是否可以完全取代ann。那么,与支持向量机相比,人工神经网络有哪些特定的优势,可能使其适用于某些情况?我已经列出了支持向量机相对于人工神经网络的特定优势,现在我想看看人工神经网络的优势(如果有的话)。

在接下来的TensorFlow函数中,我们必须在最后一层中输入人工神经元的激活。我能理解。但我不明白为什么叫logits?这不是一个数学函数吗?

loss_function = tf.nn.softmax_cross_entropy_with_logits(
     logits = last_layer,
     labels = target_output
)

我一直在为一个投资组合管理工具开发一个内部网站。有很多文本数据,公司名称等。我对一些搜索引擎的能力印象深刻,它们可以非常快速地回答“你的意思是:xxxx”。

我需要能够智能地接受用户的查询,并不仅响应原始搜索结果,而且还响应“您的意思是?”当有一个极有可能的替代答案等

我正在开发ASP。NET (VB -别跟我过不去!)]

更新: 好吧,在没有数百万“付费用户”的情况下,我该如何模仿这种模式?

为每个“已知”或“正确”的术语生成拼写错误并执行查找? 还有其他更优雅的方法吗?

我一直在为一个投资组合管理工具开发一个内部网站。有很多文本数据,公司名称等。我对一些搜索引擎的能力印象深刻,它们可以非常快速地回答“你的意思是:xxxx”。

我需要能够智能地接受用户的查询,并不仅响应原始搜索结果,而且还响应“您的意思是?”当有一个极有可能的替代答案等

我正在开发ASP。NET (VB -别跟我过不去!)]

更新: 好吧,在没有数百万“付费用户”的情况下,我该如何模仿这种模式?

为每个“已知”或“正确”的术语生成拼写错误并执行查找? 还有其他更优雅的方法吗?

在tensorflow API文档中,他们使用了一个叫做logits的关键字。是什么?很多方法都是这样写的:

tf.nn.softmax(logits, name=None)

如果logits只是一个通用的张量输入,为什么它被命名为logits?


其次,以下两种方法有什么区别?

tf.nn.softmax(logits, name=None)
tf.nn.softmax_cross_entropy_with_logits(logits, labels, name=None)

我知道tf.nn.softmax做什么,但不知道其他的。举个例子会很有帮助。

我发现朴素贝叶斯的过程很难理解,我想知道是否有人能用英语解释一个简单的一步一步的过程。我知道它以发生次数为概率进行比较,但我不知道训练数据如何与实际数据集相关。

请给我解释一下训练集的作用。我在这里举一个非常简单的水果例子,比如香蕉

training set---
round-red
round-orange
oblong-yellow
round-red

dataset----
round-red
round-orange
round-red
round-orange
oblong-yellow
round-red
round-orange
oblong-yellow
oblong-yellow
round-red

可生成式和可生成式的区别是什么 有识别力的算法?