如何用SSE4.2和AVX指令编译Tensorflow ?

这是运行脚本检查Tensorflow是否工作时收到的消息:

I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcublas.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcudnn.so.5 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcufft.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcurand.so.8.0 locally
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU computations.
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:910] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero

我注意到它提到了SSE4.2和AVX，

什么是SSE4.2和AVX? 这些SSE4.2和AVX如何提高Tensorflow任务的CPU计算。如何使用这两个库使Tensorflow编译?

当前回答

这是最简单的方法。只有一步。

它对速度有很大的影响。以我为例，每一步训练所花费的时间几乎减半。

请参考 tensorflow的自定义构建

2017-09-26 12:10:36

其他回答

我刚刚遇到了同样的问题，似乎Yaroslav Bulatov的建议不包括SSE4.2支持，添加——copt=-msse4.2就足够了。最后，我成功地用

bazel build -c opt --copt=-mavx --copt=-mavx2 --copt=-mfma --copt=-mfpmath=both --copt=-msse4.2 --config=cuda -k //tensorflow/tools/pip_package:build_pip_package

没有得到任何警告或错误。

对于任何系统来说，最好的选择可能是:

bazel build -c opt --copt=-march=native --copt=-mfpmath=both --config=cuda -k //tensorflow/tools/pip_package:build_pip_package

(更新:构建脚本可能会吃掉-march=native，可能是因为它包含一个=。)

-mfpmath=两者只适用于gcc，不适用于clang。-mfpmath=sse可能同样好，如果不是更好的话，它是x86-64的默认值。32位构建默认为-mfpmath=387，因此更改它将有助于32位。(但如果你想要高性能的数字运算，你应该构建64位二进制文件。)

我不确定TensorFlow默认的-O2或-O3是什么。gcc -O3支持完全优化，包括自动向量化，但有时会使代码变慢。

——copt for bazel build将一个选项直接传递给gcc编译C和c++文件(但不是链接，所以你需要一个不同的跨文件链接时间优化选项)

x86-64 gcc默认只使用SSE2或更老的SIMD指令，因此您可以在任何x86-64系统上运行二进制文件。(见https://gcc.gnu.org/onlinedocs/gcc/x86-Options.html)。这不是你想要的。您希望制作一个二进制文件，利用CPU可以运行的所有指令，因为您只在构建它的系统上运行这个二进制文件。

-march=native启用你的CPU支持的所有选项，因此它使-mavx512f -mavx2 -mavx -mfma -msse4.2冗余。(此外，-mavx2已经启用了-mavx和-msse4.2，所以Yaroslav的命令应该没问题)。此外，如果您使用的CPU不支持这些选项之一(如FMA)，则使用-mfma将生成带有非法指令错误的二进制文件。

TensorFlow的./configure默认启用-march=native，因此使用它应该避免需要手动指定编译器选项。

-march=native启用-mtune=native，因此它为你的CPU优化，比如AVX指令的哪个序列最适合未对齐的负载。

这些都适用于gcc、clang或ICC。(对于ICC，您可以使用-xHOST代替-march=native。)

2017-01-11 07:13:58

要隐藏这些警告，可以在实际代码之前执行此操作。

import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
import tensorflow as tf

2017-08-12 18:44:53

我编译了一个小型的Mac Bash脚本(很容易移植到Linux)来检索所有CPU特性，并应用其中的一些来构建TF。我在TF大师和使用有点经常(一对夫妇在一个月)。

https://gist.github.com/venik/9ba962c8b301b0e21f99884cbd35082f

2017-08-18 06:04:43

这是最简单的方法。只有一步。

它对速度有很大的影响。以我为例，每一步训练所花费的时间几乎减半。

请参考 tensorflow的自定义构建

2017-09-26 12:10:36

让我们首先解释一下为什么会看到这些警告。

很可能您没有从源代码安装TF，而是使用了pip install tensorflow之类的东西。这意味着您安装了预先构建的(由其他人)二进制文件，这些二进制文件没有针对您的体系结构进行优化。这些警告确切地告诉您:在您的体系结构上有一些可用的东西，但它将不会被使用，因为没有使用它编译二进制文件。这是来自文档的部分。

TensorFlow在启动时检查它是否已经被编译优化CPU可用。如果优化不是包括，TensorFlow将发出警告，例如AVX, AVX2和FMA 说明不包括在内。

好消息是，你很可能只是想学习/试验TF，这样一切都能正常工作，你不应该担心它

什么是SSE4.2和AVX?

维基百科对SSE4.2和AVX有很好的解释。要擅长机器学习，并不需要这些知识。你可以把它们想象成一组额外的指令，让计算机对一条指令使用多个数据点来执行自然并行化的操作(例如添加两个数组)。

SSE和AVX都是SIMD (Single instruction, multiple data，单指令多数据)抽象思想的实现

弗林分类学中的一类并行计算机。它描述了具有多个执行相同任务的处理元件的计算机同时对多个数据点进行操作。因此，这样的机器利用数据级的并行性，而不是并发性:有同时(并行)计算，但只有一个进程 (指令)在给定的时刻

这足以回答你的下一个问题。

这些SSE4.2和AVX如何提高TF任务的CPU计算

它们允许更有效地计算各种向量(矩阵/张量)操作。你可以在这些幻灯片中读到更多

如何使用这两个库使Tensorflow编译?

你需要有一个二进制文件来利用这些指令。最简单的方法是自己编译。正如Mike和Yaroslav所建议的，您可以使用以下bazel命令

Bazel build -copt——copt=-mavx——copt=-mavx2——copt=-mfma——copt=-mfpmath=both——copt=-msse4.2——config=cuda -k //tensorflow/tools/pip_package:build_pip_package

2017-04-22 06:04:07

如何用SSE4.2和AVX指令编译Tensorflow ?

推荐文章

最新文章

标签