Hadoop之mapreduce参数大全-3

本文介绍: 但需要注意，设置过小的值可能导致生成的切片数量过多，增加任务启动和管理的开销，而设置过大的值可能导致某些 Map 任务处理过大的数据块而效率降低。需要注意的是，标记和重置缓冲区大小的百分比的设置需要根据集群的硬件配置和实际的读取需求进行调整。需要注意的是，允许的最大运行中任务数的设置需要根据集群的硬件配置和实际的性能需求进行调整。需要注意的是，允许的最大任务数的设置需要根据集群的硬件配置和实际的性能需求进行调整。需要注意的是，允许的最小任务数的设置需要根据集群的硬件配置和实际的性能需求进行调整。

mapreduce.shuffle.max.connections是Hadoop MapReduce中的一个配置参数，用于指定Shuffle传输过程中可以同时连接的节点数。该参数用于控制Shuffle传输的并发度，以保障任务的稳定性和性能。

可以通过以下方式设置该参数的值：

<property>
    <name>mapreduce.shuffle.max.connections</name>
    <value>4096</value> <!-- 设置可以同时连接的节点数为4096 -->
</property>

需要注意的是，可以同时连接的节点数取决于集群的硬件配置和实际的传输需求。如果集群的硬件配置较高，可以适当增加可以同时连接的节点数以提高数据传输的并发度。如果集群的硬件配置较低，可以适当减小可以同时连接的节点数以避免过多的网络连接导致的性能问题。同时，还需要根据实际的传输需求进行调整，以达到最佳的传输性能。

mapreduce.shuffle.max.threads是Hadoop MapReduce中的一个配置参数，用于指定Shuffle传输过程中可以同时处理的线程数。该参数用于控制Shuffle传输的并发度，以保障任务的稳定性和性能。

可以通过以下方式设置该参数的值：

<property>
    <name>mapreduce.shuffle.max.threads</name>
    <value>1024</value> <!-- 设置可以同时处理的线程数为1024 -->
</property>

需要注意的是，可以同时处理的线程数取决于集群的硬件配置和实际的传输需求。如果集群的硬件配置较高，可以适当增加可以同时处理的线程数以提高数据传输的并发度。如果集群的硬件配置较低，可以适当减小可以同时处理的线程数以避免过多的线程导致的性能问题。同时，还需要根据实际的传输需求进行调整，以达到最佳的传输性能。

<property>
    <name>mapreduce.shuffle.transferTo.allowed</name>
    <value>true</value> <!-- 允许使用File#transferTo()方法进行Shuffle数据传输 -->
</property>

<property>
    <name>mapreduce.shuffle.transfer.buffer.size</name>
    <value>524288</value> <!-- 设置缓冲区大小为524288字节 -->
</property>

<property>
    <name>mapreduce.reduce.markreset.buffer.percent</name>
    <value>0.5</value> <!-- 设置标记和重置缓冲区大小的百分比为0.5 -->
</property>

<property>
    <name>mapreduce.map.speculative</name>
    <value>true</value> <!-- 启用 speculative execution功能 -->
</property>

<property>
    <name>mapreduce.reduce.speculative</name>
    <value>true</value> <!-- 启用 speculative execution功能 -->
</property>

<property>
    <name>mapreduce.job.speculative.speculative-cap-running-tasks</name>
    <value>2</value> <!-- 允许的最大运行中任务数为2 -->
</property>

<property>
    <name>mapreduce.job.speculative.speculative-cap-total-tasks</name>
    <value>4</value> <!-- 允许的最大任务数为4 -->
</property>

<property>
    <name>mapreduce.job.speculative.minimum-allowed-tasks</name>
    <value>1</value> <!-- 允许的最小任务数为1 -->
</property>

<property>
    <name>mapreduce.job.speculative.retry-after-no-speculate</name>
    <value>2</value> <!-- 重试次数为2次 -->
</property>

<property>
    <name>mapreduce.job.speculative.retry-after-speculate</name>
    <value>3</value> <!-- 重试次数为3次 -->
</property>

<property>
    <name>mapreduce.job.map.output.collector.class</name>
    <value>org.apache.hadoop.mapred.lib.IdentityMapOutputCollector</value> <!-- 设置为IdentityMapOutputCollector类 -->
</property>

<property>
    <name>mapreduce.job.speculative.slowtaskthreshold</name>
    <value>60000</value> <!-- 阈值为60000毫秒 -->
</property>

mapreduce.job.ubertask.enable是Hadoop MapReduce框架中的一个配置属性。该属性用于控制是否启用”ubertask”，ubertask是指将小规模的作业合并为一个单独的任务，以减少任务启动和执行的开销。

当mapreduce.job.ubertask.enable设置为true时，MapReduce框架将尝试将小型作业的Map和Reduce任务合并为一个单一的任务。这个任务会在本地运行，而不是在集群上启动独立的任务。这样，可以显著减少作业启动的开销，因为它无需为每个小任务启动独立的JVM（Java虚拟机）。

在Hadoop配置文件中，可以通过以下方式设置mapreduce.job.ubertask.enable：

<property>
  <name>mapreduce.job.ubertask.enable</name>
  <value>true</value> <!-- 或者 false，根据需要设置 -->
</property>

这样的配置可以在mapred-site.xml或mapred-default.xml等Hadoop配置文件中进行。当这个属性设置为true时，ubertask将被启用，否则将被禁用。

mapreduce.job.ubertask.maxmaps是Hadoop MapReduce框架中的一个配置属性，用于设置ubertask中最大的Map任务数。Ubertask是一种优化机制，它将小规模的Map和Reduce任务合并为一个单一的任务，以减少任务启动和执行的开销。

当mapreduce.job.ubertask.enable被设置为true时，可以使用mapreduce.job.ubertask.maxmaps来指定ubertask中最多允许的Map任务数。这个属性的值可以根据作业的性质和集群的配置进行调整。

在Hadoop配置文件中，可以通过以下方式设置mapreduce.job.ubertask.maxmaps：

<property>
  <name>mapreduce.job.ubertask.maxmaps</name>
  <value>4</value> <!-- 设置为期望的最大Map任务数 -->
</property>

mapreduce.job.ubertask.maxreduces是Hadoop MapReduce框架中的一个配置属性，用于设置ubertask中最大的Reduce任务数。Ubertask是一种优化机制，它将小规模的Map和Reduce任务合并为一个单一的任务，以减少任务启动和执行的开销。

当mapreduce.job.ubertask.enable被设置为true时，可以使用mapreduce.job.ubertask.maxreduces来指定ubertask中最多允许的Reduce任务数。这个属性的值可以根据作业的性质和集群的配置进行调整。

在Hadoop配置文件中，可以通过以下方式设置mapreduce.job.ubertask.maxreduces：

<property>
  <name>mapreduce.job.ubertask.maxreduces</name>
  <value>2</value> <!-- 设置为期望的最大Reduce任务数 -->
</property>

mapreduce.job.ubertask.maxbytes是Hadoop MapReduce框架中的一个配置属性，用于设置ubertask允许的最大字节数。Ubertask是一种优化机制，它将小规模的Map和Reduce任务合并为一个单一的任务，以减少任务启动和执行的开销。

当mapreduce.job.ubertask.enable被设置为true时，可以使用mapreduce.job.ubertask.maxbytes来指定ubertask允许的最大字节数。这个属性的值可以根据作业的性质和集群的配置进行调整。

在Hadoop配置文件中，可以通过以下方式设置mapreduce.job.ubertask.maxbytes：

<property>
  <name>mapreduce.job.ubertask.maxbytes</name>
  <value>5368709120</value> <!-- 设置为期望的最大字节数 -->
</property>

mapreduce.job.emit-timeline-data是Hadoop MapReduce框架中的一个配置属性，用于控制是否将作业的事件数据（timeline data）发送到Hadoop Timeline Service（ATS）。

当mapreduce.job.emit-timeline-data配置属性被设置为true时，MapReduce框架会将作业产生的事件数据发送到ATS。这些事件数据包括作业启动、作业完成、任务启动、任务完成等事件，用于记录作业的执行过程和性能信息。

在Hadoop配置文件中，可以通过以下方式设置mapreduce.job.emit-timeline-data：

<property>
  <name>mapreduce.job.emit-timeline-data</name>
  <value>true</value> <!-- 或者 false，根据需要设置 -->
</property>

需要注意的是，如果集群中未启用ATS服务，或者配置不正确，即使将mapreduce.job.emit-timeline-data设置为true，也无法成功发送事件数据。因此，在启用这个配置属性之前，确保ATS服务已正确配置和运行。

mapreduce.job.sharedcache.mode是Hadoop MapReduce框架中的一个配置属性，用于设置共享缓存（Shared Cache）的模式。共享缓存是Hadoop生态系统的一项功能，旨在提高任务的启动速度，减少资源冗余，以及更有效地利用集群资源。

以下是mapreduce.job.sharedcache.mode的可能值和解释：

在Hadoop配置文件中，可以通过以下方式设置mapreduce.job.sharedcache.mode：

<property>
  <name>mapreduce.job.sharedcache.mode</name>
  <value>distributed</value> <!-- 或者 centralized，根据需要设置 -->
</property>

mapreduce.input.fileinputformat.split.minsize是Hadoop MapReduce框架中的一个配置属性，用于设置FileInputFormat在生成输入切片（input split）时的最小切片大小。

在MapReduce作业中，输入文件被切分成多个切片，每个切片对应一个Map任务。mapreduce.input.fileinputformat.split.minsize属性用于控制这些切片的最小大小，以确保切片不会太小而导致任务数量过多，从而影响整个作业的性能。

在Hadoop配置文件中，可以通过以下方式设置mapreduce.input.fileinputformat.split.minsize：

<property>
  <name>mapreduce.input.fileinputformat.split.minsize</name>
  <value>134217728</value> <!-- 设置为期望的最小切片大小 -->
</property>

上述配置中，mapreduce.input.fileinputformat.split.minsize的值为134217728字节（128 MB），表示生成的输入切片的最小大小为128 MB。可以根据实际需求和输入文件的特性调整这个值。

调整mapreduce.input.fileinputformat.split.minsize的值可能对作业性能有影响。设置过小的值可能导致切片数量过多，增加任务启动和管理的开销；而设置过大的值可能导致切片太大，无法充分利用集群中的并行性。因此，建议根据实际场景进行调优。

72.设置 `FileInputFormat` 在获取文件列表状态（list status）时使用的线程数量

mapreduce.input.fileinputformat.list-status.num-threads 是 Hadoop MapReduce 框架中的一个配置属性，用于设置 FileInputFormat 在获取文件列表状态（list status）时使用的线程数量。

在 MapReduce 作业中，FileInputFormat 用于生成输入切片（input split）。获取文件列表状态是指获取输入目录中的文件列表，以便将文件划分为适当大小的输入切片。为了提高获取文件列表状态的效率，Hadoop 提供了多线程的机制。

在 Hadoop 配置文件中，可以通过以下方式设置 mapreduce.input.fileinputformat.list-status.num-threads：

<property>
  <name>mapreduce.input.fileinputformat.list-status.num-threads</name>
  <value>8</value> <!-- 设置为期望的线程数量 -->
</property>

上述配置中，mapreduce.input.fileinputformat.list-status.num-threads 的值为 8，表示在获取文件列表状态时将使用 8 个线程。可以根据集群的性能和实际需求来调整线程数量。

73.设置 `LineInputFormat` 在生成输入切片（input split）时的行数

mapreduce.input.lineinputformat.linespermap 是 Hadoop MapReduce 框架中的一个配置属性，用于设置 LineInputFormat 在生成输入切片（input split）时的行数。

在 MapReduce 作业中，LineInputFormat 用于处理文本文件，将文件按行拆分为输入切片。mapreduce.input.lineinputformat.linespermap 允许用户指定每个输入切片包含的行数，从而控制生成的 Map 任务的数量。

在 Hadoop 配置文件中，可以通过以下方式设置 mapreduce.input.lineinputformat.linespermap：

<property>
  <name>mapreduce.input.lineinputformat.linespermap</name>
  <value>1000</value> <!-- 设置为期望的每个输入切片的行数 -->
</property>

上述配置中，mapreduce.input.lineinputformat.linespermap 的值为 1000，表示每个输入切片将包含大约 1000 行。这样可以通过控制每个切片的大小来影响 Map 任务的数量，进而影响整个作业的性能。

调整 mapreduce.input.lineinputformat.linespermap 的值可以在某种程度上优化 MapReduce 作业的性能。设置合理的行数有助于平衡任务的并行性和输入数据的划分，从而提高作业的整体效率。但需要注意，设置过小的值可能导致生成的切片数量过多，增加任务启动和管理的开销，而设置过大的值可能导致某些 Map 任务处理过大的数据块而效率降低。因此，选择合适的行数需要根据实际场景进行调优。

mapreduce.client.submit.file.replication 是 Hadoop MapReduce 框架中的一个配置属性，用于设置客户端提交的 MapReduce 作业相关文件的副本数。

在 MapReduce 作业中，客户端提交的文件包括作业的 JAR 文件、配置文件等。mapreduce.client.submit.file.replication 属性允许用户指定这些文件的副本数。副本数影响文件的冗余度和数据的可靠性，以及文件在 Hadoop 分布式文件系统（如 HDFS）中的存储情况。

在 Hadoop 配置文件中，可以通过以下方式设置 mapreduce.client.submit.file.replication：

<property>
  <name>mapreduce.client.submit.file.replication</name>
  <value>3</value> <!-- 设置为期望的文件副本数 -->
</property>

上述配置中，mapreduce.client.submit.file.replication 的值为 3，表示客户端提交的文件将被存储为 HDFS 副本数为 3 的文件。这样可以提高文件的可靠性，因为在某个节点不可用时，仍然可以从其他节点获取文件。

mapreduce.task.files.preserve.failedtasks 是 Hadoop MapReduce 框架中的一个配置属性，用于控制在 MapReduce 作业中，当任务失败时是否保留该任务的输出文件。

在 MapReduce 作业中，当一个任务失败时，通常会重试该任务或者将失败的任务输出的临时文件删除。mapreduce.task.files.preserve.failedtasks 属性允许用户指定是否在任务失败时保留其输出文件。

在 Hadoop 配置文件中，可以通过以下方式设置 mapreduce.task.files.preserve.failedtasks：

<property>
  <name>mapreduce.task.files.preserve.failedtasks</name>
  <value>true</value> <!-- 或者 false，根据需要设置 -->
</property>

上述配置中，mapreduce.task.files.preserve.failedtasks 的值为 true，表示当任务失败时保留该任务的输出文件。如果设置为 false，则在任务失败时将删除该任务的输出文件。

保留失败任务的输出文件可能有助于调试任务失败的原因，但也会占用额外的存储空间。在实际应用中，可以根据需要进行设置。如果任务失败的原因容易通过日志等方式查找，可能可以将该属性设置为 false 以减少不必要的存储开销。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

性能需求设置需要

51.指定Shuffle传输过程中可以同时连接的节点数

52.指定Shuffle传输过程中可以同时处理的线程数

53.指定是否允许使用File#transferTo()方法进行Shuffle数据传输

54.指定Shuffle传输过程中使用的缓冲区大小

55.指定Reduce任务中读取数据时的标记和重置缓冲区大小的百分比

56.指定是否启用 map speculative execution（推测执行）功能

57.指定是否启用 reduce speculative execution（推测执行）功能

58.指定启用 speculative execution（推测执行）功能时,允许的最大运行中任务数

59.指定启用 speculative execution（推测执行）功能时，允许的最大任务数

60.指定启用 speculative execution（推测执行）功能时，允许的最小任务数

61.指定在启用 speculative execution（推测执行）功能时，如果没有进行推测执行的重试次数

62.指定在启用 speculative execution（推测执行）功能时，如果进行推测执行失败的重试次数

63.指定Map任务的输出收集器类

64.指定启用 speculative execution（推测执行）功能时，判断任务节点是否为慢节点的阈值

65.控制是否启用”ubertask”

66.设置ubertask中最大的Map任务数

67.设置ubertask中最大的Reduce任务数

68.设置ubertask允许的最大字节数

69.控制是否将作业的事件数据（timeline data）发送到Hadoop Timeline Service（ATS）

70.设置共享缓存（Shared Cache）的模式

71.设置FileInputFormat在生成输入切片（input split）时的最小切片大小

72.设置 `FileInputFormat` 在获取文件列表状态（list status）时使用的线程数量

73.设置 `LineInputFormat` 在生成输入切片（input split）时的行数

74.设置客户端提交的 MapReduce 作业相关文件的副本数

75.控制在 MapReduce 作业中，当任务失败时是否保留该任务的输出文件

发表回复取消回复

51.指定Shuffle传输过程中可以同时连接的节点数

52.指定Shuffle传输过程中可以同时处理的线程数

53.指定是否允许使用File#transferTo()方法进行Shuffle数据传输

54.指定Shuffle传输过程中使用的缓冲区大小

55.指定Reduce任务中读取数据时的标记和重置缓冲区大小的百分比

56.指定是否启用 map speculative execution（推测执行）功能

57.指定是否启用 reduce speculative execution（推测执行）功能

58.指定启用 speculative execution（推测执行）功能时,允许的最大运行中任务数

59.指定启用 speculative execution（推测执行）功能时，允许的最大任务数

60.指定启用 speculative execution（推测执行）功能时，允许的最小任务数

61.指定在启用 speculative execution（推测执行）功能时，如果没有进行推测执行的重试次数

62.指定在启用 speculative execution（推测执行）功能时，如果进行推测执行失败的重试次数

63.指定Map任务的输出收集器类

64.指定启用 speculative execution（推测执行）功能时，判断任务节点是否为慢节点的阈值

65.控制是否启用”ubertask”

66.设置ubertask中最大的Map任务数

67.设置ubertask中最大的Reduce任务数

68.设置ubertask允许的最大字节数

69.控制是否将作业的事件数据（timeline data）发送到Hadoop Timeline Service（ATS）

70.设置共享缓存（Shared Cache）的模式

71.设置FileInputFormat在生成输入切片（input split）时的最小切片大小

72.设置 FileInputFormat 在获取文件列表状态（list status）时使用的线程数量

73.设置 LineInputFormat 在生成输入切片（input split）时的行数

74.设置客户端提交的 MapReduce 作业相关文件的副本数

75.控制在 MapReduce 作业中，当任务失败时是否保留该任务的输出文件

相关文章

发表回复 取消回复

72.设置 `FileInputFormat` 在获取文件列表状态（list status）时使用的线程数量

73.设置 `LineInputFormat` 在生成输入切片（input split）时的行数

发表回复取消回复