Системный вызов perf_event_open
Linux с config = PERF_COUNT_HW_INSTRUCTIONS
perf
, вероятно, то, что хочет OP, как показано на https://stackoverflow.com/a/10114325/895245, но только для полноты , Я собираюсь показать, как это сделать изнутри программы C, если вы управляете исходным кодом.
Этот метод может позволить более точные измерения конкретной интересующей области в программе. Он также может получать отдельные счетчики попаданий / промахов в кеш для каждого уровня кеш-памяти. Этот системный вызов, вероятно, использует тот же бэкэнд, что и perf
.
Этот пример в основном совпадает с Быстрый способ подсчета количества инструкций, выполненных в программе на языке C, но с PERF_TYPE_HW_CACHE
. При выполнении:
man perf_event_open
вы можете видеть, что в этих примерах мы учитываем только:
- Кэш данных L1 (
PERF_COUNT_HW_CACHE_L1D
)
- читает (
PERF_COUNT_HW_CACHE_OP_READ
), а не записывает предварительную выборку
- промахи (
PERF_COUNT_HW_CACHE_RESULT_MISS
), а не попадания
perf_event_open.c
#define _GNU_SOURCE
#include <asm/unistd.h>
#include <linux/perf_event.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/ioctl.h>
#include <sys/types.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <inttypes.h>
static long
perf_event_open(struct perf_event_attr *hw_event, pid_t pid,
int cpu, int group_fd, unsigned long flags)
{
int ret;
ret = syscall(__NR_perf_event_open, hw_event, pid, cpu,
group_fd, flags);
return ret;
}
int
main(int argc, char **argv)
{
struct perf_event_attr pe;
long long count;
int fd;
char *chars, c;
uint64_t n;
if (argc > 1) {
n = strtoll(argv[1], NULL, 0);
} else {
n = 10000;
}
chars = malloc(n * sizeof(char));
memset(&pe, 0, sizeof(struct perf_event_attr));
pe.type = PERF_TYPE_HW_CACHE;
pe.size = sizeof(struct perf_event_attr);
pe.config = PERF_COUNT_HW_CACHE_L1D |
PERF_COUNT_HW_CACHE_OP_READ << 8 |
PERF_COUNT_HW_CACHE_RESULT_MISS << 16;
pe.disabled = 1;
pe.exclude_kernel = 1;
// Don't count hypervisor events.
pe.exclude_hv = 1;
fd = perf_event_open(&pe, 0, -1, -1, 0);
if (fd == -1) {
fprintf(stderr, "Error opening leader %llx\n", pe.config);
exit(EXIT_FAILURE);
}
/* Write the memory to ensure misses later. */
for (size_t i = 0; i < n; i++) {
chars[i] = 1;
}
ioctl(fd, PERF_EVENT_IOC_RESET, 0);
ioctl(fd, PERF_EVENT_IOC_ENABLE, 0);
/* Read from memory. */
for (size_t i = 0; i < n; i++) {
c = chars[i];
}
ioctl(fd, PERF_EVENT_IOC_DISABLE, 0);
read(fd, &count, sizeof(long long));
printf("%lld\n", count);
close(fd);
free(chars);
}
При этом я получаю линейно растущие результаты, например:
./main.out 100000
# 1565
./main.out 1000000
# 15632
./main.out 10000000
# 156641
Исходя из этого, мы можем оценить размер строки кэша: 100000/1565 ~ 63,9, что почти точно соответствует точному значению 64 согласно getconf LEVEL1_DCACHE_LINESIZE
на моем компьютере, так что я думаю, он работает.
person
Ciro Santilli 新疆再教育营六四事件ۍ
schedule
18.11.2020