(转载)行人检测源码源和数据源-百语文学网

本文转载自http://wisvision.cn/blog/

考虑到实际应用的实时性要求，源码主要是C/C++的。源码和数据集的网址，经过测试都可访问，并注明了这些网址最后更新的日期，供学习和研究进行参考。（欢迎补充更多的资源）

1 Source Code

1.1 INRIA ObjectDetection and Localization Toolkit

http://pascal.inrialpes.fr/soft/olt/

Dalal于2005年提出了基于HOG特征的行人检测方法，行人检测领域中的经典文章之一。HOG特征目前也被用在其他的目标检测与识别、图像检索和跟踪等领域中。

更新：2008

1.2 Real-time Pedestrian Detection.

http://cs.nju.edu.cn/wujx/projects/C4/C4.htm

Jianxin Wu实现的快速行人检测方法。

Real-Time Human Detection Using ContourCues：

http://c2inet.sce.ntu.edu.sg/Jianxin/paper/ICRA_final.pdf

更新：2012

1.3 霍夫变换实现的多目标检测

http://graphics.cs.msu.ru/en/science/research/machinelearning/hough

Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms

源码：C++

更新：2010

1.4 HIKSVM

http://ttic.uchicago.edu/~smaji/projects/fiksvm/

Classification Using Intersection KernelSVMs is efficient

HOG+LBP+HIKSVM, 行人检测的经典方法.

源码：C/C++

更新：2012

1.5 GroundHOG

http://www.mmp.rwth-aachen.de/projects/groundhog

GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011. CUDA版本的HOG+SVM,

源码：C/C++

更新：2011

1.6 doppia code

https://bitbucket.org/rodrigob/doppia

这是一个代码集合，包含如下：

Pedestrian detection at 100 frames per second, R. Benenson. CVPR, 2012. 实时的

Stixels estimation without depth mapcomputation

Fast stixels estimation for fast pedestriandetection

Seeking the strongest rigid detector

Ten years of pedestrian detection, whathave we learned?

Face detection without bells and whistles

源码：C/C++

更新：2015

1.7 Multiple camera pedestrian detection.

POM: Occupancy map estimation for peopledetection

http://cvlab.epfl.ch/software/pom/

Paper：Multi-CameraPeople Tracking with a Probabilistic Occupancy Map

源码：？

更新：2014

1.8 Pitor DollarDetector.

Piotr’s Computer Vision Matlab Toolbox

http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html

The toolbox is divided into 7 parts,arranged by directory:

channels Robust image features, includingHOG, for fast object detection.

classify Fast clustering, random ferns, RBFfunctions, PCA, etc.

detector Aggregate Channel Features (ACF)object detection code.

filters Routines for filtering images.

images Routines for manipulating anddisplaying images.

matlab General Matlab functions that shouldhave been a part of Matlab.

videos Routines for annotating anddisplaying videos.

源码：matlab

更新：2014

2 DataSets

2.1 MIT数据库

http://cbcl.mit.edu/software-datasets/PedestrianData.html

介绍：该数据库为较早公开的行人数据库，共924张行人图片（ppm格式，宽高为64×128），肩到脚的距离约80象素。该数据库只含正面和背面两个视角，无负样本，未区分训练集和测试集。Dalal等采用“HOG+SVM”，在该数据库上的检测准确率接近100%。

更新：2000

2.2 INRIA Person Dataset

http://pascal.inrialpes.fr/data/human/

介绍：该数据库是“HOG+SVM”的作者Dalal创建的，该数据库是目前使用最多的静态行人检测数据库，提供原始图片及相应的标注文件。训练集有正样本614张（包含2416个行人），负样本1218张；测试集有正样本288张（包含1126个行人），负样本453张。图片中人体大部分为站立姿势且高度大于100个象素，部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google，因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚，但可用OpenCV正常读取和显示。

更新：2005

2.3 Daimler行人数据库

http://www.gavrila.net/Research/Pedestrian_Detection/Daimler_Pedestrian_Benchmark_D/

该数据库采用车载摄像机获取，分为检测和分类两个数据集。检测数据集的训练样本集有正样本大小为18×36和48×96的图片各15560（3915×4）张，行人的最小高度为72个象素；负样本6744张（大小为640×480或360×288）。测试集为一段27分钟左右的视频（分辨率为640×480），共21790张图片，包含56492个行人。分类数据库有三个训练集和两个测试集，每个数据集有4800张行人图片，5000张非行人图片，大小均为18×36，另外还有3个辅助的非行人图片集，各1200张图片。

更新：2009？

2.4 Caltech PedestrianDetection

http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

该数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640×480，30帧/秒。标注了约250,000帧（约137分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10，其中set00~set05为训练集，set06~set10为测试集（标注信息尚未公开）。性能评估方法有以下三种：（1）用外部数据进行训练，在set06~set10进行测试；（2）6-fold交叉验证，选择其中的5个做训练，另外一个做测试，调整参数，最后给出训练集上的性能；（3）用set00~set05训练，set06~set10做测试。由于测试集的标注信息没有公开，需要提交给Pitor Dollar。结果提交方法为每30帧做一个测试，将结果保存在txt文档中（文件的命名方式为I00029.txt I00059.txt ……），每个txt文件中的每行表示检测到一个行人，格式为“[left, top,width, height, score]”。如果没有检测到任何行人，则txt文档为空。该数据库还提供了相应的Matlab工具包，包括视频标注信息的读取、画ROC（Receiver Operatingcharacteristic Curve）曲线图和非极大值抑制等工具。

更新：2014

2.5 TUD行人数据库

https://www.mpi-inf.mpg.de/departments/multi-cue-onboard-pedestrian-detection/

介绍：TUD行人数据库为评估运动信息在行人检测中的作用，提供图像对以便计算光流信息。训练集的正样本为1092对图像（图片大小为720×576，包含1776个行人）；负样本为192对非行人图像（手持摄像机85对，车载摄像机107对）；另外还提供26对车载摄像机拍摄的图像（包含183个行人）作为附加训练集。测试集有508对图像（图像对的时间间隔为1秒，分辨率为640×480），共有1326个行人。Andriluka等也构建了一个数据库用于验证他们提出的检测与跟踪相结合的行人检测技术。该数据集的训练集提供了行人的矩形框信息、分割掩膜及其各部位（脚、小腿、大腿、躯干和头部）的大小和位置信息。测试集为250张图片（包含311个完全可见的行人）用于测试检测器的性能，2个视频序列（TUD-Campus和TUD-Crossing）用于评估跟踪器的性能。

更新：2010

2.6 NICTA行人数据库

http://www.nicta.com.au/category/research/computer-vision/tools/automap-datasets/

该数据库是目前规模较大的静态图像行人数据库，25551张含单人的图片，5207张高分辨率非行人图片，数据库中已分好训练集和测试集，方便不同分类器的比较。Overett等用“RealBoost+Haar”评估训练样本的平移、旋转和宽高比等各种因素对分类性能的影响：（1）行人高度至少要大于40个象素；（2）在低分辨率下，对于Haar特征来说，增加样本宽度的性能好于增加样本高度的性能；（3）训练图片的大小要大于行人的实际大小，即背景信息有助于提高性能；（4）对训练样本进行平移提高检测性能，旋转对性能的提高影响不大。以上的结论对于构建行人数据库具有很好的指导意义。

更新：2008

2.7 ETHZ行人数据库

Robust Multi-Person Tracking from MobilePlatforms

https://data.vision.ee.ethz.ch/cvl/aess/dataset/

Ess等构建了基于双目视觉的行人数据库用于多人的行人检测与跟踪研究。该数据库采用一对车载的AVT Marlins F033C摄像头进行拍摄，分辨率为640×480，帧率13-14fps，给出标定信息和行人标注信息，深度信息采用置信度传播方法获取。

更新：2010

2.8 CVC行人数据库

http://www.cvc.uab.es/adas/site/?q=node/7

该数据库目前包含三个数据集（CVC-01、CVC-02和CVC-Virtual），主要用于车辆辅助驾驶中的行人检测研究。CVC-01[Geronimo,2007]有1000个行人样本，6175个非行人样本（来自于图片中公路区域中的非行人图片，不像有的行人数据库非行人样本为天空、沙滩和树木等自然图像）。CVC-02包含三个子数据集（CVC-02-CG、CVC-02-Classification和CVC-02-System），分别针对行人检测的三个不同任务：感兴趣区域的产生、分类和系统性能评估。图像的采集采用Bumblebee2立体彩色视觉系统，分辨率640×480，焦距6mm，对距离摄像头0~50m的行人进行标注，最小的行人图片为12×24。CVC-02-CG主要针对候选区域的产生，有100张彩色图像，包含深度和3D点信息；CVC-02-Classification主要针对行人分类，训练集有1016张正样本，7650张负样本，测试集分为基于切割窗口的分类（570张行人，7500张非行人）和整张图片的检测（250张包含行人的图片，共587个行人）；CVC-02-System主要用于系统的性能评估，包含15个视频序列（4364帧），7983个行人。CVC-Virtual是通过Half-Life 2图像引擎产生的虚拟行人数据集，共包含1678虚拟行人，2048个非行人图片用于测试。

更新：2015，目前已经更新到CVC-08了。

2.9 USC行人数据库

http://iris.usc.edu/Vision-Users/OldUsers/bowu/DatasetWebpage/dataset.html

该数据库包含三组数据集（USC-A、USC-B和USC-C），以XML格式提供标注信息。USC-A[Wu, 2005]的图片来自于网络，共205张图片，313个站立的行人，行人间不存在相互遮挡，拍摄角度为正面或者背面；USC-B的图片主要来自于CAVIAR视频库，包括各种视角的行人，行人之间有的相互遮挡，共54张图片，271个行人；USC-C有100张图片来自网络的图片，232个行人（多角度），行人之间无相互遮挡。

更新：2007

3 其他资料

1：Video：PedestrianDetection: The State of the Art

http://research.microsoft.com/apps/video/default.aspx?id=135046&r=1

A video talk byPitor Dollar. Pitor Dollar做了很多关于行人检测方法的研究，他们研究小组的CaltechPedestrian Dataset也很出名。

2：Statisticaland Structural Recognition of Human Actions. ECCV, 2010 Tutorial, by IvanLaptev and Greg Mori. （注：要用爬墙软件才能访问到）

3： HumanAction Recognition in realistic scenarios, 一份很好的硕士生毕业论文开题资料。

参考：http://hi.baidu.com/susongzhi/item/085983081b006311eafe38e7

参考：http://blog.csdn.net/dpstill/article/details/22420065

===============

大嘴只说最基础、最简单和最通俗易懂的，面向所有人而并非只针对图像专业人士(比如业内的产品经理、市场运营、项目工程人员、公司管理等非图像算法的朋友以及各行业对图像感兴趣的朋友都可以看懂)，走的是广度路线，这里只给您指出知识的一个方向和索引汇总，至于深度上，还请大家根据感兴趣的文章多搜集资料，大嘴也在不断学习中。

明确目的：广泛交友、并为大家提供彼此认识的平台，有机会一起项目合作、交流并解决问题，而并非文章内容本身。

===============

声明：

本微信公众号(本微博)所发表的内容均为非营利性，不用于任何商业用途。大嘴所发文章中的部分文字及大多数图片均来自互联网，如果您认为大嘴侵犯到了您的版权，请联系大嘴，大嘴会及时删除相关内容。

「大嘴说图像」内容涵盖计算机图像处理、模式识别、计算机视觉、智能交通、安防等领域的相关知识。其中，既有大嘴的原创，也有大嘴多年来收集和整理的资料。在创作、筛选文章的同时，大嘴也得以再一次巩固、沉淀上述知识。自娱自乐之外，如果能为您打开一扇了解计算机图像处理相关知识的大门，大嘴将不胜荣幸！对本公众号如有任何意见或建议，请直接发微信与大嘴联系。

欢迎关注同名微信公众号"大嘴说图像"，头像为微信二维码。

(1)我的新浪微博http://weibo.com/cvchina2dazuiimage

(2)新浪博客http://blog.sina.com.cn/cvchina2dazuiimage

(3)微信公众号“大嘴说图像”

希望和大家一起努力，并通过网络结识更多的业内朋友和图像爱好者。感谢您对大嘴的支持和信任！

大嘴手机号：13552236745

大嘴QQ：2091589652，QQ群：179042731（北京图像视觉技术交友），招募全国各地的业内爱好者以及志同道合的朋友中！本QQ群宗旨：图形学/图像处理/机器视觉/模式识别行业爱好者交流、交友及聚会。