Project - Common Crawl

Common Crawl

https://commoncrawl.org/

Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.

Over 250 billion pages spanning 17 years. Free and open corpus since 2007. Cited in over 10,000 research papers. 3–5 billion new pages added each month.

Organization Type:	Non-profit / charity / foundation
Status:	Active
Founded:	2007
Open Source:	Yes
Last Modified:	2026-07-12 00:00:00

Project Categories

Open knowledge
Civic data
Open internet
Research tools

Get email updates

Civic Tech Field Guide

Common Crawl

Project Categories

Get email updates

Helpful Links

Reach Out

Common Crawl

Project Categories

Get email updates

Helpful Links

Reach Out

A project of

With support from

Founding Organization

Technology partner