Common Crawl - ktoś crawluje całą sieć, abyś Ty nie musiał tego robić (zbiory danych za free)
Common Crawl to organizacja non-profit, która prowadzi projekt mający na celu stworzenie zarchiwizowanej wersji Internetu. Projekt ten gromadzi ogromne ilości danych, które są dostępne do analizy przez badaczy, programistów i wszystkich zainteresowanych. Regularnie przeprowadzane zbiory danych umożliwiają użytkownikom śledzenie zmian w sieci oraz analizę popularnych trendów. Można znaleźć dane dotyczące stron internetowych, ich treści oraz metadanych. Umożliwia to prowadzenie różnych badań dotyczących języka, interakcji internetowych oraz wpływu różnych mediów na społeczeństwo. Dzięki temu projektowi powstaje bogaty zbiór informacji, który staje się cennym źródłem wiedzy dla wielu dziedzin nauki i technologii.