Informazione

C'è un test di analisi statistica che posso eseguire che mi darà una stima della popolazione totale dai miei set di dati più piccoli?

C'è un test di analisi statistica che posso eseguire che mi darà una stima della popolazione totale dai miei set di dati più piccoli?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Facendo la mia tesi sulle tendenze a lungo termine nelle popolazioni di falene. Sto osservando le tendenze di specie specifiche. Esiste un metodo per ottenere una stima della popolazione totale da campioni più piccoli?


Suppongo che tu stia chiedendo come stimare la dimensione della popolazione in base al numero di individui che catturi. Sì, ci sono molti approcci a questo. La libreria R SPECIES-R offre una serie di metodi per calcolarlo. Sono descritti nel manoscritto SPECIES: An R Package for Species Richness Estimation. Alcuni dei metodi descritti sono:

  • Chao, A. (1984), Stima non parametrica del numero di classi in una popolazione, Scandinavian Journal of Statistics, 11, 265-270.
  • Norris, J. L. I. e Pollock, K. H. (1998), MLE non parametrico per modelli di abbondanza di specie Poisson che consentono l'eterogeneità tra le specie, le statistiche ambientali ed ecologiche, 5, 391-402.
  • Chao, A. e Bunge, J. (2002), Stima del numero di specie in un modello di abbondanza stocastico, biometria, 58, 531-539.

e molti altri.


Set di dati pubblici gratuiti per l'analisi

Ehi, i dati sono ovunque. Probabilmente lo sapevi ormai, dal momento che è un po' difficile trascurarlo quando è costantemente nelle notizie, un campo professionale in crescita e le competenze sui dati sono sempre più preziose in ogni mercato del lavoro. Tuttavia, i dati non sono solo per le grandi aziende e non è necessario raccogliere i propri dati per analizzarli. Ci sono tonnellate di set di dati pubblici là fuori!

Se stai cercando di imparare come analizzare i dati, creare visualizzazioni di dati o semplicemente migliorare le tue capacità di alfabetizzazione dei dati, i set di dati pubblici sono un punto di partenza perfetto. Ecco alcuni fantastici set di dati pubblici che puoi analizzare gratuitamente in questo momento. Se hai bisogno di aiuto per mettere in forma i tuoi risultati, abbiamo anche articoli sui blog di visualizzazione dei dati da seguire e i migliori esempi di visualizzazione dei dati per trarre ispirazione.


Quando usare un t-test?

Un t-test è uno dei più popolari test statistici per la posizione, vale a dire, si tratta del(i) valore(i) medio(i) della(e) popolazione(i). Esistono diversi tipi di t-test che è possibile eseguire:

Nella prossima sezione spieghiamo quando usare quale. Ricorda che a t-test può essere utilizzato solo per uno o due gruppi. Se devi confrontare tre (o più) medie, usa l'analisi della varianza (ANOVA) metodo.

Il t-test è un test parametrico, il che significa che i tuoi dati devono soddisfare alcuni presupposti:

Se il tuo campione non corrisponde a queste ipotesi, puoi ricorrere a alternative non parametriche, ad esempio il test U di Mann–Whitney, il test dei ranghi con segno di Wilcoxon o il test dei segni.


Gradi di libertà: test t a 1 campione

Ora immagina che non ti piacciono i cappelli. Ti interessa l'analisi dei dati.

Hai un set di dati con 10 valori. Se non stai stimando nulla, ogni valore può assumere qualsiasi numero, giusto? Ogni valore è completamente libero di variare.

Ma supponiamo di voler testare la media della popolazione con un campione di 10 valori, utilizzando un test t di 1 campione. Ora hai un vincolo: la stima della media. Che cos'è questo vincolo, esattamente? Per definizione della media, deve valere la seguente relazione: La somma di tutti i valori nei dati deve essere uguale n x significa, dove n è il numero di valori nel set di dati.

Quindi, se un set di dati ha 10 valori, la somma dei 10 valori dovere uguale alla media x 10. Se la media dei 10 valori è 3,5 (puoi scegliere qualsiasi numero), questo vincolo richiede che la somma dei 10 valori sia uguale a 10 x 3,5 = 35.

Con questo vincolo, il primo valore nel set di dati è libero di variare. Qualunque sia il valore, è ancora possibile che la somma di tutti e 10 i numeri abbia un valore di 35. Anche il secondo valore è libero di variare, perché qualunque sia il valore scelto, consente comunque la possibilità che la somma di tutti i valori è 35.

In effetti, i primi 9 valori potrebbero essere qualsiasi cosa, inclusi questi due esempi:

34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9

Ma per far sommare tutti e 10 i valori a 35 e avere una media di 3,5, il decimo valore non può variare. Deve essere un numero specifico:

34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> 10 TH valore dovere essere 61,3
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> 10 Valore TH dovere essere 30,5

Pertanto, hai 10 - 1 = 9 gradi di libertà. Non importa quale dimensione del campione utilizzi o quale valore medio utilizzi: l'ultimo valore nel campione non è libero di variare. Finisci con n - 1 grado di libertà, dove n è la dimensione del campione.

Un altro modo per dirlo è che il numero di gradi di libertà è uguale al numero di "osservazioni" meno il numero di relazioni richieste tra le osservazioni (ad esempio, il numero di stime dei parametri). Per un t-test a 1 campione, viene impiegato un grado di libertà per stimare la media e il restante n - 1 gradi di libertà stimano la variabilità.

Si noti che per piccole dimensioni del campione (n), che corrispondono a gradi di libertà più piccoli (n - 1 per il test t a 1 campione), la distribuzione t ha code più grosse. Questo perché la distribuzione t è stata appositamente progettata per fornire risultati di test più conservativi durante l'analisi di campioni piccoli (come nell'industria della birra). All'aumentare della dimensione del campione (n), aumenta il numero di gradi di libertà e la distribuzione t si avvicina a una distribuzione normale.


Tipi di analisi statistiche per gruppi indipendenti e dipendenti

Dopo aver scelto il tipo di campioni e condotto l'esperimento, è necessario utilizzare l'analisi statistica corretta. La tabella mostra coppie di analisi correlate per campioni indipendenti e dipendenti.


Diverse note sulla tavola.

Mentre le analisi per i gruppi dipendenti in genere si concentrano sui cambiamenti individuali, il test di McNemar rappresenta un'eccezione. Tale test confronta le proporzioni complessive di due gruppi dipendenti.

La regressione e l'ANOVA possono modellare campioni sia indipendenti che dipendenti. È solo questione di specificare il modello corretto.


Utilizzo dei punteggi Z per rilevare gli outlier

I punteggi Z possono quantificare l'inusualità di un'osservazione quando i dati seguono la distribuzione normale. I punteggi Z sono il numero di deviazioni standard al di sopra e al di sotto della media in cui ciascun valore scende. Ad esempio, uno Z-score di 2 indica che un'osservazione è due deviazioni standard al di sopra della media mentre uno Z-score di -2 significa che è due deviazioni standard al di sotto della media. Un punteggio Z pari a zero rappresenta un valore uguale alla media.

Per calcolare il punteggio Z per un'osservazione, prendi la misurazione grezza, sottrai la media e dividi per la deviazione standard. Matematicamente, la formula per quel processo è la seguente:

Più il punteggio Z di un'osservazione è lontano da zero, più è insolito. Un valore limite standard per trovare valori anomali sono i punteggi Z di +/- 3 o più da zero. La distribuzione di probabilità di seguito mostra la distribuzione dei punteggi Z in una distribuzione normale standard. I punteggi Z oltre +/- 3 sono così estremi che si riesce a malapena a vedere l'ombreggiatura sotto la curva.

In una popolazione che segue la distribuzione normale, i valori del punteggio Z più estremi di +/- 3 hanno una probabilità di 0,0027 (2 * 0,00135), che è circa 1 su 370 osservazioni. Tuttavia, se i tuoi dati non seguono la distribuzione normale, questo approccio potrebbe non essere accurato.

Z-score e il nostro set di dati di esempio

Nel nostro set di dati di esempio di seguito, visualizzo i valori nel set di dati di esempio insieme ai punteggi Z. Questo approccio identifica la stessa osservazione come un outlier.

Nota che i punteggi Z possono essere fuorvianti con piccoli set di dati perché il punteggio Z massimo è limitato a (n&meno1) / &radicale n.*

3.6 è proprio vicino al valore massimo per una dimensione del campione di 15. Dimensioni del campione di 10 o meno osservazioni non possono avere punteggi Z che superano un valore limite di +/-3.

Inoltre, tieni presente che la presenza del valore anomalo elimina i punteggi Z perché gonfia la media e la deviazione standard come abbiamo visto in precedenza. Nota come tutti i punteggi Z sono negativi tranne il valore del valore anomalo. Se calcolassimo i punteggi Z senza il valore anomalo, sarebbero diversi! Tieni presente che se il tuo set di dati contiene valori anomali, i valori Z sono distorti in modo tale da sembrare meno estremi (cioè più vicini allo zero).


C ONCLUSIONI

Prima di selezionare un test statistico, un ricercatore deve semplicemente rispondere alle seguenti sei domande, che porteranno alla scelta corretta del test.

Quante variabili indipendenti covariano (variano nello stesso periodo di tempo) con la variabile dipendente?

A quale livello di misurazione si trova la variabile indipendente?

Qual è il livello di misurazione della variabile dipendente?

Le osservazioni sono indipendenti o dipendenti?

I confronti riguardano popolazioni con popolazioni, un campione con una popolazione o vengono confrontati due o più campioni?


C'è un test di analisi statistica che posso eseguire che mi darà una stima della popolazione totale dai miei set di dati più piccoli? - Biologia

Il test vero e proprio inizia considerando due ipotesi. Si chiamano i null ipotesi e il ipotesi alternativa. Queste ipotesi contengono punti di vista opposti.

h0: L'ipotesi nulla: È un'affermazione sulla popolazione che si crede che sia vera o che viene utilizzata per sostenere un'argomentazione a meno che non si possa dimostrare che è errata oltre ogni ragionevole dubbio.

hun: L'ipotesi alternativa: È un'affermazione sulla popolazione che è contraddittoria con h0 e cosa concludiamo quando rifiutiamo h0.

Poiché le ipotesi nulle e alternative sono contraddittorie, è necessario esaminare le prove per decidere se si dispone di prove sufficienti per rifiutare o meno l'ipotesi nulla. Le prove sono sotto forma di dati campione.

Dopo aver determinato quale ipotesi supporta il campione, prendi una decisione. Ci sono due opzioni per a decisione. Sono “rifiuto h0” se le informazioni del campione favoriscono l'ipotesi alternativa o “non rifiutare h0” o “rifiuta di rifiutare h0” se le informazioni sul campione sono insufficienti per rifiutare l'ipotesi nulla.

h0 hun
uguale (=) non uguale (≠)
o maggiore di (>) o minore di (<)
maggiore o uguale a (≥) minore di (<)
minore o uguale a (≤) più di (>)

h0 ha sempre un simbolo con un uguale in esso. hun non ha mai un simbolo con un uguale in esso. La scelta del simbolo dipende dalla formulazione del test di ipotesi. Tuttavia, tieni presente che molti ricercatori (incluso uno dei coautori nel lavoro di ricerca) usano = nell'ipotesi nulla, anche con > o < come simbolo nell'ipotesi alternativa. Questa pratica è accettabile perché prendiamo solo la decisione di rifiutare o non rifiutare l'ipotesi nulla.

Esempio

h0: Non più del 30% degli elettori registrati nella contea di Santa Clara ha votato alle elezioni primarie. P ≤ 30

hun: Oltre il 30% degli elettori registrati nella contea di Santa Clara ha votato alle elezioni primarie. P > 30

Provalo

Viene condotta una sperimentazione medica per verificare se un nuovo medicinale riduce o meno il colesterolo del 25%. Enuncia le ipotesi nulle e alternative.

h0 : Il farmaco riduce il colesterolo del 25%. P = 0.25

hun : Il farmaco non riduce il colesterolo del 25%. P ≠ 0.25

Esempio

Vogliamo verificare se il GPA medio degli studenti nei college americani è diverso da 2.0 (su 4.0). Le ipotesi nulle e alternative sono:

Provalo

Vogliamo verificare se l'altezza media degli alunni di terza media è di 66 pollici. Enuncia le ipotesi nulle e alternative. Inserisci il simbolo corretto (=, ≠, ≥, <, ≤, >) per le ipotesi nulla e alternativa. h0: μ __ 66 hun:μ __ 66

Esempio

Vogliamo verificare se gli studenti universitari impiegano in media meno di cinque anni per laurearsi. Le ipotesi nulle e alternative sono:

Provalo

Vogliamo verificare se occorrono meno di 45 minuti per insegnare un programma di lezione. Enuncia le ipotesi nulle e alternative. Inserisci il simbolo corretto ( =, ≠, ≥, <, ≤, >) per l'ipotesi nulla e alternativa.
h0: μ __ 45 hun:μ __ 45

Esempio

In un numero di Notizie dagli Stati Uniti e rapporto mondiale, un articolo sugli standard scolastici affermava che circa la metà di tutti gli studenti in Francia, Germania e Israele sostiene esami di livello avanzato e un terzo passaggio. Lo stesso articolo affermava che il 6,6% degli studenti statunitensi sostiene esami di collocamento avanzato e il 4,4% lo supera. Verifica se la percentuale di studenti statunitensi che sostengono esami di livello avanzato è superiore al 6,6%. Enuncia le ipotesi nulle e alternative.

Provalo

Nel test di un conducente di stato, circa il 40% supera il test al primo tentativo. Vogliamo testare se più del 40% passa al primo tentativo. Inserisci il simbolo corretto (=, ≠, ≥, <, ≤, >) per le ipotesi nulla e alternativa.
h0: P __ 0.40 hun: P __ 0.40


Tipi di ANOVA

Dall'ANOVA unidirezionale di base alle variazioni per casi speciali, come l'ANOVA classificata per le variabili non categoriali, esistono diversi approcci all'utilizzo dell'ANOVA per l'analisi dei dati. Ecco un'introduzione ad alcuni dei più comuni.

Qual è la differenza tra i test ANOVA unidirezionali e bidirezionali?

Questo è definito da quante variabili indipendenti sono incluse nel test ANOVA. Unidirezionale significa che l'analisi della varianza ha una variabile indipendente. Bidirezionale significa che il test ha due variabili indipendenti. Un esempio di ciò potrebbe essere la variabile indipendente che è una marca di bevanda (a senso unico) o variabili indipendenti della marca della bevanda e quante calorie ha o se è originale o dietetica.

ANOVA . fattoriale

ANOVA fattoriale è un termine generico che copre i test ANOVA con due o più variabili categoriche indipendenti. (Un ANOVA a due vie è in realtà una sorta di ANOVA fattoriale.) Categorico significa che le variabili sono espresse in termini di categorie non gerarchiche (come Mountain Dew vs Dr Pepper) piuttosto che utilizzare una scala classificata o un valore numerico.

Test F di Welch ANOVA

Stats iQ raccomanda un test F di Welch non classificato se valgono diverse ipotesi sui dati:

  • La dimensione del campione è maggiore di 10 volte il numero di gruppi nel calcolo (sono esclusi i gruppi con un solo valore), e quindi il Teorema del Limite Centrale soddisfa il requisito per i dati normalmente distribuiti.
  • Ci sono pochi o nessun outlier nei dati continui/discreti.

A differenza del test F leggermente più comune per varianze uguali, il test F di Welch non presuppone che le varianze dei gruppi confrontati siano uguali. Assumere varianze uguali porta a risultati meno accurati quando le varianze non sono, di fatto, uguali, e i suoi risultati sono molto simili quando le varianze sono effettivamente uguali.

Classificato ANOVA

Quando le ipotesi vengono violate, l'ANOVA non classificata potrebbe non essere più valida. In tal caso, Stats iQ consiglia l'ANOVA classificata (chiamata anche "ANOVA on ranks") Stats iQ rank trasforma i dati (sostituisce i valori con il loro ordine di classificazione) e quindi esegue la stessa ANOVA su quei dati trasformati.

L'ANOVA classificato è robusto per valori anomali e dati non distribuiti normalmente. La trasformazione del rango è un metodo consolidato per la protezione dalla violazione delle ipotesi (un metodo "non parametrico") ed è più comunemente visto nella differenza tra la correlazione di Pearson e Spearman. La trasformazione del grado seguita dal test F di Welch è in effetti simile al test Kruskal-Wallis.

Si noti che le dimensioni dell'effetto ANOVA classificate e non classificate di Stats iQ (f di Cohen) vengono calcolate utilizzando il valore F del test F per varianze uguali.

Giochi-Howell Pairwise Test

Stats iQ esegue i test Games-Howell indipendentemente dall'esito del test ANOVA (come da Zimmerman, 2010). Stats iQ mostra i test a coppie di Games-Howell non classificati o classificati in base agli stessi criteri utilizzati per ANOVA classificata e non classificata, quindi se vedi "ANOVA classificata" nell'output avanzato, anche i test a coppie verranno classificati.

Il Games-Howell è essenzialmente un t-test per varianze disuguali che tiene conto della maggiore probabilità di trovare risultati statisticamente significativi per caso durante l'esecuzione di molti test a coppie. A differenza del b-test di Tukey leggermente più comune, il test di Games-Howell non presuppone che le varianze dei gruppi confrontati siano uguali. Assumere varianze uguali porta a risultati meno accurati quando le varianze non sono di fatto uguali e i suoi risultati sono molto simili quando le varianze sono effettivamente uguali (Howell, 2012).

Si noti che mentre il test a coppie non classificato verifica l'uguaglianza delle medie dei due gruppi, il test a coppie classificato non verifica esplicitamente le differenze tra le medie o le mediane dei gruppi. Piuttosto, verifica una tendenza generale di un gruppo ad avere valori più grandi dell'altro.

Inoltre, mentre Stats iQ non mostra i risultati dei test a coppie per nessun gruppo con meno di quattro valori, quei gruppi sono inclusi nel calcolo dei gradi di libertà per gli altri test a coppie.


T-test per campioni appaiati: definizione, formula ed esempio

UN campioni appaiati t-test viene utilizzato per confrontare le medie di due campioni quando ogni osservazione in un campione può essere abbinata a un'osservazione nell'altro campione.

Questo tutorial spiega quanto segue:

  • La motivazione per eseguire un t-test per campioni appaiati.
  • La formula per eseguire un t-test per campioni appaiati.
  • Le ipotesi che dovrebbero essere soddisfatte per eseguire un t-test per campioni appaiati.
  • Un esempio di come eseguire un t-test per campioni appaiati.

T-test per campioni appaiati: motivazione

Un t-test per campioni appaiati viene comunemente utilizzato in due scenari:

1. Viene eseguita una misurazione su un soggetto prima e dopo un trattamento – ad es. il salto verticale massimo dei giocatori di basket del college viene misurato prima e dopo aver partecipato a un programma di allenamento.

2. Viene eseguita una misurazione in due diverse condizioni – ad es. il tempo di risposta di un paziente viene misurato su due diversi farmaci.

In entrambi i casi siamo interessati a confrontare la misurazione media tra due gruppi in cui ogni osservazione in un campione può essere accoppiata con un'osservazione nell'altro campione.

T-test per campioni appaiati: Formula

Un t-test per campioni appaiati utilizza sempre la seguente ipotesi nulla:

L'ipotesi alternativa può essere a due code, a sinistra o a destra:

  • h1 (a due code): μ1 μ2 (le due medie della popolazione non sono uguali)
  • h1 (coda sinistra): μ1 < μ2 (la media della popolazione 1 è inferiore alla media della popolazione 2)
  • h1 (coda destra): μ1> μ2 (la media della popolazione 1 è maggiore della media della popolazione 2)

Usiamo la seguente formula per calcolare la statistica test t:

  • X differenza: media campionaria delle differenze
  • S: deviazione standard del campione delle differenze
  • n: dimensione del campione (cioè numero di coppie)

Se il valore p che corrisponde alla statistica del test t con (n-1) gradi di libertà è inferiore al livello di significatività scelto (le scelte comuni sono 0,10, 0,05 e 0,01), è possibile rifiutare l'ipotesi nulla.

T-test per campioni appaiati: ipotesi

Affinché i risultati di un test t per campioni appaiati siano validi, devono essere soddisfatte le seguenti ipotesi:

  • I partecipanti devono essere selezionati casualmente dalla popolazione.
  • Le differenze tra le coppie dovrebbero essere approssimativamente distribuite normalmente.
  • Non ci dovrebbero essere valori anomali estremi nelle differenze.

Accoppiato Campioni t-test : Esempio

Supponiamo di voler sapere se un determinato programma di allenamento è in grado di aumentare o meno il salto verticale massimo (in pollici) dei giocatori di basket del college.

Per testare questo, possiamo reclutare un semplice campione casuale di 20 giocatori di basket del college e misurare ciascuno dei loro salti verticali massimi. Quindi, potremmo fare in modo che ogni giocatore utilizzi il programma di allenamento per un mese e quindi misuri nuovamente il suo salto verticale massimo alla fine del mese.

Per determinare se il programma di allenamento ha effettivamente avuto un effetto sul salto verticale massimo, eseguiremo un test t per campioni appaiati a livello di significatività α = 0,05 utilizzando i seguenti passaggi:

Passaggio 1: calcolare i dati di riepilogo per le differenze.

  • X differenza: media campionaria delle differenze = -0.95
  • S: deviazione standard campionaria delle differenze = 1.317
  • n: dimensione del campione (cioè numero di coppie) = 20

Passaggio 2: definire le ipotesi.

Eseguiremo il t-test per campioni appaiati con le seguenti ipotesi:

  • h0: μ1 = μ2 (le due medie della popolazione sono uguali)
  • h1: μ1 μ2 (le due medie della popolazione non sono uguali)

Passaggio 3: calcola la statistica del test T.

t = x differenza / (Sdifferenza/√n) = -0.95 / (1.317/20) = -3.226

Passaggio 4: calcolare il valore p della statistica del test T.

Secondo il calcolatore da punteggio T a valore P, il valore p associato a t = -3,226 e gradi di libertà = n-1 = 20-1 = 19 è 0.00445.

Passaggio 5: trarre una conclusione.

Poiché questo p-value è inferiore al nostro livello di significatività α = 0,05, rifiutiamo l'ipotesi nulla. Abbiamo prove sufficienti per dire che il salto verticale massimo medio dei giocatori è diverso prima e dopo aver partecipato al programma di allenamento.

Nota: È inoltre possibile eseguire l'intero test t per campioni appaiati semplicemente utilizzando il calcolatore del t-test per campioni accoppiati.

Risorse addizionali

I seguenti tutorial spiegano come eseguire un t-test per campioni appaiati utilizzando diversi programmi statistici:


Trova set di dati pubblici gratuiti per il tuo progetto di data science

Il completamento del tuo primo progetto di data science è un'importante pietra miliare sulla strada per diventare un data scientist e aiuta sia a rafforzare le tue competenze sia a fornire qualcosa di cui discutere durante il processo di colloquio. È anche un processo intimidatorio. Il primo passo è trovare un set di dati di data science appropriato e interessante. Dovresti decidere quanto è grande e quanto disordinato un set di dati con cui vuoi lavorare mentre la pulizia dei dati è parte integrante della scienza dei dati, potresti voler iniziare con un set di dati pulito per il tuo primo progetto in modo da poterti concentrare sull'analisi piuttosto che su pulizia dei dati.

Sulla base degli insegnamenti del nostro corso di introduzione alla scienza dei dati e del percorso professionale di scienza dei dati, abbiamo selezionato set di dati di vario tipo e complessità che riteniamo funzionino bene per i primi progetti (alcuni di essi funzionano anche per i progetti di ricerca!). Questi set di dati coprono una varietà di fonti: dati demografici, dati economici, dati di testo e dati aziendali.

Ti sei mai chiesto cosa fa veramente un data scientist? Dai un'occhiata alla guida completa di Springboard alla scienza dei dati. Ti insegneremo tutto ciò che devi sapere per diventare un data scientist, da cosa studiare alle competenze essenziali, alla guida allo stipendio e altro ancora!

1. Dati del censimento degli Stati Uniti

L'U.S. Census Bureau pubblica risme di dati demografici a livello di stato, città e persino codice postale. È un fantastico set di dati per gli studenti interessati alla creazione di visualizzazioni di dati geografici ed è possibile accedervi dal sito Web del Census Bureau. In alternativa, è possibile accedere ai dati tramite un'API. Un modo conveniente per utilizzare quell'API è attraverso il coropletro. In generale, questi dati sono molto puliti, molto completi e sfumati e una buona scelta per i progetti di visualizzazione dei dati in quanto non richiedono la pulizia manuale.

2. Dati sui crimini dell'FBI

I dati sui crimini dell'FBI sono affascinanti e uno dei set di dati più interessanti di questa lista. Se sei interessato ad analizzare i dati delle serie temporali, puoi utilizzarli per tracciare i cambiamenti nei tassi di criminalità a livello nazionale in un periodo di 20 anni . In alternativa, puoi guardare i dati geograficamente .

3. Causa di morte del CDC

I Centri per il controllo e la prevenzione delle malattie mantengono un database sulle cause di morte. I dati possono essere segmentati in quasi tutti i modi immaginabili: età, razza, anno e così via. Poiché si tratta di un set di dati così grande, è utile per i progetti di elaborazione dati.

4. Qualità ospedaliera Medicare

I Centers for Medicare & Medicaid Services mantengono un database sulla qualità dell'assistenza in oltre 4.000 ospedali certificati Medicare negli Stati Uniti, fornendo interessanti confronti. Poiché questi dati saranno distribuiti su più file e potrebbero richiedere un po' di ricerca per comprendere appieno, questo potrebbe essere un buon progetto di pulizia dei dati.

5. SEER Incidenza del cancro

Il governo degli Stati Uniti dispone anche di dati sull'incidenza del cancro, ancora una volta segmentati per età, razza, sesso, anno e altri fattori. Proviene dal programma di sorveglianza, epidemiologia e risultati finali del National Cancer Institute. I dati risalgono al 1975 e hanno 18 database, quindi avrai molte opzioni per l'analisi.

6. Ufficio di statistica del lavoro

Molti importanti indicatori economici per gli Stati Uniti (come la disoccupazione e l'inflazione) possono essere trovati sul sito web del Bureau of Labor Statistics. La maggior parte dei dati può essere segmentata sia per tempo che per area geografica. Questo grande set di dati può essere utilizzato per progetti di elaborazione e visualizzazione dei dati.

7. Ufficio di analisi economica

Il Bureau of Economic Analysis dispone anche di dati economici nazionali e regionali, inclusi il prodotto interno lordo e i tassi di cambio. C'è una vasta gamma nei diversi gruppi di dati trovati qui: puoi sfogliare per luogo, conti economici e argomenti e questi gruppi sono organizzati in sottoinsiemi ancora più piccoli in tutto.

8. Dati economici del FMI

Per accedere alle statistiche finanziarie globali e ad altri dati, controlla il sito web del Fondo monetario internazionale. Ci sono alcuni set diversi qui, quindi puoi usarli per una vasta gamma di progetti come la visualizzazione o persino la pulizia.

9. Ritorni settimanali Dow Jones

La previsione dei prezzi delle azioni è una delle principali applicazioni dell'analisi dei dati e dell'apprendimento automatico. Un set di dati rilevante da esplorare sono i rendimenti settimanali dell'indice Dow Jones del Center for Machine Learning and Intelligent Systems dell'Università della California, Irvine. Questo è uno dei set creati appositamente per i progetti di machine learning.

10. Data.gov.uk

Il portale di dati ufficiale del governo britannico offre accesso a decine di migliaia di set di dati su argomenti come criminalità, istruzione, trasporti e salute. Poiché si tratta di un'origine dati aperta con milioni di voci, sarai in grado di esercitarti nella pulizia dei dati in diversi raggruppamenti.

11. Email Enron

Dopo il crollo di Enron, è stato rilasciato un set di dati gratuito di circa 500.000 e-mail con testo del messaggio e metadati. Il set di dati è ormai famoso e fornisce un eccellente terreno di prova per l'analisi correlata al testo. Puoi anche esplorare altri usi di ricerca di questo set di dati attraverso la pagina.

12. Google Books Ngram

Se sei interessato a dati veramente enormi, il set di dati del visualizzatore Ngram conta la frequenza di parole e frasi per anno su un numero enorme di fonti di testo. Il file risultante è di 2,2 TB! Anche se questo potrebbe essere difficile da usare per un progetto di visualizzazione, è un eccellente set di dati per la pulizia in quanto è sfumato e richiederà ulteriori ricerche.

13. UNICEF

Se i dati sulla vita dei bambini nel mondo sono interessanti, l'UNICEF è la fonte più credibile. I set di dati pubblici dell'organizzazione riguardano la nutrizione, l'immunizzazione e l'istruzione, tra gli altri, creando una grande risorsa per i progetti di visualizzazione.

14. Commenti su Reddit

Reddit ha rilasciato un dataset davvero interessante di ogni commento che sia mai stato fatto sul sito. È 8217 più di un terabyte di dati non compressi, quindi se vuoi che un set di dati più piccolo funzioni con Kaggle ha ospitato i commenti di maggio 2015 sul loro sito.

15. Wikipedia

Wikipedia fornisce istruzioni per scaricare il testo degli articoli in lingua inglese, oltre ad altri progetti della Wikimedia Foundation. Il download del database di Wikipedia è disponibile per il mirroring e l'uso personale e ha anche una propria applicazione open source che puoi utilizzare per scaricare l'intera Wikipedia sul tuo computer, lasciandoti opzioni illimitate per l'elaborazione e la pulizia dei progetti.

16. Club di prestito

Lending Club fornisce dati sulle richieste di prestito che ha rifiutato e sull'andamento dei prestiti che ha emesso. Il set di dati gratuito si presta sia a tecniche di categorizzazione (sarà un dato default del prestito) sia a regressioni (quanto verrà rimborsato su un dato prestito).

17. Walmart

Walmart ha rilasciato dati storici di vendita per 45 negozi situati in diverse regioni degli Stati Uniti. Ciò offre un enorme set di dati da leggere e analizzare e molte domande diverse da porre al riguardo, creando una solida risorsa per i progetti di elaborazione dei dati.

18. Airbnb

Inside Airbnb offre diversi set di dati relativi agli annunci Airbnb in dozzine di città in tutto il mondo. Questo set di dati, data la sua specificità per il settore dei viaggi, è ottimo per esercitare le tue abilità di visualizzazione.

19. Yelp

Yelp mantiene un set di dati gratuito da utilizzare per scopi personali, educativi e accademici. Include 6 milioni di recensioni su 189.000 aziende in 10 aree metropolitane. Gli studenti sono invitati a partecipare alla sfida del set di dati di Yelp, offrendoti alcune opzioni e un ulteriore incentivo per vari tipi di progetti di dati.

20. Dati di Google Trends

Google ha uno dei set di dati più interessanti da analizzare. Mentre utilizziamo "e-learning" in questo esempio, puoi esplorare diversi termini di ricerca e risalire fino al 2004. Tutto ciò che devi fare è scaricare il set di dati in un file CSV per analizzare i dati al di fuori di Google Trends pagina web. Puoi scaricare dati sui livelli di interesse per un determinato termine di ricerca, interesse per località, argomenti correlati, categorie, tipi di ricerca (video, immagini, ecc.) e altro! Google elenca anche una vasta raccolta di set di dati disponibili pubblicamente su Google Public Data Explorer. Assicurati di dare un'occhiata!

21. Organizzazione mondiale del commercio

Per gli studenti che desiderano apprendere attraverso l'analisi, l'Organizzazione mondiale del commercio offre molti set di dati disponibili per il download che offrono agli studenti informazioni sui flussi commerciali e sulle previsioni. Coloro che hanno un talento per le intuizioni aziendali apprezzeranno particolarmente questo set di dati, in quanto offre tonnellate di opportunità non solo per entrare nella scienza dei dati, ma anche per approfondire la comprensione del settore del trading.

22. Fondo monetario internazionale

Questo sito ha diversi set di dati Excel gratuiti per il download su diversi indicatori economici chiave. Dal Prodotto Interno Lordo (PIL) all'inflazione. Prendere i dati da più file e condensarli per chiarezza e schemi è un modo eccellente (e soddisfacente!) di esercitarsi nella pulizia dei dati.

23. Dati aperti dell'amministrazione delle informazioni sull'energia degli Stati Uniti

Questa fonte ha dati aperti e gratuiti disponibili nel file di massa, in Excel tramite il componente aggiuntivo, in Fogli Google tramite un componente aggiuntivo e tramite widget che incorporano visualizzazioni di dati interattive dei dati EIA su qualsiasi sito Web. Il sito Web rileva inoltre che i dati VIA sono disponibili in formati leggibili dalla macchina, il che lo rende un'ottima risorsa per i progetti di apprendimento automatico.

24. Set di dati immagine TensorFlow: CelebA

Per fare pratica con l'apprendimento automatico, avrai bisogno di un set di dati specializzato come TensorFlow. La libreria TensorFlow include tutti i tipi di strumenti, modelli e guide di apprendimento automatico insieme ai suoi set di dati. CelebA è estremamente grande, pubblicamente disponibile online e contiene oltre 200.000 immagini di celebrità.

25. Set di dati di testo TensorFlow

Un altro set di TensorFlow è C4: Common Crawl's Web Crawl Corpus . Disponibile in oltre 40 lingue, questo repository open source di dati di pagine Web copre sette anni di dati, costituendo un'eccellente risorsa per la pratica del set di dati di machine learning.

26. Il nostro mondo nei dati

Our World In Data è un interessante case study sugli open data. Non solo puoi trovare i set di dati pubblici sottostanti, ma le visualizzazioni sono già presentate per unire i dati. Il sito si occupa principalmente di confronti paese per paese su larga scala su importanti tendenze statistiche, dal tasso di alfabetizzazione al progresso economico.

27. Download di dati crittografici

Vuoi qualche informazione sull'emergere delle criptovalute? Cryptodatadownload offre set di dati pubblici gratuiti di scambi di criptovalute e dati storici che tengono traccia degli scambi e dei prezzi delle criptovalute. Usalo per fare analisi storiche o prova a mettere insieme i pezzi se riesci a prevedere la follia.

28. Dati Kaggle

I set di dati Kaggle sono un'aggregazione di set di dati inviati e curati dall'utente . It’s a bit like Reddit for datasets, with rich tooling to get started with different datasets, comment, and upvote functionality, as well as a view on which projects are already being worked on in Kaggle. A great all-around resource for a variety of open datasets across many domains.

29. Github Collection (Open Data)

GitHub is the central hub of open data and open-source code. With different open datasets that are hosted on GitHub itself (including data on every member of Congress from 1789 onwards and data on food inspections in Chicago), this collection lets you get familiar with Github and the vast amount of open data that resides on it.

30. Github (Awesome Public Data sets)

The Awesome collection of repositories on Github is a user-contributed collection of resources. In this case, the repository contains a variety of open data sources categorized across different domains. Use this resource to find different open datasets—and contribute back to it if you can.

31. Microsoft Azure Open Datasets

Microsoft Azure is the cloud solution provided by Microsoft: they have a variety of open public data sets that are connected to their Azure services. You can access featured datasets on everything from weather to satellite imagery.

32. Google BigQuery Datasets

Google BigQuery is Google’s cloud solution for processing large datasets in a SQL-like manner. You can have a preview of these very large public data sets with the subreddit Wiki dedicated to BigQuery with everything from very rich data from Wikipedia, to datasets dedicated to cancer genomics.

33. SafeGraph Data

SafeGraph is a popular source for all things location data. While their data is not free to everyone, academics can download the data for free for locations in the U.S., Canada, and the UK via the SafeGraph Shop.

This data is great for economists, social scientists, public health researchers, and anyone who is interested in knowing where a location is and how people move between these locations. It seems to be popular since SafeGraph data has been used in over 600 academic papers.

Is data science the right career for you?

Springboard offers a comprehensive data science bootcamp. You’ll work with a one-on-one mentor to learn about data science, data wrangling, machine learning, and Python—and finish it all off with a portfolio-worthy capstone project.

Not quite ready to dive into a data science bootcamp?

Springboard now offers a Data Science Prep Course, where you can learn the foundational coding and statistics skills needed to start your career in data science.


Guarda il video: Statisztikai becslés (Giugno 2022).