[33][Zbiory danych] – Porady Wujka Barnaby

Zestawy danych to ustrukturyzowane pliki danych w dowolnym formacie, gromadzone wraz z dokumentacją wyjaśniającą ich produkcję lub wykorzystanie

PYTANIA:

Publicznie dostępne zestawy danych

Jednym z najczęstszych problemów w nauce o danych jest zbieranie danych z różnych źródeł w jakoś oczyszczonym (częściowo ustrukturyzowanym) formacie i łączenie wskaźników z różnych źródeł w celu przeprowadzenia analizy wyższego poziomu. Patrząc na wysiłki innych ludzi, wydaje się, że wiele osób w tej dziedzinie wykonuje nieco powtarzalną pracę. Na przykład analiza tweetów, postów na Facebooku, artykułów w Wikipedii itp. jest częścią wielu problemów z dużymi danymi. Niektóre z tych zestawów danych są dostępne przy użyciu publicznych interfejsów API udostępnianych przez witrynę dostawcy, ale zwykle brakuje niektórych cennych informacji lub wskaźników w tych interfejsach API i każdy musi ponownie wykonywać te same analizy. Na przykład, chociaż użytkownicy korzystający z klastrów mogą zależeć od różnych przypadków użycia i wybranych funkcji, to jednak bazowe grupowanie użytkowników Twittera / Facebooka może być przydatne w wielu aplikacjach Big Data, które nie są udostępniane przez interfejs API ani dostępne publicznie w niezależnych danych zestawy. Czy istnieje jakaś strona z indeksem lub publicznie dostępnym zestawem danych zawierającym cenne zestawy danych, które można ponownie wykorzystać w rozwiązywaniu innych problemów z dużymi danymi? Mam na myśli coś takiego jak GitHub (lub grupa witryn / publicznych zestawów danych lub przynajmniej obszerna lista) dla nauki danych. Jeśli nie, jakie są powody braku takiej platformy do nauki danych? Wartość handlowa danych, musisz często aktualizować zestawy danych…? Czy nie możemy opracować modelu open source do udostępniania zbiorów danych dla naukowców zajmujących się danymi?

ODPOWIEDZI:

W rzeczywistości istnieje bardzo rozsądna lista publicznie dostępnych zestawów danych, obsługiwanych przez różne przedsiębiorstwa / źródła. Tutaj jest kilka z nich:

* Publiczne zestawy danych w Amazon WebServices

* Repozytorium częstych wdrożeń zestawów wydobywczych;

* Repozytorium uczenia maszynowego UCI;

* KDnuggets – duża lista wielu publicznych repozytoriów.

Teraz dwie kwestie dotyczące twojego pytania. Pierwszy dotyczy zasad udostępniania baz danych. Z własnego doświadczenia wynika, że istnieją pewne bazy danych, których nie można udostępnić publicznie, zarówno w celu ograniczenia prywatności (jak w przypadku niektórych informacji z sieci społecznościowych), jak i dotyczących informacji rządowych (takich jak bazy danych systemu opieki zdrowotnej). Kolejna kwestia dotyczy użycia / zastosowania zestawu danych. Chociaż niektóre bazy danych mogą być przetwarzane ponownie w celu dostosowania do potrzeb aplikacji, byłoby dobrze, gdybyś miał jakąś fajną organizację zbiorów danych według celu. Taksonomia powinna obejmować wykres społeczny , analizę, eksplorację zestawów przedmiotów, klasyfikacja i wiele innych obszarów badań.

Kaggle.com, dom miłośników nowoczesnej nauki i uczenia maszynowego :), otworzył własne repozytorium zbiorów danych.

Istnieje wiele otwartych zestawów danych, jednym z nich często jest przeoczony data.gov. Jak wspomniano wcześniej, Freebase jest świetny

Publicznie dostępne zestawy danych / interfejsy API sieci społecznościowych

Jako rozszerzenie naszej wspaniałej listy publicznie dostępnych zestawów danych chciałbym wiedzieć, czy istnieje jakaś lista publicznie dostępnych interfejsów API indeksowania / indeksowania sieci społecznościowych. Byłoby bardzo miło, gdyby wraz z linkiem do zestawu danych / API dodano charakterystykę dostępnych danych. Takimi informacjami powinny być między innymi: nazwa sieci społecznościowej; jaki rodzaj informacji użytkownika dostarcza (posty, profil, sieć przyjaźni,…); czy pozwala na indeksowanie treści za pośrednictwem interfejsu API (i szybkość: 10 / min, 1k / miesiąc,…); czy po prostu zapewnia migawkę całego zestawu danych. Wszelkie sugestie i dalsze cechy, które należy dodać, są bardzo mile widziane.

Kilka słów o interfejsach API sieci społecznościowych. Około rok temu napisałem recenzję interfejsów API popularnych sieci społecznościowych dla badaczy. Niestety jest po rosyjsku. Oto podsumowanie:

Twitter (https://dev.twitter.com/docs/api/1.1)

* prawie wszystkie dane o tweetach / tekstach i użytkownikach są dostępne;

* brak danych socjodemograficznych;

* świetny streaming API: przydatny do przetwarzania tekstu w czasie rzeczywistym;

* wiele opakowań dla języków programowania;

* uzyskanie struktury sieci (połączeń) jest możliwe, ale czasochłonne (1 żądanie na 1 minutę).

Facebook (https://developers.facebook.com/docs/reference/api/)

* limity stawek: około 1 żądanie na sekundę;

* dobrze udokumentowany, obecny piaskownica;

* FQL (podobny do SQL) i graficzny interfejs API „regularny odpoczynek”;

* obecne dane o przyjaźni i cechy socjodemograficzne;

* wiele danych jest poza horyzontem zdarzeń: tylko dane znajomych i znajomych znajomych są mniej lub bardziej kompletne, prawie nic nie można było zbadać na temat losowego użytkownika;

* kilka dziwnych błędów API i wygląda na to, że nikt się tym nie przejmuje (np. niektóre funkcje dostępne przez FQL, ale nie przez synonim Graph API).

Instagram (http://instagram.com/developer/)

* limity stawek: 5000 wniosków na godzinę;

* API w czasie rzeczywistym (jak Streaming API dla Twittera, ale ze zdjęciami) – połączenie z nim jest trochę trudne: używane są połączenia zwrotne;

* brak danych socjodemograficznych;

* zdjęcia, dostępne filtry danych;

* nieoczekiwane niedoskonałości (np. możliwe jest zebranie tylko 150 komentarzy do postu / zdjęcia).

Foursquare (https://developer.foursquare.com/overview/)

* limity stawek: 5000 wniosków na godzinę;

* królestwo danych geoprzestrzennych 🙂

* dość zamknięte z powodu problemów związanych z prywatnością. Aby zebrać dane do zameldowania, należy zbudować złożony parser współpracujący z interfejsami API 4sq, bit.ly i twitter;

* ponownie: brak danych socjodemograficznych.

Google+ (https://developers.google.com/+/api/latest/) około 5 żądań na sekundę (spróbuj zweryfikować); główne metody: działania i ludzie;

* podobnie jak na Facebooku, wiele danych osobowych przypadkowego użytkownika jest ukrytych;

* brak danych połączeń użytkownika.

I poza konkursem: sprawdziłem sieci społecznościowe dla rosyjskich czytelników, a sieć nr 1 tutaj to vk.com. Jest przetłumaczony na wiele języków, ale popularny tylko w Rosji i innych krajach WNP. Link do dokumentacji API: http://vk.com/dev/. I z mojego punktu widzenia jest to

najlepszy wybór do badań domowych mediów społecznościowych. Przynajmniej w Rosji. Dlatego:

* limity stawek: 3 wnioski na sekundę;

* dostępne publiczne dane tekstowe i medialne;

* dostępne dane socjodemograficzne: dla losowego poziomu dostępności użytkownika wynosi około 60-70%;

* dostępne są również połączenia między użytkownikami: dostępne są prawie wszystkie dane o przyjaźni dla przypadkowego użytkownika;

* niektóre specjalne metody: np. istnieje metoda uzyskania statusu online / offline dla konkretnego użytkownika w czasie rzeczywistym i można stworzyć harmonogram dla jego odbiorców

Nie jest to sieć społecznościowa, ale Stackexchange publikuje okresowo zrzut całej bazy danych:

* Zrzut danych Stackexchange hostowany na archive.org

* Post opisujący schemat zrzutu bazy danych

Możesz wyodrębnić niektóre informacje społecznościowe, analizując, którzy użytkownicy pytają się i odpowiadają sobie nawzajem. Jedną fajną rzeczą jest to, że ponieważ posty są otagowane, możesz łatwo analizować społeczności podrzędne.

Przykład z Niemiec: Xing strona podobna do linksin, ale ograniczona do krajów niemieckojęzycznych. Link do centrali programisty: https://dev.xing.com/overview Zapewnia dostęp do: profili użytkowników, rozmów między użytkownikami (ograniczone do samego użytkownika), ogłoszeń o pracy, kontaktów i kontaktów, wiadomości z sieci i niektórych interfejs geolokalizacji. Tak, ma interfejs API, ale nie znalazłem informacji o stawce. Wydaje mi się jednak, że niektóre informacje są ograniczone do zgody użytkownika.

Interaktywne wykresy podczas rejestrowania danych

Chcę tworzyć wykresy i interaktywnie eksplorować dane na żywo / stale mierzone. Istnieje wiele opcji, a plot.ly jest najbardziej przyjazny dla użytkownika. Plot.ly ma fantastyczny i łatwy w użyciu interfejs użytkownika (łatwo skalowalny, dostosowywalny, łatwo powiększalny / dopasowujący się do ekranu), ale nie obsługuje dużych zbiorów danych, które zbieram. Czy ktoś zna jakieś alternatywy? Mam MATLAB, ale nie mam wystarczającej liczby licencji, aby uruchomić to i jednocześnie rozwijać program. Wiem, że LabVIEW byłby świetną opcją, ale obecnie jest on zbyt kosztowny. Z góry dziękuję!

W tej odpowiedzi założyłem, że wolisz rozwiązania typu open source od wizualizacji dużych zbiorów danych. To założenie opiera się na szczegółach budżetowych z twojego pytania. Jest jednak jedno wyłączenie – poniżej dodam odniesienie do jednego produktu komercyjnego, który moim zdaniem może być korzystny w twoim przypadku (pod warunkiem, że możesz sobie na to pozwolić). Zakładam również, że rozwiązania oparte na przeglądarce są dopuszczalne (wolałbym je, chyba że masz określone sprzeczne wymagania). Oczywiście jako pierwszy kandydat jako rozwiązanie twojego problemu rozważę bibliotekę JavaScript D3.js: http://d3js.org. Jednak pomimo elastyczności i innych korzyści, myślę, że to rozwiązanie jest zbyt niskie. Dlatego polecam przyjrzeć się następującym projektom open source do wizualizacji dużych zbiorów danych, które są wystarczająco wydajne i elastyczne, ale działają w wyższym poziomie abstrakcji (niektóre z nich oparte są na fundamencie D3.js, a czasem nazywane są stosem wizualizacji D3.js).

Bokeh – oparta na Pythonie interaktywna biblioteka wizualizacji, która obsługuje duże zbiory danych i dane strumieniowe: http://bokeh.pydata.org

Flot – interaktywna biblioteka wizualizacji oparta na JavaScript, skoncentrowana na jQuery: http://www.flotcharts.org

NodeBox – unikalny system szybkiej wizualizacji danych (nie oparty na przeglądarce, ale wielojęzyczny i wieloplatformowy), oparty na generatywnym projekcie i wizualnym programowaniu funkcjonalnym: https://www.nodebox.net

Processing- kompletny system programistyczny z własnym językiem programowania, bibliotekami, wtyczkami itp., Zorientowany na treści wizualne: https://www.processing.org (umożliwia wykonywanie programów przetwarzających w przeglądarce za pośrednictwem http: // processingjs. org)

Crossfilter – oparta na JavaScript biblioteka interaktywnej wizualizacji dużych danych według Square (bardzo szybka wizualizacja dużych zbiorów danych na wielu odmianach): http://square.github.io/crossfilter

bigvis – pakiet R do analizy eksploracyjnej dużych zbiorów danych (sam w sobie nie biblioteka wizualizacji, ale może być przydatny do przetwarzania dużych zbiorów danych / agregacji, wygładzania / przed wizualizacją z wykorzystaniem różnych opcji grafiki R): https://github.com/hadley/bigvis

prefuse – interaktywna biblioteka wizualizacji oparta na Javie: http://prefuse.org

Lumify – platforma do integracji, analizy i wizualizacji dużych zbiorów danych (interesująca funkcja: obsługuje Semantic Web): http://lumify.io

Osobno chciałbym wspomnieć o dwóch projektach analizy i wizualizacji dużych zbiorów danych o otwartym kodzie źródłowym, skoncentrowanych na danych grafowych / sieciowych (z pewnym wsparciem dla przesyłania danych tego typu): Cytoscape i Gephi. Jeśli interesują Cię inne, bardziej szczegółowe (obsługa map itp.) Lub komercyjne (podstawowe bezpłatne poziomy), projekty i produkty, zobacz tą niesamowitą kompilację, którą starannie opracowałem, aby wymyślić główną listę powyżej i przeanalizować: http://blog.profitbricks.com/39-data-visualization-tools-for-big-data. Wreszcie, jak obiecałem na początku, Zoomdata – produkt komercyjny, który, jak sądzę, może warto zajrzeć na: http://www.zoomdata.com. Powodem, dla którego go wykluczyłem z mojej kompilacji oprogramowania typu open source, jest jego wbudowana obsługa platform big data. W szczególności Zoomdata zapewnia konektory danych dla Cloudera Impala, Amazon Redshift, MongoDB, Spark i Hadoop, a także wyszukiwarki, główne silniki baz danych i dane przesyłane strumieniowo. Oświadczenie: Nie mam żadnego związku z Zoomdata – byłem pod wrażeniem ich szerokiej gamy opcji łączności (które mogą cię drogo kosztować, ale to kolejny aspekt analizy tego tematu).

Skąd ten nowojorski dziennikarz otrzymał swoje dane z wyszukiwarki Google?

Mam nadzieję, że jest to pytanie odpowiednie dla SO.

Artykuł, o którym mowa: http://www.nytimes.com/2015/01/25/opinion/sunday/sethstephens-davidowitz-search-for-sex.html O ile wiem, jedyne publicznie dostępne dane z wyszukiwarki Google pochodzą z interfejsu API Trends. Strona pomocy stwierdza, że liczby na wykresie odzwierciedlają liczbę wyszukiwań przeprowadzonych dla określonego terminu w stosunku do całkowitej liczby wyszukiwań przeprowadzonych w Google w czasie. Nie reprezentują bezwzględnych liczb operacji wyszukiwania, ponieważ dane są znormalizowane i prezentowane w skali od 0-100. Jednak w artykule autor podaje (bezwzględne) „średnie miesięczne wyszukiwania”. Źródło jest podane jako: Wszystkie miesięczne liczby wyszukiwania są przybliżone i pochodzą z anonimowej i zagregowanej aktywności w sieci.

Źródło: analiza danych Google przez (autora)

Skąd więc wziął tę „anonimową i zagregowaną aktywność internetową”?

Google AdWords. To ma absolutną liczbę wyszukiwań.

Dane dostępne w branży

Zaczynam pracę magisterską i chcę zrobić system wykrywania usterek przy użyciu technik uczenia maszynowego. Potrzebuję zestawów danych do mojej pracy magisterskiej, ale nie wiem, skąd mogę je uzyskać. Szukam danych historycznych dotyczących operacji / konserwacji / usterek dowolnego rodzaju maszyny w przemyśle naftowym i gazowym (wiertarki, wtryskiwacze pary itp.) lub w przedsiębiorstwach elektrycznych (transformatory, generatory itp.).

Publicznie dostępne zestawy danych, w tym Amazon, KDnuggets, Stanford, Twitter, Freebase, Google Public i inne.

Post Views: 317

Dodaj komentarz Anuluj pisanie odpowiedzi